Что такое квантизация: как запустить большую нейросеть на слабом компьютере
Llama 70B весит 140 ГБ. Ваша видеокарта — 8 ГБ. Кажется, безнадёжно? Вовсе нет! Квантизация позволяет сжать модель в разы — и запустить её на обычном компьютере. Объясняю, как это работает.
Проблема: модели слишком большие
Современные нейросети — это миллиарды чисел (весов). Каждое число занимает место:
- FP32 (полная точность) — 4 байта
- FP16 (половинная точность) — 2 байта
Llama 70B в FP16: 70 000 000 000 × 2 байта = 140 ГБ Но как уместить 140 ГБ в 8 ГБ видеопамяти?
Решение: квантизация
Квантизация — это сжатие модели за счёт уменьшения точности чисел. Вместо того чтобы хранить числа с высокой точностью, мы «округляем» их:
- FP16 (16 бит) → INT8 (8 бит) → INT4 (4 бита)
Аналогия: Это как JPEG. Сжимаем картинку — размер меньше, качество чуть хуже. Но глазом почти не отличишь.
Как это работает
Покажу конкретные цифры. Представьте вес модели: 0.783246 Формат | Значение | Размер FP32 | 0.783246 | 4 байта FP16 | 0.7832 | 2 байта INT8 | 0.78 | 1 байт INT4 | 0.8 | 0.5 байта Точность падает, но:
- ✅ Размер уменьшается в 2-8 раз
- ✅ Для большинства обычных задач качество страдает незначительно
Аналогия: Как MP3 vs FLAC. Музыка сжата, но для большинства задач разница незаметна.
В реальности всё чуть сложнее, чем просто «было 16 бит, стало 4». Форматы вроде Q4_K_M хранят не только сами «округлённые» веса, но и дополнительные коэффициенты масштаба. Поэтому итоговый размер и качество зависят от конкретного формата квантизации, а не только от числа бит.
Форматы квантизации
Когда скачиваете модели, встретите такие названия: Формат | Что значит | Размер vs оригинал Q8 | 8-битная квантизация | ~50% Q5_K_M | 5-бит, смешанная | ~35% Q4_K_M | 4-бит, смешанная | ~25% Q4_0 | 4-бит, базовая | ~20% Q2_K | 2-бит, агрессивная | ~15% K_M означает «mixed» — разная точность для разных частей модели.
Сколько памяти нужно
Вот какой формат выбрать именно вам: Модель + Квантизация | Размер | Нужно RAM/VRAM Llama 7B Q4 | ~4 ГБ | 6-8 ГБ Llama 13B Q4 | ~8 ГБ | 10-12 ГБ Llama 70B Q4 | ~40 ГБ | 48+ ГБ Mistral 7B Q4 | ~4 ГБ | 6-8 ГБ Правило:
- 8 ГБ VRAM — модели до 7B
- 16 ГБ VRAM — модели до 13B
- 24 ГБ VRAM — модели до 30B
Важно: размер файла модели не равен точному минимуму памяти для запуска. Нужен запас под контекст, промежуточные вычисления и служебные данные. Если VRAM не хватает, часть модели можно выгрузить в обычную RAM или на CPU, но скорость работы заметно упадёт.
Потеря качества
Насколько хуже квантизированная модель? Квантизация | Потеря качества Q8 | ~1% (почти незаметно) Q5_K_M | ~3-5% Q4_K_M | ~5-10% Q2_K | ~20-30% (заметно) Для большинства задач Q4_K_M — оптимальный баланс размера и качества.
Когда квантизация — хороший выбор
✅ Используйте квантизацию, если:
- Хотите запустить модель локально
- У вас ограничена память
- Задачи не требуют максимальной точности
❌ Не используйте, если:
- Нужна максимальная точность (наука, медицина)
- Есть мощное железо (используйте FP16)
📖 Словарик
- Квантизация — сжатие модели за счёт снижения точности чисел
- FP16, INT8, INT4 — форматы хранения чисел с разной точностью
- Q4_K_M — популярный формат: хороший баланс размера и качества
- VRAM — память видеокарты (критична для локального запуска)
📅 Актуально на: март 2026
А вы уже пробовали запускать квантизированные модели? Какой формат используете? Делитесь опытом!
Похожие новости
ChatGPT видит ваши данные. Но есть альтернатива — запустить нейросеть на своём компьютере. Рассказываю, как это работает в 2026.
В 2026 году мощный ИИ может жить в вашем ноутбуке без интернета. Разбираемся, что такое Open Source модели и как запустить Llama 4 или DeepSeek дома.
Зачем платить за токены OpenAI, если ваша видеокарта может запустить агента локально? Разбираем битву гигантов: NemoClaw от NVIDIA против Operator. Кто быстрее, приватнее и надежнее в 2026 году? Узнай...
Пока нет комментариев.