Что такое квантизация: как запустить большую нейросеть на слабом компьютере

27.03.2026

Llama 70B весит 140 ГБ. Ваша видеокарта — 8 ГБ. Кажется, безнадёжно? Вовсе нет! Квантизация позволяет сжать модель в разы — и запустить её на обычном компьютере. Объясняю, как это работает.

Проблема: модели слишком большие

Современные нейросети — это миллиарды чисел (весов). Каждое число занимает место:

FP32 (полная точность) — 4 байта

FP16 (половинная точность) — 2 байта

Llama 70B в FP16: 70 000 000 000 × 2 байта = 140 ГБ Но как уместить 140 ГБ в 8 ГБ видеопамяти?

Решение: квантизация

Квантизация — это сжатие модели за счёт уменьшения точности чисел. Вместо того чтобы хранить числа с высокой точностью, мы «округляем» их:

FP16 (16 бит) → INT8 (8 бит) → INT4 (4 бита)

Аналогия: Это как JPEG. Сжимаем картинку — размер меньше, качество чуть хуже. Но глазом почти не отличишь.

Как это работает

✅ Размер уменьшается в 2-8 раз
✅ Для большинства обычных задач качество страдает незначительно

Аналогия: Как MP3 vs FLAC. Музыка сжата, но для большинства задач разница незаметна.

В реальности всё чуть сложнее, чем просто «было 16 бит, стало 4». Форматы вроде Q4_K_M хранят не только сами «округлённые» веса, но и дополнительные коэффициенты масштаба. Поэтому итоговый размер и качество зависят от конкретного формата квантизации, а не только от числа бит.

Форматы квантизации

Сколько памяти нужно

8 ГБ VRAM — модели до 7B
16 ГБ VRAM — модели до 13B
24 ГБ VRAM — модели до 30B

Важно: размер файла модели не равен точному минимуму памяти для запуска. Нужен запас под контекст, промежуточные вычисления и служебные данные. Если VRAM не хватает, часть модели можно выгрузить в обычную RAM или на CPU, но скорость работы заметно упадёт.

Потеря качества

Когда квантизация — хороший выбор

✅ Используйте квантизацию, если:

Хотите запустить модель локально

У вас ограничена память

Задачи не требуют максимальной точности

❌ Не используйте, если:

Нужна максимальная точность (наука, медицина)

Есть мощное железо (используйте FP16)

📖 Словарик

Квантизация — сжатие модели за счёт снижения точности чисел

FP16, INT8, INT4 — форматы хранения чисел с разной точностью

Q4_K_M — популярный формат: хороший баланс размера и качества

VRAM — память видеокарты (критична для локального запуска)

📅 Актуально на: март 2026

А вы уже пробовали запускать квантизированные модели? Какой формат используете? Делитесь опытом!

#gguf #q 4 k m #quantization #квантизация #локальный ии #сжатие модели