Что такое квантизация: как запустить большую нейросеть на слабом компьютере

Что такое квантизация: как запустить большую нейросеть на слабом компьютере

Llama 70B весит 140 ГБ. Ваша видеокарта — 8 ГБ. Кажется, безнадёжно? Вовсе нет! Квантизация позволяет сжать модель в разы — и запустить её на обычном компьютере. Объясняю, как это работает.


Проблема: модели слишком большие

Современные нейросети — это миллиарды чисел (весов). Каждое число занимает место:

  • FP32 (полная точность) — 4 байта
  • FP16 (половинная точность) — 2 байта

Llama 70B в FP16: 70 000 000 000 × 2 байта = 140 ГБ Но как уместить 140 ГБ в 8 ГБ видеопамяти?


Решение: квантизация

Квантизация — это сжатие модели за счёт уменьшения точности чисел. Вместо того чтобы хранить числа с высокой точностью, мы «округляем» их:

  • FP16 (16 бит) → INT8 (8 бит) → INT4 (4 бита)

Аналогия: Это как JPEG. Сжимаем картинку — размер меньше, качество чуть хуже. Но глазом почти не отличишь.


Как это работает

Покажу конкретные цифры. Представьте вес модели: 0.783246 Формат | Значение | Размер FP32 | 0.783246 | 4 байта FP16 | 0.7832 | 2 байта INT8 | 0.78 | 1 байт INT4 | 0.8 | 0.5 байта Точность падает, но:

  • ✅ Размер уменьшается в 2-8 раз
  • ✅ Для большинства обычных задач качество страдает незначительно

Аналогия: Как MP3 vs FLAC. Музыка сжата, но для большинства задач разница незаметна.

В реальности всё чуть сложнее, чем просто «было 16 бит, стало 4». Форматы вроде Q4_K_M хранят не только сами «округлённые» веса, но и дополнительные коэффициенты масштаба. Поэтому итоговый размер и качество зависят от конкретного формата квантизации, а не только от числа бит.


Форматы квантизации

Когда скачиваете модели, встретите такие названия: Формат | Что значит | Размер vs оригинал Q8 | 8-битная квантизация | ~50% Q5_K_M | 5-бит, смешанная | ~35% Q4_K_M | 4-бит, смешанная | ~25% Q4_0 | 4-бит, базовая | ~20% Q2_K | 2-бит, агрессивная | ~15% K_M означает «mixed» — разная точность для разных частей модели.


Сколько памяти нужно

Вот какой формат выбрать именно вам: Модель + Квантизация | Размер | Нужно RAM/VRAM Llama 7B Q4 | ~4 ГБ | 6-8 ГБ Llama 13B Q4 | ~8 ГБ | 10-12 ГБ Llama 70B Q4 | ~40 ГБ | 48+ ГБ Mistral 7B Q4 | ~4 ГБ | 6-8 ГБ Правило:

  • 8 ГБ VRAM — модели до 7B
  • 16 ГБ VRAM — модели до 13B
  • 24 ГБ VRAM — модели до 30B

Важно: размер файла модели не равен точному минимуму памяти для запуска. Нужен запас под контекст, промежуточные вычисления и служебные данные. Если VRAM не хватает, часть модели можно выгрузить в обычную RAM или на CPU, но скорость работы заметно упадёт.


Потеря качества

Насколько хуже квантизированная модель? Квантизация | Потеря качества Q8 | ~1% (почти незаметно) Q5_K_M | ~3-5% Q4_K_M | ~5-10% Q2_K | ~20-30% (заметно) Для большинства задач Q4_K_M — оптимальный баланс размера и качества.


Когда квантизация — хороший выбор

✅ Используйте квантизацию, если:

  • Хотите запустить модель локально
  • У вас ограничена память
  • Задачи не требуют максимальной точности

❌ Не используйте, если:

  • Нужна максимальная точность (наука, медицина)
  • Есть мощное железо (используйте FP16)

📖 Словарик

  • Квантизация — сжатие модели за счёт снижения точности чисел
  • FP16, INT8, INT4 — форматы хранения чисел с разной точностью
  • Q4_K_M — популярный формат: хороший баланс размера и качества
  • VRAM — память видеокарты (критична для локального запуска)

📅 Актуально на: март 2026


А вы уже пробовали запускать квантизированные модели? Какой формат используете? Делитесь опытом!

1

Комментарии (0)

Вы оставляете комментарий как гость. Имя будет назначено автоматически.

Пока нет комментариев.

ESC
Начните вводить текст для поиска