Квантование моделей ИИ неожиданно увеличивает длину цепочек рассуждений
Квантование широко применяется для снижения вычислительной нагрузки больших языковых моделей, однако его влияние на модели рассуждения оказалось не столь однозначным. В новой работе на arXiv показано, что низкобитное пост-тренировочное квантование может приводить к скрытому росту затрат на этапе инференса.
Исследователи обнаружили, что квантованные модели (INT4/INT3) нередко генерируют значительно более длинные цепочки рассуждений (CoT), даже если итоговый ответ остаётся верным. Этот эффект назван инфляцией токенов рассуждения (token inflation).
Для количественной оценки был введён коэффициент инфляции токенов CoT (CoT Token Inflation Ratio), который сравнивает длину рассуждений между квантованной и полной версией модели, усреднённую по всем бенчмаркам. В тестах на математику, генерацию кода, научные вопросы и работу с инструментами точность часто сохранялась, но количество токенов возрастало, частично нивелируя выигрыш в скорости на один токен.
Помимо роста длины, были зафиксированы поведенческие изменения: больше промежуточных шагов и семантических повторов. Это приводит к измеримым последствиям для реальных серверных нагрузок — фактическая производительность может не улучшиться, несмотря на кажущееся ускорение.
Авторы также оценили возможные стратегии смягчения эффекта. Простые методы вроде изменения промптов и декодирования дают нестабильные результаты: соотношение точности и длины варьируется. Более перспективным выглядит обучение с учётом квантования (quantization-aware training), которое позволяет одновременно снизить потерю точности и рост числа токенов.
Выводы работы подчёркивают, что при оценке квантованных моделей рассуждения необходимо сообщать не только точность, но и метрики количества использованных токенов, иначе реальная эффективность может быть переоценена.



