SuperThoughts: сокращение длины цепочки рассуждений LLM на 20-30% без потери точности
Разработчики предложили новый метод SuperThoughts для ускорения рассуждений больших языковых моделей (LLM). Длинные цепочки рассуждений (Chain-of-Thought, CoT) значительно повышают качество ответов, но требуют больших вычислительных затрат из-за последовательной генерации токенов. SuperThoughts решает эту проблему, сжимая пары последовательных токенов CoT в одно латентное представление.
Метод использует лёгкий модуль Multi-Token Prediction (MTP), который декодирует два токена за один шаг. Это позволяет сохранить дискретный контроль на этапе обучения и удвоить пропускную способность при инференсе. Важно, что SuperThoughts не требует полной замены стандартного декодирования: встроен адаптивный механизм, который при неуверенности возвращается к обычному способу.
Исследователи дообучили три версии модели Qwen2.5-Math (1.5B, 7B и 14B параметров) и протестировали их на нескольких бенчмарках: MATH500, AMC, OlympiadBench и GPQA-Diamond. Результаты показали, что SuperThoughts позволяет сократить длину CoT на 20-30% при минимальном снижении точности — в среднем на 1-2 процентных пункта на большинстве задач.
Такой подход особенно полезен для сценариев, где важна скорость ответа, например, в диалоговых системах или при решении математических задач в реальном времени. При этом сохраняется высокое качество рассуждений, близкое к исходному.
Работа опубликована в архиве arXiv (препринт 2606.13862) и предлагает практичный компромисс между вычислительной эффективностью и производительностью LLM. Метод может быть адаптирован и для других моделей, не только семейства Qwen.


