Исследование: LLM тратят до 93% лишних размышлений в цепочках мыслей

Модели искусственного интеллекта, способные рассуждать, тратят значительную часть вычислительных ресурсов на избыточные размышления. Новое исследование, опубликованное на arXiv, впервые количественно оценило этот феномен и предложило теоретическое объяснение.

Авторы работы (arXiv:2605.23926) ввели понятие избыточности рассуждений (reasoning redundancy). Для правильного ответа избыточность — это максимальная доля конечных сегментированных шагов, которые можно обрезать, пока модель, вынужденная завершить размышления и дать ответ, всё ещё выдаёт верный результат.

Измерения проводились на четырёх передовых моделях рассуждений и двух математических тестах. Результаты показали, что избыточность на уровне шагов стабильно высока: от 61% до 93% в зависимости от модели и бенчмарка. В шести из восьми исследованных комбинаций медианная критическая префиксная длина равнялась одному единственному сегментированному шагу.

Интересно, что даже на самых сложных задачах (уровень 5 в MATH-500) избыточность оставалась существенной — от 46% до 85%. Авторы проверили, что результат устойчив к выбору модели-судьи.

Теоретический анализ показал, что такая избыточность является не багом отдельных моделей, а структурным свойством их обучения. Доказано, что при использовании наград, не зависящих от длины цепочки рассуждений (length-agnostic outcome rewards), никакое конечное ожидаемое время остановки не является оптимальным. Это означает, что переразмышление заложено в сам принцип обучения, независимо от алгоритма RL, базовой модели или распределения данных.

Исходный код для воспроизведения экспериментов доступен на GitHub. Исследователи подчёркивают: чрезмерные размышления — не баг, который можно исправить в отдельных моделях, а следствие того, как современные модели рассуждений обучаются.