EDRM: новый метод определяет, когда LLM стоит включать цепочку рассуждений

Цепочка рассуждений (Chain-of-Thought, CoT) стала стандартным приёмом для улучшения работы больших языковых моделей (LLM). Однако её применение не всегда оправдано: на фактологических и открытых задачах CoT часто даёт лишь незначительный прирост или даже ухудшает результат, увеличивая при этом расход токенов. Исследователи задались вопросом: когда же CoT действительно полезна?

В новой работе на arXiv представлен подход, рассматривающий рассуждение LLM не как статическое свойство задачи или модели, а как динамическое состояние декодирования, возникающее в процессе генерации. Авторы обнаружили, что динамика энтропии на ранних этапах генерации служит надёжным индикатором: задачи, выигрывающие от CoT, демонстрируют последовательное снижение энтропии, тогда как для неэффективных задач энтропия нестабильна или растёт.

Это поведение интерпретируется как фазовый переход из высокоэнтропийного исследовательского режима в низкоэнтропийный режим структурированного рассуждения. На основе этого открытия разработан метод EDRM (Entropy Dynamics-based Reasoning Manifold) — лёгкая и не требующая обучения система маршрутизации, которая использует раннюю энтропию декодирования для адаптивного выбора стратегии вывода.

EDRM встраивает траектории энтропии в компактное и интерпретируемое представление на многообразии, что позволяет как применять его без дополнительной настройки, так и адаптироваться на уровне отдельных примеров. Метод протестирован на 15 бенчмарках и 4 LLM различных масштабов и архитектур.

Результаты показывают, что EDRM последовательно превосходит статические базовые подходы. На уровне наборов данных метод достигает сокращения количества токенов на 41–55% при сохранении или повышении точности, используя всего 50 калибровочных примеров. На уровне отдельных примеров EDRM улучшает точность до 4,7% при экономии токенов 27–45%.

Эти результаты указывают на то, что рассуждение должно вызываться выборочно, а не по умолчанию. Разработка демонстрирует эффективность управления декодированием на основе энтропии для создания более рациональных и адаптивных LLM-систем.