Новый метод LearnStop позволяет моделям ИИ экономить ресурсы за счет ранней остановки рассуждений
Результаты нового исследования, опубликованного на arXiv, показывают, что обученное правило остановки может значительно повысить эффективность рассуждений языковых моделей. Разработанный метод LearnStop анализирует текущее состояние рассуждений на фиксированных контрольных точках и предсказывает правильность промежуточного ответа, используя такие признаки, как уверенность модели, энтропия, стабильность ответов и плотность маркеров возврата.
Авторы протестировали LearnStop на 18 комбинациях задач и моделей, включая GSM8K, MATH-500, MMLU-Pro, AIME-90, GPQA, а также модели Qwen3 и дистилляции DeepSeek-R1. Результаты оказались зависимыми от типа задачи. На свободных математических задачах (например, GSM8K с Qwen3-32B) метод улучшил границу эффективности и превзошёл стандартные скалярные критерии остановки: фиксированный прирост адаптивности достиг +0.157, а парный выигрыш над лучшим скалярным базовым методом составил +0.028.
Однако на задачах множественного выбора и очень сложных настройках простые скалярные правила (например, по уверенности или стабильности) оказались не менее эффективными. Это означает, что LearnStop не является универсальной заменой, а скорее инструментом, чья ценность зависит от структуры траектории рассуждений.
Практический вывод состоит в том, что обученная остановка полезна, когда ответы на многие вопросы становятся верными задолго до исчерпания бюджета вычислений, но при этом не демонстрируют надёжного скалярного сигнала для остановки. В случаях, когда уверенность или сходимость ответа уже решают проблему, преимущества метода сходят на нет.
Помимо основных результатов, исследование включает калибровку рисков, анализ передачи между настройками, оценку стоимости при различных режимах вычислений (KV-fork, префикс-кэширование, чёрный ящик), а также профили нагрузки на H100. Работа выполнена в формате открытой препринтной публикации и доступна на платформе arXiv под идентификатором 2606.30852.


