Метод PathCal повышает эффективность рассуждений языковых моделей за счет калибровки маркеров рефлексии
Исследователи представили новый метод PathCal, который повышает эффективность рассуждений больших языковых моделей (LRM). Алгоритм калибрует маркеры рефлексии — слова вроде «wait», «but» и «alternatively», которые модель использует для пересмотра и альтернативных вариантов.
Современные LRM генерируют длинные цепочки мыслей (Chain-of-Thought) при решении сложных задач, что требует больших вычислительных затрат. Маркеры рефлексии сигнализируют о неуверенности, однако предыдущие методы не различали их функциональные роли, обрабатывая все хезитации одинаково.
В ходе экспериментов авторы выяснили, что разные типы маркеров по-разному влияют на точность и длину генерации. Кроме того, их влияние максимально до того, как модель выбирает стабильную траекторию рассуждения.
PathCal — это контроллер декодирования, не требующий обучения. Он анализирует распределение маркеров рефлексии на каждом шаге и оценивает конкуренцию между текущей траекторией и потенциальной альтернативной ветвью. Если конкуренция становится чрезмерной, PathCal мягко перебалансирует логиты маркеров.
Тестирование на шести бенчмарках показало, что PathCal улучшает или сохраняет точность, одновременно сокращая длину генерации. Метод не требует внешних верификаторов или дополнительной выборки.
Разработка открывает новые возможности для оптимизации тестового времени при размышлениях ИИ, делая модели быстрее и экономичнее без потери качества.


