Исследователи нашли "утесные токены": причина сбоев LLM в математике
Исследователи из группы SEM Foreign RusNews AI представили новый метод анализа ошибок больших языковых моделей (LLM) в математических рассуждениях. В препринте на arXiv (2606.25524) они ввели понятие «утесного токена» — токена, после которого вероятность правильного ответа резко падает.
Авторы протестировали семь моделей на трех бенчмарках: GSM1K, MATH500 и AIME 2025. Оказалось, что если удалить первый утесный токен и заново сгенерировать ответ, pass@64 достигает 1,0 (100%). Если же оставить этот токен, точность восстанавливается лишь до 0,71–1,00 в зависимости от модели.
Для классификации утесных токенов ученые разработали таксономию из трех типов: детерминированные, неопределенные и «отобранные-мимо» (sampled-off). Каждый тип имеет свои вероятностные характеристики, и таксономия работает для моделей разного масштаба.
Практическая проверка показала: дообучение модели (метод Cliff-DPO) на позициях утесных токенов улучшает точность на всех бенчмарках до +6,6 процентных пункта. При этом оптимизация на неопределенных и отобранных-мимо утесах повышает качество рассуждений, а на детерминированных — нет.
Работа позволяет точнее понимать, на каком именно токене модель «сворачивает» к ошибке, и дает инструмент для целенаправленного улучшения LLM в арифметике и логике.



