После выравнивания ценностей LLM всё ещё могут быть иррациональны в рассуждениях
Исследователи из различных лабораторий представили работу на arXiv, в которой показали: даже после тщательного выравнивания языковых моделей (LLM) по целевым функциям ценности, модели могут демонстрировать иррациональное поведение в ходе рассуждений. Учёные назвали этот феномен «рациональным ценностным риском» (rational value risk) — разрывом между реальной стратегией рассуждения модели и рациональным вариантом, максимизирующим ожидаемую полезность.
Для оценки этого риска авторы разложили его погрешность на три компонента: конечное количество вариантов ответа, конечное число подсказок и несовершенство верификаторов. Эксперименты проводились на широком спектре моделей — семейства Llama-3.1, Qwen-2.5 и Tulu-3 (7B–72B), а также GPT-5.2, GPT-5.5 и DeepSeek-V4. В качестве бенчмарков использовались UltraFeedback, AlpacaEval, GSM8K, MATH, HumanEval и MathArena.
Результаты подтвердили четыре ключевых вывода. Во-первых, рациональный ценностный риск широко распространён — он присутствует у всех протестированных моделей. Во-вторых, выравнивание ценностей (value alignment) может снизить этот риск, но не устраняет его полностью. В-третьих, риск сильно зависит от стратегии рассуждения на этапе инференса. В-четвёртых, увеличение длины рассуждений повышает рациональность, но с убывающей отдачей.
Авторы отмечают, что даже хорошо выровненные модели могут «сбиваться» с оптимального пути в процессе генерации ответа. Это ставит под сомнение достаточность текущих методов выравнивания и подчёркивает важность контроля над стратегией рассуждения во время работы модели. Код эксперимента доступен в открытом репозитории на GitHub.


