BayesBench: новый тест оценивает, насколько LLM обновляют убеждения как байесовцы
Международная группа исследователей разработала бенчмарк BayesBench для оценки способности больших языковых моделей (LLM) рационально обновлять убеждения по мере получения новой информации в диалогах. В отличие от стандартных тестов, проверяющих только финальный ответ, BayesBench отслеживает всю траекторию изменений вероятностных оценок модели.
Бенчмарк включает три задания возрастающей сложности: байесовское оценивание (вывод неизвестного параметра по последовательным данным), байесовское предсказание (прогнозирование исхода на основе выведенных убеждений) и предсказание со скрытой рамкой пользователя (требующее совместного вывода скрытого состояния и персоны).
В экспериментах участвовали семь LLM размером от 3 до 70 миллиардов параметров. Результаты показали, что увеличение масштаба модели улучшает способность выявлять скрытые закономерности и накапливать свидетельства — в некоторых случаях обновления убеждений совпадали с байесовским апостериорным распределением.
Однако эти успехи не всегда переносились на последующие прогнозы. Между умением делать выводы о скрытых переменных и рациональным использованием этих выводов для обновления убеждений о целевых событиях сохраняется разрыв. Это означает, что модели могут верно идентифицировать скрытые факторы, но не применяют их должным образом при формировании итоговых предсказаний.
По мнению авторов, работа указывает на необходимость более глубокого тестирования рассуждений LLM в динамических контекстах. BayesBench открывает путь к разработке моделей, способных не просто запоминать ответы, а действительно учиться на потоке информации, приближаясь к рациональному поведению.
Исследование представлено в виде препринта на arXiv (ID: 2606.30850) и доступно для ознакомления научному сообществу.







