GILP: новый метод снижает галлюцинации LLM-агентов в 5 раз
Команда исследователей выпустила препринт работы, посвящённой борьбе с галлюцинациями в языковых агентах. Авторы выделяют два типа моделей мира: агентные (на базе LLM API) и параметризованные (обученные предсказатели переходов). Первые гибки, но подвержены ошибкам, которые сложно оценить; вторые проще в обучении, но слабее как планировщики.
На четырёх графовых бенчмарках авторы сравнили оба подхода и ввели метрики галлюцинаций для агентных моделей. Это привело к разработке Grounded Iterative Language Planning (GILP) — метода, который обучает лишь небольшой параметризованный backbone и комбинирует его с API-рассуждениями.
Backbone предоставляет допустимые действия, предсказанные дельты состояния, риск и ценность. LLM формирует действие и воображаемую дельту, а «вентиль согласованности» запрашивает пересмотр при расхождениях. Такой подход позволяет снизить распространение ошибок.
В экспериментах с реальными вызовами GPT-4o-mini GILP сократил долю галлюцинированных состояний с 0.176 до 0.035 — в 5 раз. В калиброванных симуляционных абляциях успешность выросла с 0.668 до 0.838, при добавлении лишь ~22% дополнительных вызовов LLM.
Результаты показывают, что гибридная архитектура эффективно сочетает преимущества обоих типов моделей мира, не требуя полного переобучения большой языковой модели. Это открывает путь к более надёжным агентам для задач планирования и принятия решений.
Исследование доступно на arXiv под идентификатором 2606.27806.



