GILP: новый метод снижает галлюцинации LLM-агентов в 5 раз

Редакция RusNews 29-июн, 11:28 Наука 1 Искусственный интеллект

Команда исследователей выпустила препринт работы, посвящённой борьбе с галлюцинациями в языковых агентах. Авторы выделяют два типа моделей мира: агентные (на базе LLM API) и параметризованные (обученные предсказатели переходов). Первые гибки, но подвержены ошибкам, которые сложно оценить; вторые проще в обучении, но слабее как планировщики.

На четырёх графовых бенчмарках авторы сравнили оба подхода и ввели метрики галлюцинаций для агентных моделей. Это привело к разработке Grounded Iterative Language Planning (GILP) — метода, который обучает лишь небольшой параметризованный backbone и комбинирует его с API-рассуждениями.

Backbone предоставляет допустимые действия, предсказанные дельты состояния, риск и ценность. LLM формирует действие и воображаемую дельту, а «вентиль согласованности» запрашивает пересмотр при расхождениях. Такой подход позволяет снизить распространение ошибок.

В экспериментах с реальными вызовами GPT-4o-mini GILP сократил долю галлюцинированных состояний с 0.176 до 0.035 — в 5 раз. В калиброванных симуляционных абляциях успешность выросла с 0.668 до 0.838, при добавлении лишь ~22% дополнительных вызовов LLM.

Результаты показывают, что гибридная архитектура эффективно сочетает преимущества обоих типов моделей мира, не требуя полного переобучения большой языковой модели. Это открывает путь к более надёжным агентам для задач планирования и принятия решений.

Исследование доступно на arXiv под идентификатором 2606.27806.

GILP: новый метод снижает галлюцинации LLM-агентов в 5 раз

Разделы

Навигация

Теги

GILP: новый метод снижает галлюцинации LLM-агентов в 5 раз

Читайте также

Разделы

Навигация

Теги