Исследователи снизили галлюцинации ИИ на 35% с помощью многоагентной архитектуры и кэширования

Проблема галлюцинаций — ложных или неподтверждённых фактов — остаётся одним из главных барьеров для внедрения больших языковых моделей (LLM) в производственные системы. Особенно остро она стоит в многоагентных цепочках, где ошибка одного агента может усиливаться на следующих этапах. Исследователи предложили архитектуру, сочетающую вложенное обучение, системы непрерывной памяти и семантическое кэширование.

Работа, опубликованная на arXiv, описывает трёхуровневый пайплайн агентов, построенный по протоколу Open Floor Protocol (OFP). Первый агент (FrontEndAgent) генерирует ответы с высокой вариативностью (температура = 1,0), имитируя реалистичный уровень галлюцинаций. Второй и третий агенты (SecondLevelReviewer и ThirdLevelReviewer) выступают в роли корректоров, последовательно проверяя факты.

Авторы адаптировали архитектуру HOPE-Inspired Nested Learning с использованием Continuum Memory Systems (CMS) и семантического кэширования для гибридного бенчмарка из 310 запросов. Бенчмарк включал 217 тестов на эпистемическую неопределённость и 93 стресс-теста на склонность к выдумыванию фактов. Оценка проводилась по пяти показателям: FCD (плотность фактических утверждений), FGR (ссылки на фактические источники), FDF (частота фиктивных оговорок), ECS (явная оценка контекстуализации) и OSR (коэффициент наблюдаемости).

Комбинированный показатель THS (Total Hallucination Score) рассчитывался так, что отрицательные значения означают более сильное подавление галлюцинаций. Пайплайн продемонстрировал снижение THS на 31,3% до 35,9% в зависимости от конфигурации весов. Наилучший результат (–0,0709) показала конфигурация ExtremeObservability, подтвердив, что усиление наблюдаемости не ухудшает, а улучшает работу системы.

Отдельно оценивалась эффективность семантического кэширования: 440 попаданий из 930 возможных вызовов (47,3% hit rate). Благодаря этому количество обращений к LLM сократилось до 490, что значительно снижает энергопотребление и углеродный след. Такая экономия делает многоступенчатые системы проверки фактов практически осуществимыми в промышленных масштабах.

По мнению исследователей, предложенная архитектура позволяет совместно повысить фактическую надёжность, операционную эффективность и аудируемость без необходимости дообучения моделей. Результаты указывают на то, что память и многоагентные механизмы могут стать ключевым подходом к борьбе с галлюцинациями в LLM.