Новый бенчмарк MemTrace выявил слабое место долговременной памяти ИИ-агентов

Исследователи из ведущих лабораторий разработали новый бенчмарк MemTrace для оценки долговременной памяти языковых моделей. В отличие от традиционных методов, которые усредняют точность по всем вопросам, MemTrace отслеживает каждый отдельный факт о пользователе, что позволяет выявить скрытые сбои.

Бенчмарк проверяет факты по трём параметрам: давность (через сколько сессий назад появился факт), тип вопроса (текущее состояние, прошлое или изменение) и наличие доказательств (явные, отсутствующие или противоречащие ложной предпосылке). Всего протестировано 13 конфигураций систем памяти в четырёх парадигмах.

Результаты показали, что одинаковая усреднённая точность скрывает разные типы отказов. Например, восстановление текущего и прошлого состояния факта ещё не означает, что модель отслеживает его изменения. Безопасное воздержание от ответа не гарантирует исправления ложной предпосылки.

Ключевой вывод: доминирующим узким местом является не извлечение информации, а её использование. Когда системы терпели неудачу, доказательства были доступны для извлечения в 10 раз чаще, чем полностью отсутствовали. Это означает, что улучшение долговременной памяти требует не просто увеличения объёма хранилища или скорости поиска, а более эффективного применения уже найденной информации.

Работа опубликована на arXiv и может повлиять на разработку будущих ИИ-агентов, работающих с долгосрочными пользовательскими данными. MemTrace предлагает более детальный подход к диагностике и тестированию памяти, выявляя проблемы, которые упускают традиционные метрики.