HORMA: иерархическая память для ИИ-агентов сокращает расход токенов на 78%

Исследователи из международной команды разработали HORMA (Hierarchical Organize-and-Retrieve Memory Agent) — новый подход к управлению рабочей памятью больших языковых моделей (LLM). Система решает одну из ключевых проблем агентов на базе LLM: их неспособность удерживать состояние при длительных задачах. Традиционные методы либо сжимают информацию с потерями, либо используют поиск по сходству, что не учитывает временную структуру и причинно-следственные связи.

HORMA организует опыт агента в иерархическую структуру, похожую на файловую систему. В ней краткие сущности связаны с соответствующими полными траекториями, что позволяет быстро получать доступ к нужной информации без потери деталей. Рабочая память разделена на два этапа: построение структурированной памяти и навигационный поиск.

Модуль построения памяти итеративно уточняет организацию опыта, различая сбои из-за нехватки информации и сбои из-за избыточного или вводящего в заблуждение контекста. Это позволяет адаптивно улучшать структуру по мере обучения. Модуль навигации извлекает релевантный контекст, перемещаясь по иерархии с помощью легковесного агента, обученного с подкреплением выбирать минимально достаточный контекст.

Такой подход снижает задержку на критическом пути выполнения задачи. В тестах на бенчмарках ALFWorld, LoCoMo и LongMemEval HORMA показала улучшение производительности при ограниченном контексте. В задачах с длинными диалогами метод использовал не более 22,17% токенов по сравнению с базовым решением, что означает сокращение расхода примерно на 78%.

По сравнению с существующими методами, HORMA достигает лучшего баланса между эффективностью и производительностью, а также хорошо обобщается на незнакомые задачи. Это открывает новые возможности для практического применения LLM-агентов в сценариях, требующих длительного взаимодействия, например, в робототехнике или виртуальных ассистентах.