Параллельное уплотнение контекста: новый метод для долгоживущих LLM-агентов

Исследователи из SEM Foreign RusNews AI представили новый метод параллельного уплотнения контекста (Parallel Context Compaction) для длительных сессий работы LLM-агентов. Работа опубликована на arXiv (2605.23296) и призвана решить проблему выхода истории диалога за пределы контекстного окна модели.

По мере накопления переписки агент вынужден сжимать её с помощью LLM-суммаризации. Однако стандартный последовательный подход требует блокирующего вызова на несколько десятков секунд, а объём сжатия плохо контролируется — инструкции игнорируются, а объём выходных токенов и точность извлечения информации сильно колеблются от запуска к запуску.

Новый алгоритм обрабатывает блоки истории параллельно, что даёт оператору возможность точно управлять объёмом сжатия и более адресно настраивать промпты для каждого блока. При одинаковом итоговом объёме сжатия параллельная версия демонстрирует существенное сокращение времени выполнения и рост пропускной способности.

Метод протестирован на четырёх языковых моделях с размером от 8 до 120 миллиардов параметров, включая как плотные, так и смешанные архитектуры (MoE), а также рассуждающие и обычные модели. Бенчмарки — HotpotQA (многоходовые вопросы) и LoCoMo (длинные диалоги).

Авторы подчёркивают, что параллельное уплотнение контекста позволяет избежать неопределённости в сохранении ключевой информации, делая поведение агента более предсказуемым при повторных запусках. Техника особенно актуальна для приложений, где агент работает непрерывно в течение длительного времени, например в ассистентах или системах автоматизации.

Разработчики планируют интегрировать механизм в популярные фреймворки для LLM-агентов, чтобы упростить его внедрение. В ближайших исследованиях они намерены изучить влияние параллельного сжатия на качество извлечения фактов в более сложных сценариях.