Ученые нашли способ повысить точность LLM-агентов в корпоративных финансах на 91,6%
Группа исследователей представила результаты экспериментов по оптимизации контекста для больших языковых моделей (LLM), используемых в качестве автономных агентов. Работа была выполнена на платформе Microsoft Dynamics 365 Finance and Operations для автоматизации учета расходов в отелях.
В ходе тестирования на 50 задачах по разнесению расходов сравнивались четыре конфигурации GPT-5: без учета модели пользователя, с полной историей диалога, с контекстом, ограниченным последними пятью вызовами инструментов, и с контекстом, дополненным автоматической суммаризацией. Результаты усреднялись по пяти независимым прогонам.
Базовый вариант без модели пользователя показал лишь 8% полного разнесения расходов. Полное сохранение контекста увеличило показатель до 71%, однако потребовало почти 1,5 миллиона токенов и 14,5 часов на весь бенчмарк. Сокращение контекста до последних пяти вызовов повысило качество до 79% при снижении затрат токенов до 535 тысяч и времени до 5,4 часов.
Наилучший результат дало сочетание усеченного контекста и автоматической суммаризации: 91,6% полного разнесения и 99,64% средней суммы расходов. При этом использовалось 553 тысячи токенов, а выполнение заняло 5,8 часов.
Авторы также приводят доверительные интервалы, анализ эффектов, чувствительность к размерам окна контекста и результаты для различных категорий расходов. Дополнительно были проведены тесты с моделью Claude Sonnet 4.5, подтвердившие общую тенденцию.
По мнению ученых, для класса корпоративных бизнес-процессов с использованием инструментов выборочное сохранение недавних взаимодействий вместе с компактной суммаризацией может существенно повысить как надежность, так и эффективность по сравнению с хранением полной истории. Это позволяет снизить стоимость инференса и избежать переполнения контекста.
Результаты опубликованы в препринте на arXiv. Исследование может быть полезно компаниям, внедряющим LLM-агентов для автоматизации финансовых операций в корпоративных системах.



