LLM-агенты с инструментальными блоками справились с реальными задачами энергорынка

Группа исследователей опубликовала работу, в которой изучила, как LLM-агенты с набором внешних инструментов справляются с реальными задачами энергетического рынка. Работа закрывает пробел: до сих пор бенчмарки в этой области ограничивались статическим знанием, тогда как энергетика требует доступа к живым данным, понимания нормативных актов и многошаговых количественных рассуждений.

Для оценки была создана среда из 243 задач, разработанных экспертами. Они делятся на три категории: поиск и анализ рыночных данных, извлечение и интерпретация знаний, а также продвинутое количественное моделирование и принятие решений. В числе заданий — анализ цен и спроса, оценка влияния тарифов, расчёт доходов активов, анализ стратегий хеджирования и оптимизационные модели.

Агенты получили доступ к конфигурируемому набору инструментов: API для данных о рынках электроэнергии крупнейших американских системных операторов, поиск по нормативным документам, базы тарифов коммунальных служб, модели оптимизации активов и генерация с дополнением по энергетическим документам. Это позволяет агентам не только отвечать на вопросы, но и выполнять вычисления и обращаться к актуальным источникам.

Оценка проводилась по многомерному протоколу: учитывались правильность подхода, точность ответа, соответствие атрибутам и валидность источников. Для каждого типа задач применялась своя схема оценки. В эксперименте участвовали как проприетарные, так и открытые LLM, что позволило сравнить влияние модели и инструментов.

Результаты показали, что оснащение агентов инструментами значительно улучшает их производительность по сравнению с обычными LLM, особенно в задачах, требующих доступа к реальным данным. Однако остаются проблемы с интерпретацией сложных регуляторных документов и точностью расчётов в многокомпонентных моделях.

Авторы опубликовали ключевые артефакты работы, чтобы другие исследователи могли воспроизвести результаты и развивать тему. Работа выполнена при поддержке научного сообщества и проходит процедуру рецензирования.