FPILOT: оптимизация торговых агентов с прогнозами цен без переобучения

Традиционные агенты подкрепления обучения для управления портфелем обычно обучаются и применяются как статические политики, не использующие прогнозы цен в момент принятия решений. Это ограничивает их способность адаптироваться к меняющимся рыночным условиям.

Новый фреймворк FPILOT (Financial Plugin Inference-time Learning for Optimal Trading) решает эту проблему, позволяя агенту оптимизировать свою политику прямо на этапе вывода на основе прогноза цен. Идея вдохновлена моделью прогностического управления (MPC), однако ключевое отличие в том, что будущие цены в малой степени зависят от портфеля единственного агента, поэтому можно использовать прогноз без итеративных разверток действий.

На каждом шаге принятия решения FPILOT использует предсказанную траекторию цен для конструирования целевой функции «воображаемой» доходности на основе распределения активов, после чего оптимизирует политику перед выполнением одного шага торговли.

Фреймворк совместим с любым предварительно обученным агентом — адаптация к прогнозам происходит без переобучения. Это делает его практичным дополнением к существующим моделям.

Эксперименты на бенчмарке TradeMaster DJ30 с пятью различными алгоритмами обучения политики показали, что FPILOT стабильно улучшает общую доходность и риск-скорректированные метрики: коэффициент Шарпа, Сортино и Калмара. Стохастические политики выигрывают сильнее, чем детерминированные.

Дополнительно авторы протестировали синтетические прогнозы разного качества: результаты показывают, что выгода от метода растёт по мере повышения точности прогнозов. Таким образом, FPILOT может усиливаться благодаря прогрессу в финансовом прогнозировании.