Новый метод ИИ для управления распределёнными энергоресурсами: обучение с подкреплением на основе демонстраций
Международная группа учёных представила новый подход к управлению распределёнными энергоресурсами (DER) — Supervised Reinforcement Learning (SRL). Растущая интеграция DER, таких как солнечные панели и накопители, необходима для декарбонизации энергосистем, но их неопределённость и сложность моделей создают трудности для традиционных методов оптимизации.
В ответ на это исследователи обратились к обучению с подкреплением (RL), которое уже показало перспективы в управлении DER. Однако стандартные RL-алгоритмы страдают от неэффективности использования данных и неоптимальности при обучении с нуля. Вдохновившись подходами обучения больших языковых моделей, авторы разработали SRL-фреймворк, который сначала предобучает политику на демонстрационных данных в режиме обучения с учителем, а затем донастраивает её с помощью RL.
Особенностью метода является двухэтапная донастройка: сначала офлайн — для улучшения производительности политики, затем онлайн — для адаптации к реальным условиям работы. Эксперименты показали, что реализации RL на основе предложенного фреймворка значительно превосходят все бенчмарки, достигая высокой экономической эффективности даже при использовании некачественных демонстрационных данных.
Как поясняется в статье на arXiv, традиционные методы сталкиваются с проблемой масштабирования и учёта стохастичности DER. Новый подход решает эти ограничения, комбинируя сильные стороны обучения с учителем и RL. Это позволяет быстрее обучать политики и лучше адаптироваться к изменяющимся условиям.
Разработка может ускорить внедрение возобновляемой энергетики и повысить гибкость энергосистем. Авторы подчёркивают, что метод подходит для различных типов DER и может быть интегрирован в существующие системы управления. Дальнейшие исследования будут направлены на тестирование в реальных пилотных проектах.


