TRIDENT: новый MARL-фреймворк сокращает нарушения безопасности на 95%
Исследователи из команды, представившей работу на arXiv, разработали TRIDENT — фреймворк для безопасного многолетнего обучения с подкреплением (MARL). Работа решает одну из ключевых проблем в робототехнике и автономных системах: сочетание гибридных дискретно-непрерывных действий, физических ограничений и требований безопасности на этапе обучения.
Как показали авторы, существующие методы сталкиваются с циклом систематических ошибок при попытке совместить эти три аспекта. Они формализовали это как лемму о трехсторонней связи, доказывающую, что наивная комбинация готовых модулей неэффективна.
TRIDENT — это первый MARL-фреймворк, три компонента которого спроектированы совместно, чтобы устранить взаимные утечки. Первый компонент — коррекция градиента Ричардсона-Ромберга, снижающая смещение Gumbel-Softmax с O(tau) до O(tau^2). Второй — последовательное обновление доверительной области с ограничениями Ляпунова, обеспечивающее выполнимость на каждой итерации. Третий — физически информированный остаточный критик, который раскладывает значение, а не вознаграждение.
Авторы доказали, что TRIDENT сходится к ограниченному равновесию Нэша со скоростью O~(1/sqrt(K)) и имеет границу кумулятивных нарушений O(sqrt(K)). Это означает, что алгоритм гарантированно улучшает безопасность в процессе обучения.
Эксперименты проводились в трех средах: многороевое мобильное облачное взаимодействие (MEC), автономное управление перекрестками и гибридный вариант SMAC. TRIDENT показал снижение нарушений на 95,5% по сравнению с MADDPG и на 76,3% по сравнению с MACPO. При этом вознаграждение выросло на 13,5% относительно сильнейшего неограниченного базового алгоритма.
Такие результаты открывают путь к более безопасному внедрению систем ИИ в реальных киберфизических системах, где ошибки обучения могут приводить к авариям. Фреймворк может найти применение в автономном транспорте, промышленной робототехнике и сетевых системах.
Разработчики отмечают, что TRIDENT не требует предварительных знаний о динамике системы, используя физически информированное обучение. Это делает его универсальным для различных задач, где важна безопасность на этапе обучения.


