Новый метод обучения ИИ: агент сам решает, когда действовать, снижая частоту передачи данных
Международная группа исследователей представила новый подход к обучению с подкреплением (RL), который решает проблему эффективности передачи данных в системах управления. Вместо традиционного вопроса «что делать агенту?» авторы задались вопросом «когда ему нужно действовать?». Результатом стал метод, где одна политика одновременно обучается управляющим сигналам и временным решениям, минимизирующим частоту обмена данными.
Ключевая особенность разработки — использование надёжного щита безопасности на основе функции Ляпунова (run-time assurance, RTA). Этот дополнительный слой в реальном времени проверяет, не нарушит ли запланированное действие условие устойчивости, и при необходимости заменяет его на предварительно рассчитанное резервное управление. Такая схема даёт строгую гарантию безопасности, в отличие от методов, обеспечивающих её лишь в среднем.
Эксперименты на трёх классических задачах — перевёрнутом маятнике, тележке с шестом и плоском квадрокоптере — показали значительный прирост среднего межвыборочного интервала (MSI). По сравнению с триггерным базовым алгоритмом Ляпунова обученная политика достигла в 1,91; 1,45 и 3,51 раза большей длительности между управляющими сигналами соответственно. При этом фиксированный LQR-регулятор с той же средней частотой оказался неустойчивым на всех трёх объектах, что доказывает: разреженность управления достигается именно за счёт адаптивного выбора моментов, а не простого снижения частоты.
Авторы также предложили расширение с учётом предпочтений оператора: из одной модели можно получить полную границу компромисса между стабильностью и частотой связи, затратив лишь 2/11 вычислительных ресурсов от обучения полного набора. Тесты с алгоритмом SAC (Soft Actor-Critic) подтвердили, что результаты не зависят от конкретного метода обучения — они справедливы как для дискретных, так и для непрерывных пространств действий.
В более сложном сценарии — 12-мерный трёхмерный квадрокоптер — метод показал работоспособность и в системах высокой размерности, где классический STC (Self-Triggered Control) неприменим. Дополнительные испытания с изменением массы на ±30% и внешними возмущениями продемонстрировали плавное ухудшение качества: щит безопасности принимал на себя то, с чем не справлялась обученная политика.
Разработка открывает путь к созданию энергоэффективных систем управления для робототехники, беспилотных аппаратов и Интернета вещей, где минимизация обмена данными критична для автономной работы.


