Новый алгоритм IGT?OMD сокращает потери при обучении с задержкой обратной связи на 17–55%

Редакция RusNews 14-май, 11:23 Наука 1 Искусственный интеллект

Учёные из международной исследовательской группы разработали алгоритм IGT?OMD (Implicit Gradient Transport for Online Mirror Descent), который значительно улучшает обучение моделей в условиях отложенной обратной связи. Результаты работы опубликованы на arXiv и описывают новый подход к оптимизации решений, критически важный для систем, где результаты действий становятся известны с задержкой.

Проблема задержки обратной связи возникает во многих приложениях — от робототехники до финансов. Когда модель принимает решение, а потом долго ждёт его последствий, градиенты устаревают, что ведёт к росту потерь. Авторы идентифицировали особый режим сбоя под названием «усиление устаревания» (staleness amplification), который присущ именно двухуровневой оптимизации под задержкой.

IGT?OMD решает эту проблему с помощью неявного переноса градиентов. Алгоритм пересчитывает устаревшие градиенты на текущих параметрах, используя сохранённые внутренние решения. Это снижает транспортную ошибку с квадратичной до линейной зависимости от задержки. Теоретически доказано, что метод достигает первой сублогарифмической границы сожаления для двухуровневой оптимизации с задержкой.

Эксперименты подтвердили эффективность подхода. В контролируемых тестах выигрыш от коррекции составил от 0% при единичной задержке до 9,5% через 50 раундов (p<0,001). На задачах линейно-квадратичного регулятора, поиска кратчайшего пути на картах Warcraft и оптимального транспорта Синкхорна IGT?OMD снизил потери решений на 17–55% по сравнению с одноуровневыми базовыми методами.

Разработка особенно актуальна для обучения, ориентированного на принятие решений (decision-focused learning), где модель настраивается под конечную задачу оптимизации. Применение IGT?OMD обещает улучшить работу рекомендательных систем, автономных агентов и динамических алгоритмов планирования.

Авторы планируют дальнейшие исследования по адаптации алгоритма к различным типам задержек и интеграции с современными фреймворками глубокого обучения.

Новый алгоритм IGT?OMD сокращает потери при обучении с задержкой обратной связи на 17–55%

Разделы

Навигация

Теги

Новый алгоритм IGT?OMD сокращает потери при обучении с задержкой обратной связи на 17–55%

Читайте также

Разделы

Навигация

Теги