Разработан алгоритм UCB-NOM для задач с ненаблюдаемыми состояниями в марковских бандитах

Редакция RusNews 29-июн, 08:15 Наука 1 Искусственный интеллект

Группа ученых опубликовала в arXiv препринт, посвященный задаче минимизации сожаления в марковских бандитах с ненаблюдаемыми состояниями. В таких системах агент не может напрямую видеть текущее состояние среды, что усложняет принятие решений. Работа также рассматривает случаи с ограниченными эпохами принятия решений.

Авторы вводят новое понятие — самодеградирующие марковские бандиты, обобщающие классическую модель. Для этого класса чистые политики (выбор одного оптимального рычага без переключений) оказываются асимптотически оптимальными. Однако если алгоритм редко переключает рычаги, его сожаление растет сверхлогарифмически — как ?(log(T)), где T — горизонт обучения.

Несмотря на принципиальную недостижимость логарифмического режима, исследователи предложили оптимистичный алгоритм UCB-NOM, вдохновленный знаменитым UCB. Он демонстрирует почти логарифмическое сожаление, что является значительным шагом вперед. Важно, что полученные оценки не зависят от числа состояний марковских цепей.

Если же имеется априорная информация о бандите, а именно — оценка функции смещения его рычагов, то UCB-NOM с соответствующей настройкой достигает сожаления O(log(T)). Кроме того, в наихудшем случае алгоритм гарантирует сожаление O(?(T log T)).

Результаты показывают, что ненаблюдаемость состояний не является критическим препятствием для самодеградирующих марковских бандитов. Разработка открывает новые возможности для применения методов обучения с подкреплением в задачах с частичной наблюдаемостью, таких как интернет-реклама или управление ресурсами.

Полный текст работы доступен на arXiv под номером 2606.27448. Код алгоритма авторы планируют опубликовать позже.

Разработан алгоритм UCB-NOM для задач с ненаблюдаемыми состояниями в марковских бандитах

Разделы

Навигация

Теги

Разработан алгоритм UCB-NOM для задач с ненаблюдаемыми состояниями в марковских бандитах

Читайте также

Разделы

Навигация

Теги