Волатильность стимулирует исследование, а стохастичность подавляет — новое исследование

Адаптивное принятие решений в биологическом и искусственном интеллекте требует баланса между использованием известных результатов и исследованием неопределенных альтернатив. Однако до сих пор разные типы неопределенности окружающей среды часто считались эквивалентными.

В новой работе, представленной на arXiv, рассматриваются среды, в которых скрытые состояния вознаграждения изменяются со временем (волатильность) и наблюдаются через шумные исходы (стохастичность). Оба фактора увеличивают апостериорную неопределенность, но, как показано, ведут к противоположным эффектам: волатильность усиливает исследование, а стохастичность его подавляет.

Авторы формально установили эту асимметрию, расширив фреймворк индекса Гиттинса на гауссовские многорукие бандиты со скрытой динамикой. Полученный метод, названный Cause-Aware Uncertainty-Sensitive Exploration (CAUSE), представляет собой аналитический бонус за исследование, наследуемый те же монотонные свойства.

CAUSE показал более высокую эффективность по сравнению со стандартными стратегиями исследования в средах с гетерогенной шумовой структурой. Он также превзошел политику, основанную на индексе Гиттинса для каждого плеча, оптимальность которой в остальных бандитах не переносится на нестационарные условия.

Исследование подчеркивает, что обучение и исследование подчиняются одной и той же асимметрии в отношении шума. Полученные результаты предсказывают, что патологическая интерпретация шума приводит не просто к ослабленному, а к обратному исследованию, что имеет значение для вычислительных моделей психических расстройств.