Ученые выявили механизм избегаемого вреда при надзоре человека за ИИ

Международная группа исследователей опубликовала в arXiv работу, посвященную проблеме человеческого контроля над искусственным интеллектом в условиях, когда обе стороны обладают частной информацией. В модели «игры контроля» (Oversight Game) рассматривается ситуация: человек знает свои предпочтения, а ИИ — качество предложенного им действия. Это типично для автономных роботов или программных агентов, которые видят ситуацию, недоступную наблюдателю.
Исследователи построили упрощенную версию задачи — контекстуальный бандит с двусторонней информационной асимметрией. Вместо полного POMDP они использовали однократные раунды, что позволило получить точные аналитические характеристики. В каждом раунде ИИ предлагает действие, человек может либо принять его, либо запросить объяснение (oversight), либо отклонить.
Авторы выявили два типа решений: командный оптимум (наилучший возможный результат) и поведенчески естественное правило близорукого человека. Между ними лежит «избегаемый вред» — область, где ИИ знает, что его предложение вредно и что его остановка была бы полезна, но человек, доверяя своей оценке, не вмешивается.
Этот разрыв авторы назвали ценой недобросовестной коммуникации. Они также проанализировали, как проблема решается со временем за счет пассивного обучения и активного сигнализирования. ИИ может подавать сигналы о вреде, но они запаздывают на один раунд.
Работа имеет практическое значение для безопасного внедрения автономных систем: помогает понять, когда автоматический контроль может быть неэффективным и как это исправить. Исследование пока теоретическое, но закладывает основы для создания более надежных механизмов управления ИИ.







