Фреймворк RACG: оценка причинного риска для безопасных ИИ-агентов
Исследователи представили новый фреймворк Risk-Aware Causal Gating (RACG) для безопасного управления ИИ-агентами. Метод оценивает не просто уверенность модели, а причинно-следственный риск, что позволяет системе решать, действовать, отложить решение или полностью воздержаться от действия. Работа опубликована на arXiv.
RACG моделирует причинную связь между возможными действиями и результатами. Вместо того чтобы полагаться на сырую предсказательную уверенность, фреймворк использует оценку контрфактического риска для принятия решений. Это помогает избежать ситуаций, когда модель уверена в неправильном ответе.
Для обеспечения надёжности авторы вывели распределительно-свободные границы вероятности действия в условиях высокого риска. Эти границы можно преобразовать в пороги срабатывания, удовлетворяющие заданным пользователем ограничениям безопасности. Кроме того, предложена адаптивная политика гейтинга, которая корректируется при сдвиге распределения данных.
В экспериментах на симулированных вмешательствах и реальных задачах принятия решений RACG значительно сократил количество дорогостоящих ошибок, сохранив при этом большую часть полезности негейтовой политики. Фреймворк превзошёл baseline-методы, основанные на уверенности и селективном предсказании, при одинаковом уровне воздержания.
По мнению авторов, явное разделение причинного риска и предсказательной неопределённости делает системы принятия решений как более безопасными, так и более прозрачными. Это может стать основой для доверенной автоматизации в ответственных областях.


