Фреймворк RACG: оценка причинного риска для безопасных ИИ-агентов

Редакция RusNews 15-июн, 11:13 Наука 1 Искусственный интеллект

Исследователи представили новый фреймворк Risk-Aware Causal Gating (RACG) для безопасного управления ИИ-агентами. Метод оценивает не просто уверенность модели, а причинно-следственный риск, что позволяет системе решать, действовать, отложить решение или полностью воздержаться от действия. Работа опубликована на arXiv.

RACG моделирует причинную связь между возможными действиями и результатами. Вместо того чтобы полагаться на сырую предсказательную уверенность, фреймворк использует оценку контрфактического риска для принятия решений. Это помогает избежать ситуаций, когда модель уверена в неправильном ответе.

Для обеспечения надёжности авторы вывели распределительно-свободные границы вероятности действия в условиях высокого риска. Эти границы можно преобразовать в пороги срабатывания, удовлетворяющие заданным пользователем ограничениям безопасности. Кроме того, предложена адаптивная политика гейтинга, которая корректируется при сдвиге распределения данных.

В экспериментах на симулированных вмешательствах и реальных задачах принятия решений RACG значительно сократил количество дорогостоящих ошибок, сохранив при этом большую часть полезности негейтовой политики. Фреймворк превзошёл baseline-методы, основанные на уверенности и селективном предсказании, при одинаковом уровне воздержания.

По мнению авторов, явное разделение причинного риска и предсказательной неопределённости делает системы принятия решений как более безопасными, так и более прозрачными. Это может стать основой для доверенной автоматизации в ответственных областях.

Фреймворк RACG: оценка причинного риска для безопасных ИИ-агентов

Разделы

Навигация

Теги

Фреймворк RACG: оценка причинного риска для безопасных ИИ-агентов

Читайте также

Разделы

Навигация

Теги