Исследователи предложили метод безопасного обучения ИИ на основе предпочтений толпы

Редакция RusNews 23-май, 11:44 Наука 1 Искусственный интеллект

Группа исследователей представила метод Safe Crowd Preference-based RL (SafeCPRL), решающий проблему переноса неявных критериев безопасности из данных о предпочтениях пользователей на задачи обучения с подкреплением (RL). Работа опубликована на arXiv.

Традиционный подход RLHF предполагает обучение модели вознаграждения на основе человеческих предпочтений, однако прямая комбинация такой модели с наградой за выполнение задачи часто приводит к компромиссу между эффективностью и безопасностью. Авторы показали, что такой способ имеет внутренние ограничения.

Вместо этого SafeCPRL использует иерархическую структуру: сначала из данных о предпочтениях извлекаются «навыки», соответствующие общим для пользователей критериям безопасности, а затем высокоуровневая политика комбинирует их для безопасного решения целевых задач. Это позволяет системе учитывать безопасность без необходимости в явных сигналах (например, вручную заданных штрафах).

Эксперименты проводились на стандартных средах безопасного RL, а также на задаче, имитирующей работу языковой модели с разнообразными целями пользователей. Результаты показали, что SafeCPRL снижает «стоимость» безопасности (число нарушений ограничений) в среднем на 40–60% по сравнению с базовыми методами, при этом производительность (успешность выполнения задачи) остаётся на уровне эталонных алгоритмов, обученных с точной информацией о безопасных границах.

По мнению исследователей, предложенный подход может быть полезен при разработке ассистентов, роботов и других ИИ-систем, где важно сочетать эффективность с соблюдением негласных социальных норм и правил безопасности. Метод не требует разметки явных сигналов безопасности, а опирается на естественные предпочтения пользователей.

Работа открывает путь к более гибкому и масштабируемому безопасному обучению с подкреплением, где критерии безопасности не задаются жёстко, а динамически извлекаются из коллективного опыта.

Исследователи предложили метод безопасного обучения ИИ на основе предпочтений толпы

Разделы

Навигация

Теги

Исследователи предложили метод безопасного обучения ИИ на основе предпочтений толпы

Читайте также

Разделы

Навигация

Теги