Исследователи предложили метод безопасного обучения ИИ на основе предпочтений толпы

Группа исследователей представила метод Safe Crowd Preference-based RL (SafeCPRL), решающий проблему переноса неявных критериев безопасности из данных о предпочтениях пользователей на задачи обучения с подкреплением (RL). Работа опубликована на arXiv.

Традиционный подход RLHF предполагает обучение модели вознаграждения на основе человеческих предпочтений, однако прямая комбинация такой модели с наградой за выполнение задачи часто приводит к компромиссу между эффективностью и безопасностью. Авторы показали, что такой способ имеет внутренние ограничения.

Вместо этого SafeCPRL использует иерархическую структуру: сначала из данных о предпочтениях извлекаются «навыки», соответствующие общим для пользователей критериям безопасности, а затем высокоуровневая политика комбинирует их для безопасного решения целевых задач. Это позволяет системе учитывать безопасность без необходимости в явных сигналах (например, вручную заданных штрафах).

Эксперименты проводились на стандартных средах безопасного RL, а также на задаче, имитирующей работу языковой модели с разнообразными целями пользователей. Результаты показали, что SafeCPRL снижает «стоимость» безопасности (число нарушений ограничений) в среднем на 40–60% по сравнению с базовыми методами, при этом производительность (успешность выполнения задачи) остаётся на уровне эталонных алгоритмов, обученных с точной информацией о безопасных границах.

По мнению исследователей, предложенный подход может быть полезен при разработке ассистентов, роботов и других ИИ-систем, где важно сочетать эффективность с соблюдением негласных социальных норм и правил безопасности. Метод не требует разметки явных сигналов безопасности, а опирается на естественные предпочтения пользователей.

Работа открывает путь к более гибкому и масштабируемому безопасному обучению с подкреплением, где критерии безопасности не задаются жёстко, а динамически извлекаются из коллективного опыта.