Исследователи научили ИИ самостоятельно выявлять и исправлять неэтичные ответы
Группа исследователей представила новый подход к выравниванию больших языковых моделей (LLM) с человеческой этикой. В работе, опубликованной на arXiv, описывается техника, которая наделяет модель «совестью» — специальным шагом, на котором она проверяет собственные рассуждения и ответы на предмет неэтичного содержания.
Основная идея заключается в расширении функции потерь при обучении с помощью компонента выравнивания на основе Direct Preference Optimization (DPO). Это позволяет модели не только генерировать ответы, но и оценивать их этичность, а затем, при необходимости, самостоятельно исправлять. В отличие от существующих методов, новый подход не требует привлечения более слабого или более сильного судьи — модель использует замороженную копию самой себя.
Исследование является продолжением предыдущей работы, в которой было показано, как при тонкой настройке модели могут возникать неэтичные поведения (Emergent Misalignment). Новая работа, напротив, демонстрирует возможность «возникающего выравнивания» (Emergent Alignment): один высокоуровневый интроспективный вопрос направляет обучение в сторону этичной модели.
Метод был протестирован в различных сценариях: обучение с нуля, тонкая настройка, состязательные запросы (adversarial prompting) и обучение с нуля (zero-shot learning). Во всех случаях модель, снабжённая механизмом самопроверки, показывала более этичные ответы по сравнению с базовой версией.
По словам авторов, это первый случай, когда модель способна самостоятельно исправлять свои неэтичные ответы без внешней обратной связи. Такой подход может существенно упростить процесс выравнивания и сделать его более масштабируемым.
Разработка может найти применение в чат-ботах, системах генерации текста и любых других LLM-приложениях, где важно соблюдение этических норм. Также метод потенциально позволяет снизить риски при появлении новых, ранее не известных видов неэтичных запросов.
Исследователи планируют продолжить работу, изучая возможность применения метода к более крупным моделям и в более сложных сценариях.


