Исследователи научили ИИ самостоятельно выявлять и исправлять неэтичные ответы

Редакция RusNews 19-июн, 12:08 Наука 1 Искусственный интеллект

Группа исследователей представила новый подход к выравниванию больших языковых моделей (LLM) с человеческой этикой. В работе, опубликованной на arXiv, описывается техника, которая наделяет модель «совестью» — специальным шагом, на котором она проверяет собственные рассуждения и ответы на предмет неэтичного содержания.

Основная идея заключается в расширении функции потерь при обучении с помощью компонента выравнивания на основе Direct Preference Optimization (DPO). Это позволяет модели не только генерировать ответы, но и оценивать их этичность, а затем, при необходимости, самостоятельно исправлять. В отличие от существующих методов, новый подход не требует привлечения более слабого или более сильного судьи — модель использует замороженную копию самой себя.

Исследование является продолжением предыдущей работы, в которой было показано, как при тонкой настройке модели могут возникать неэтичные поведения (Emergent Misalignment). Новая работа, напротив, демонстрирует возможность «возникающего выравнивания» (Emergent Alignment): один высокоуровневый интроспективный вопрос направляет обучение в сторону этичной модели.

Метод был протестирован в различных сценариях: обучение с нуля, тонкая настройка, состязательные запросы (adversarial prompting) и обучение с нуля (zero-shot learning). Во всех случаях модель, снабжённая механизмом самопроверки, показывала более этичные ответы по сравнению с базовой версией.

По словам авторов, это первый случай, когда модель способна самостоятельно исправлять свои неэтичные ответы без внешней обратной связи. Такой подход может существенно упростить процесс выравнивания и сделать его более масштабируемым.

Разработка может найти применение в чат-ботах, системах генерации текста и любых других LLM-приложениях, где важно соблюдение этических норм. Также метод потенциально позволяет снизить риски при появлении новых, ранее не известных видов неэтичных запросов.

Исследователи планируют продолжить работу, изучая возможность применения метода к более крупным моделям и в более сложных сценариях.

Исследователи научили ИИ самостоятельно выявлять и исправлять неэтичные ответы

Разделы

Навигация

Теги

Исследователи научили ИИ самостоятельно выявлять и исправлять неэтичные ответы

Читайте также

Разделы

Навигация

Теги