Self-CTRL: новый метод делает языковые модели ИИ честнее и прозрачнее

Группа исследователей представила новый метод Self-CTRL (Self-Consistency Training with Reinforcement Learning), который позволяет языковым моделям (LM) точнее описывать собственное поведение. Разработка направлена на повышение прозрачности и безопасности ИИ-систем.

Self-CTRL — это подход, оптимизирующий согласованность между самообъяснениями модели и её фактическими действиями. Метод корректирует либо объяснения, чтобы они лучше соответствовали поведению, либо поведение, чтобы оно следовало заданным правилам.

Авторы проверили метод в двух областях. В первом сценарии LM имитировали семейство смещённых сэмплеров и должны были сообщить о своих смещениях. После обучения с Self-CTRL корреляция между самооценкой и реальными смещениями выросла с R?=0.24 до R?=0.64 — это сравнимо с точностью прямого контроля.

Второй сценарий касался конституционного ИИ: модели описывали, когда отказывать или соглашаться на запросы пользователей. Self-CTRL позволил создавать правила, которые более точно предсказывали поведение модели. В результате точность предсказаний стороннего аудитора выросла с 36% до 92%.

С другой стороны, корректировка поведения улучшила выравнивание: показатель неудач в тесте HarmBench снизился с 15% до 0,5% без значительного роста отказов на безвредные запросы. Это означает, что модели стали реже игнорировать потенциально опасные инструкции, сохраняя полезность.

Метод Self-CTRL предлагает общий подход к обучению ИИ, который делает модели более безопасными, прозрачными и контролируемыми. По мнению авторов, это шаг к созданию систем, которым пользователи могут доверять, понимая их внутреннюю логику.