Ученые выяснили, как алгоритмы выравнивания ИИ меняют внутреннюю логику моделей

Группа исследователей представила систематический механистический анализ шести популярных алгоритмов выравнивания языковых моделей — PPO, DPO, SimPO, ORPO, GRPO и KTO. Работа опубликована на arXiv и охватывает три семейства открытых моделей.

Для анализа использовались методы послойного линейного зондирования, разреженные автоэнкодеры и кросс-кодеры. Это позволило локализовать представления предпочтений и количественно оценить геометрические преобразования в латентном пространстве.

Установлено, что сигналы предпочтений концентрируются в ранних-средних или средних-поздних слоях, но разные цели оптимизации вызывают качественно различные сдвиги. Алгоритмы KTO и GRPO усиливают линейную разделимость за счет конструктивного совместного использования признаков и привлечения разреженных сигналов с высокой значимостью.

Напротив, DPO и ORPO ухудшают разделимость из-за неконструктивного геометрического вращения и ослабления признаков. PPO и SimPO в основном сохраняют исходную геометрию модели.

Характер преобразований зависит от архитектуры модели, что показывает: поведенческое выравнивание не означает однородной внутренней реструктуризации. Это опровергает упрощённое представление о выравнивании как о едином процессе.

Исследователи подчёркивают, что выравнивание является гетерогенным вмешательством. Результаты мотивируют внедрение стандартизированного аудита на уровне признаков для повышения безопасности и интерпретируемости, а также разработку механистически осознанных целей оптимизации.

Работа открывает путь к более точному анализу и созданию алгоритмов выравнивания, учитывающих внутреннюю структуру языковых моделей, что важно для развития надёжного ИИ.