Ученые выяснили, как алгоритмы выравнивания ИИ меняют внутреннюю логику моделей
Группа исследователей представила систематический механистический анализ шести популярных алгоритмов выравнивания языковых моделей — PPO, DPO, SimPO, ORPO, GRPO и KTO. Работа опубликована на arXiv и охватывает три семейства открытых моделей.
Для анализа использовались методы послойного линейного зондирования, разреженные автоэнкодеры и кросс-кодеры. Это позволило локализовать представления предпочтений и количественно оценить геометрические преобразования в латентном пространстве.
Установлено, что сигналы предпочтений концентрируются в ранних-средних или средних-поздних слоях, но разные цели оптимизации вызывают качественно различные сдвиги. Алгоритмы KTO и GRPO усиливают линейную разделимость за счет конструктивного совместного использования признаков и привлечения разреженных сигналов с высокой значимостью.
Напротив, DPO и ORPO ухудшают разделимость из-за неконструктивного геометрического вращения и ослабления признаков. PPO и SimPO в основном сохраняют исходную геометрию модели.
Характер преобразований зависит от архитектуры модели, что показывает: поведенческое выравнивание не означает однородной внутренней реструктуризации. Это опровергает упрощённое представление о выравнивании как о едином процессе.
Исследователи подчёркивают, что выравнивание является гетерогенным вмешательством. Результаты мотивируют внедрение стандартизированного аудита на уровне признаков для повышения безопасности и интерпретируемости, а также разработку механистически осознанных целей оптимизации.
Работа открывает путь к более точному анализу и созданию алгоритмов выравнивания, учитывающих внутреннюю структуру языковых моделей, что важно для развития надёжного ИИ.



