Ученые выяснили, как алгоритмы выравнивания ИИ меняют внутреннюю логику моделей

Редакция RusNews 10-июн, 07:14 Наука 1 Искусственный интеллект

Группа исследователей представила систематический механистический анализ шести популярных алгоритмов выравнивания языковых моделей — PPO, DPO, SimPO, ORPO, GRPO и KTO. Работа опубликована на arXiv и охватывает три семейства открытых моделей.

Для анализа использовались методы послойного линейного зондирования, разреженные автоэнкодеры и кросс-кодеры. Это позволило локализовать представления предпочтений и количественно оценить геометрические преобразования в латентном пространстве.

Установлено, что сигналы предпочтений концентрируются в ранних-средних или средних-поздних слоях, но разные цели оптимизации вызывают качественно различные сдвиги. Алгоритмы KTO и GRPO усиливают линейную разделимость за счет конструктивного совместного использования признаков и привлечения разреженных сигналов с высокой значимостью.

Напротив, DPO и ORPO ухудшают разделимость из-за неконструктивного геометрического вращения и ослабления признаков. PPO и SimPO в основном сохраняют исходную геометрию модели.

Характер преобразований зависит от архитектуры модели, что показывает: поведенческое выравнивание не означает однородной внутренней реструктуризации. Это опровергает упрощённое представление о выравнивании как о едином процессе.

Исследователи подчёркивают, что выравнивание является гетерогенным вмешательством. Результаты мотивируют внедрение стандартизированного аудита на уровне признаков для повышения безопасности и интерпретируемости, а также разработку механистически осознанных целей оптимизации.

Работа открывает путь к более точному анализу и созданию алгоритмов выравнивания, учитывающих внутреннюю структуру языковых моделей, что важно для развития надёжного ИИ.

Ученые выяснили, как алгоритмы выравнивания ИИ меняют внутреннюю логику моделей

Разделы

Навигация

Теги

Ученые выяснили, как алгоритмы выравнивания ИИ меняют внутреннюю логику моделей

Читайте также

Разделы

Навигация

Теги