Обнаружен 'слепой участок считывания' в циклических языковых моделях

Исследователи из международной группы представили работу, вскрывающую фундаментальную проблему обучения циклических языковых моделей (looped language models). В таких архитектурах скрытые состояния используются повторно в качестве входных данных для последующих итераций, что создаёт особые требования к контролю переменных.

Авторы показали, что стандартный метод плотного обучения с перекрёстной энтропией на каждой итерации фактически влияет только на те переменные, которые напрямую подаются на считывающий слой (readout). Остальные переменные, активные в рекуррентном переходе, остаются без прямого контроля. Это явление названо «слепым участком считывания».

Особый случай — масштаб скрытых состояний. Если считывающий слой использует масштабно-инвариантные нормализации, такие как RMSNorm или LayerNorm, то радиальное расстояние (норма) скрытого состояния не участвует в вычислении потерь. При этом в преднормировочной рекуррентной архитектуре норма продолжает накапливаться без ограничений.

В экспериментах с циклическими трансформерами размером 44M и 129M параметров без межцикловой нормализации плотное обучение через считывание с RMSNorm приводило к тому, что норма скрытого состояния на последних шагах достигала тысяч или десятков тысяч. Это ухудшает численную стабильность и может снижать качество предсказаний.

Авторы предложили два подхода к решению: либо сделать масштаб видимым для функции потерь (например, использовать считывание без нормализации или добавить в потери штраф за норму), либо устранить масштаб из рекуррентного цикла архитектурными методами. Второй вариант подразумевает, например, применение нормализации внутри цикла, которая сбрасывает масштаб на каждой итерации.

Проверка показала, что варианты с контролем масштаба (Scale-visible readout или явные штрафы за норму) удерживают нормы на уровне десятков, а не тысяч. При этом такие модели демонстрируют более низкую перплексию при сопоставимой глубине вывода в бенчмарках с переменной глубиной.

По мнению авторов, простое правило дизайна таково: плотное обучение тренирует выходы, а контроль рекуррентного масштаба требует либо сделать масштаб видимым для потерь, либо удалить его из цикла. Работа опубликована на arXiv и может повлиять на архитектурные решения при создании эффективных циклических нейросетей.