Ученые нашли доказательства коррекции ошибок в LLM: модели защищают значимые признаки

Международная группа исследователей представила эмпирические доказательства коррекции ошибок на уровне признаков в больших языковых моделях (LLM). В препринте на arXiv авторы предложили метод проверки, основанный на возмущениях активаций остаточного потока.

Согласно теории, LLM используют суперпозицию для представления большего числа признаков, чем размерность их пространства. Вычисления в таком режиме требуют коррекции ошибок, которая даёт привилегии направлениям признаков перед случайными. До сих пор это предсказание не проверялось экспериментально.

Учёные применили возмущения к активациям остаточного потока и выяснили, что модели устойчивы к малым воздействиям — формируются плато активаций, что согласуется с коррекцией ошибок. При этом устойчивость вдоль чистых направлений признаков (полученных из контрастивных пар подсказок) оказалась ниже, чем вдоль смесей двух таких направлений. Это указывает на привилегированность чистых направлений.

Для количественной оценки эффекта использовалась Lp-норма разложения возмущения на компоненты признаков. При p=2 отклик представляет собой квадратичную форму с числом ненулевых собственных значений не более размерности остаточного потока, что не может объяснить привилегированность множества направлений, необходимых для суперпозиции. Для p>2 это ограничение снимается, и наблюдаемое поведение согласуется с коррекцией ошибок на уровне признаков.

Авторы зафиксировали p>2 для контрастивных, MELBO и SAE-декодерных направлений, а для случайных и PCA-направлений p?2 (контрольная группа). Результаты воспроизведены на моделях Gemma-2-9B, Qwen3-1.7B, Llama-3.1-8B, Mistral-7B-v0.3, Aya-Expanse-8B и Yi-1.5-9B.

Дополнительно метод проверен на игрушечной модели коррекции ошибок с известными истинными признаками: для истинных направлений получено p>2, а при повороте от них p стремится к 2. Это подтверждает, что обнаруженный эффект действительно связан с коррекцией ошибок на уровне признаков, а не с артефактами метода.

Результаты углубляют понимание того, как LLM выполняют вычисления в режиме суперпозиции и защищают значимую информацию от помех. Работа открывает путь к более точной интерпретации внутренних представлений языковых моделей.