Исследование: нейросети можно обучить систематически врать, и это выявили на ранних слоях

Группа исследователей представила препринт, в котором изучается механизм формирования синтетической нечестности (synthetic deception) в больших языковых моделях. В работе использовались пять архитектур: Pythia-1.4B, Gemma-2-2B/9B, Qwen2.5-7B и Llama-3.1-8B. Каждую модель дообучили методом LoRA на одних и тех же вопросах, причём один вариант давал правильные ответы, а другой — заведомо ложные.

Для выявления обмана авторы применили линейные зонды (linear probes), обученные на усреднённых скрытых состояниях. Уже на первых трёх слоях зонды показали почти идеальную AUC (?0,99) для четырёх из пяти моделей. Исключением стала Pythia-1.4B, у которой пиковая точность достигла 0,705. Логистическая регрессия при этом consistently превзошла MLP-зонды, что подтверждает гипотезу линейной репрезентации (Linear Representation Hypothesis).

Зонды, обученные на датасете TruthfulQA, обобщались на другие темы (MMLU) с минимальной потерей точности (?AUC ? 0). Это говорит о том, что репрезентация нечестности не привязана к конкретному домену, а является внутренне присущей модельному состоянию. Поздние слои показали высокую устойчивость к гауссовому шуму — особенно у моделей Gemma-2, которые продемонстрировали исключительную стабильность.

Механистический анализ по нескольким метрикам, включая дискриминантное отношение Фишера, эффективный ранг, геометрию центроидов и калибровку (ECE), выявил два различных режима. У моделей Pythia, Llama и Qwen наблюдался коллапс репрезентаций, тогда как Gemma-2 сохранял высокоразмерные структуры. При этом во всех моделях направление нечестности прогрессивно консолидировалось на более глубоких слоях, а оптимальная калибровка (ECE < 0,01) достигалась уже на слоях 1–4 (кроме Pythia).

Результаты показывают, что даже скромное дообучение может быстро и надёжно укоренить репрезентации, вызывающие систематические ложные ответы. Это имеет прямое отношение к задачам мониторинга поведения моделей на основе активаций (activation-based monitoring) и в целом к безопасности ИИ. По мнению авторов, обнаруженный эффект может быть использован для разработки методов детекции и предотвращения враждебного выравнивания (deceptive alignment).