Геометрия признаков предсказывает ошибки ИИ при композиции

Учёные предложили способ предсказывать, в каких сценариях языковые модели будут ошибаться при комбинировании понятий. Вместо того чтобы вручную подбирать сложные тесты, они используют внутреннюю геометрию нейросети.

В основе подхода лежит наблюдение: когда два концепта представлены в модели почти ортогонально, она надёжно их комбинирует. Если же векторы близки — возникает интерференция, приводящая к ошибке.

Метод протестирован на синтетических задачах, многошаговых рассуждениях и многоязычном извлечении фактов. Во всех случаях геометрия признаков позволяла предсказать провалы без прямого ввода данных.

Авторы считают, что такой подход может лечь в основу автоматического выявления рискованных примеров, целенаправленного стресс-тестирования и активного обучения на этапе развёртывания.

Работа, опубликованная на arXiv (2606.13934), открывает путь к более надёжной оценке моделей до их реального использования.