ИИ-модели доверяют тексту пользователя больше, чем данным сенсоров — исследование

Большие языковые модели (LLM) всё чаще используются для интеграции разнородных данных в системах умного дома и промышленном Интернете вещей. Однако новое исследование, опубликованное на arXiv, выявило серьёзную проблему: когда показания датчиков противоречат заявлениям пользователя, модель склонна игнорировать сенсоры и верить текстовому запросу.

Авторы работы назвали это явление Authority Inversion (обращением авторитета). Они протестировали четыре модели с числом параметров от 4 до 35 миллиардов на 576 конфликтных сценариях. Результаты показали, что в числовых задачах доверие к датчикам почти отсутствует — индекс согласованности авторитета (AAI) составил -0,805, что соответствует сильному эффекту (d Коэна = -2,14). При этом размер модели не влиял на степень инверсии.

Проблема усугубляется тем, что традиционные методы слияния данных перестают работать, когда LLM скрыто перераспределяет приоритеты между источниками. Формат данных играет решающую роль: числовые значения сенсоров плохо интегрируются в модель, тогда как текст естественного языка легко захватывает внимание.

Для диагностики и коррекции исследователи разработали геометрическую framework и два вычислимых метрики — коэффициент интеграции контекста (CIR) и упомянутый AAI. Предложенный метод Geometric Authority Calibration (GAC) позволяет на этапе инференса подавлять избыточное доверие к тексту. На практике GAC повысил точность распознавания действий (HAR) с 0–1,6% до 21,9–27,5%, значительно превзойдя простые промптовые подходы.

Кроме того, причинное вмешательство на основе теоретической основы позволило исправить 80,2% неверных решений (против менее 0,4% при случайном контроле). Это подтверждает, что инверсия авторитета поддаётся исправлению, если применять правильные методы.

Авторы подчёркивают: распределение авторитета в системах на LLM должно явно аудироваться и настраиваться под конкретное приложение. Оставлять его неявным рискованно, особенно в критических областях, где физические измерения важнее субъективных заявлений.