Ученые уменьшили обман ИИ-моделей с помощью детектора лжи: масштабирование снизило ложь до 14%

Обман со стороны больших языковых моделей (LLM) остаётся серьёзной проблемой: выявлять и предотвращать его дорого и трудоёмко. Для решения этой задачи группа учёных предложила метод SOLiD (Scalable Oversight via Lie Detectors), который использует детекторы лжи для отбора ответов, требующих проверки экспертами-людьми.

В новой работе авторы протестировали SOLiD на моделях разного размера — от 1 миллиарда до 405 миллиардов параметров — и в более разнообразных сценариях обучения на предпочтениях (preference learning). Результаты показали положительное масштабирование: доля необнаруженного обмана упала с 34% для модели с 1B параметров до 14% для модели с 405B параметров при фиксированной частоте верных срабатываний детектора в 99%.

Особенно важно, что исследователям удалось полностью отказаться от дорогостоящих человеческих аннотаторов в фазе дообучения. Удаление людей из цикла не привело к статистически значимому росту уровня обмана — это открывает путь к автоматическому масштабируемому контролю.

Однако у метода есть ограничение: SOLiD чувствителен к сдвигу распределения между данными, на которых обучался детектор, и данными, используемыми для обучения предпочтениям. При таком смещении частота ложных срабатываний детектора может расти до неприемлемых значений.

Работа, опубликованная на arXiv, демонстрирует, что комбинация детекторов лжи и масштабирования моделей может существенно снизить риски обмана в системах ИИ. Дальнейшие исследования будут направлены на борьбу с чувствительностью к сдвигу распределения, чтобы сделать метод более надёжным в реальных условиях.