Нейросети запоминают цифры из тестов: исследование NumLeak

Исследователи из arXiv представили фреймворк NumLeak, который выявляет проблему утечки числовых данных в больших языковых моделях (LLM). Оказалось, что топовые нейросети не столько решают задачи, сколько запоминают ответы из публичных тестов.

NumLeak комбинирует зонды через API для коммерческих моделей и контролируемые эксперименты на открытой каузальной языковой модели. В ходе тестов модели с высокой точностью воспроизводили финансовые показатели Fama-French, уровень безработицы в США, инфляцию CPI и температуру NOAA.

Например, корреляция по рыночной премии Fama-French составила 0.97-0.99 при отклонении не более 0.15 базисных пунктов. Однако на свежих контрольных данных способность моделей отвечать упала до 21-57%, хотя при успешных ответах точность оставалась высокой.

Эксперимент с открытой моделью подтвердил дозозависимый эффект запоминания: ранжирование по логарифмической вероятности выявляет запоминание там, где открытая генерация его не показывает. Это означает, что черноящиковые тесты через API занижают масштаб проблемы.

В одном из экспериментов регрессия даты на рыночное настроение от модели Sonnet давала корреляцию 0.74 с реальным показателем, но после удаления собственного запоминания модели корреляция упала до 0.02.

Авторы также протестировали защиту: однострочная директива в system prompt заблокировала 99.8% неадаптивных одношаговых атак с суффиксом, почти не снизив качество ответов на концептуальные и исторические запросы.

Исследование NumLeak поднимает важный вопрос о достоверности оценок LLM: если модель просто вспоминает цифры из обучающих данных, её успехи на бенчмарках не гарантируют реального понимания. Разработанный метод может помочь разработчикам выявлять и устранять такие утечки.