Нейросети запоминают цифры из тестов: исследование NumLeak
Исследователи из arXiv представили фреймворк NumLeak, который выявляет проблему утечки числовых данных в больших языковых моделях (LLM). Оказалось, что топовые нейросети не столько решают задачи, сколько запоминают ответы из публичных тестов.
NumLeak комбинирует зонды через API для коммерческих моделей и контролируемые эксперименты на открытой каузальной языковой модели. В ходе тестов модели с высокой точностью воспроизводили финансовые показатели Fama-French, уровень безработицы в США, инфляцию CPI и температуру NOAA.
Например, корреляция по рыночной премии Fama-French составила 0.97-0.99 при отклонении не более 0.15 базисных пунктов. Однако на свежих контрольных данных способность моделей отвечать упала до 21-57%, хотя при успешных ответах точность оставалась высокой.
Эксперимент с открытой моделью подтвердил дозозависимый эффект запоминания: ранжирование по логарифмической вероятности выявляет запоминание там, где открытая генерация его не показывает. Это означает, что черноящиковые тесты через API занижают масштаб проблемы.
В одном из экспериментов регрессия даты на рыночное настроение от модели Sonnet давала корреляцию 0.74 с реальным показателем, но после удаления собственного запоминания модели корреляция упала до 0.02.
Авторы также протестировали защиту: однострочная директива в system prompt заблокировала 99.8% неадаптивных одношаговых атак с суффиксом, почти не снизив качество ответов на концептуальные и исторические запросы.
Исследование NumLeak поднимает важный вопрос о достоверности оценок LLM: если модель просто вспоминает цифры из обучающих данных, её успехи на бенчмарках не гарантируют реального понимания. Разработанный метод может помочь разработчикам выявлять и устранять такие утечки.




