Атака NightVision раскрывает архитектуру LLM даже через ограниченный API
Группа исследователей опубликовала статью, в которой описала новый метод атаки на коммерческие API языковых моделей. Метод получил название NightVision и позволяет оценить ключевые архитектурные параметры LLM, даже если провайдер предоставляет минимальный доступ к выходным данным.
Современные коммерческие LLM-провайдеры, такие как OpenAI, Anthropic и другие, не раскрывают детали внутренней архитектуры своих моделей. Более того, в ответ на предыдущие исследования они уже ограничили API: теперь пользователи получают только логит (вероятность) для каждого сгенерированного токена, а возможность bias-логгирования отключена.
NightVision обходит эти ограничения. Авторы используют технику «общего множества подсказок» (common set prompting): несколько различных запросов заставляют модель выдать вероятности для одного и того же набора токенов. Затем спектральный анализ этих вероятностей позволяет вычислить скрытую размерность (hidden dimension) модели. Дополнительные замеры времени до первого токена (TTFT) вместе с оценённой размерностью дают возможность определить глубину сети и общее число параметров.
Эффективность NightVision проверена на 32 открытых LLM (включая модели семейства Llama, Mistral, MoE и другие). Средняя относительная ошибка при восстановлении hidden dimension составила 23% для всех моделей и всего 9% для моделей на основе архитектуры эксперт-роутер (MoE). Глубина и количество параметров восстанавливались с точностью до 53% для моделей с более чем 3 миллиардами параметров.
Исследователи провели детальные абляции, чтобы показать, как точность зависит от бюджета токенов и свойств модели. Результаты указывают, что текущие API-ограничения всё ещё не достаточны для полной защиты архитектурных деталей LLM.
Данная работа поднимает важные вопросы безопасности и приватности для индустрии искусственного интеллекта: даже при строгих ограничениях API злоумышленник может получить ценную информацию о внутреннем устройстве коммерческой модели. Возможно, провайдерам потребуется внедрять дополнительные меры защиты, такие как шум или ограничение числа запросов.



