Атака NightVision раскрывает архитектуру LLM даже через ограниченный API

Редакция RusNews 03-июл, 10:19 Наука 1 Искусственный интеллект

Группа исследователей опубликовала статью, в которой описала новый метод атаки на коммерческие API языковых моделей. Метод получил название NightVision и позволяет оценить ключевые архитектурные параметры LLM, даже если провайдер предоставляет минимальный доступ к выходным данным.

Современные коммерческие LLM-провайдеры, такие как OpenAI, Anthropic и другие, не раскрывают детали внутренней архитектуры своих моделей. Более того, в ответ на предыдущие исследования они уже ограничили API: теперь пользователи получают только логит (вероятность) для каждого сгенерированного токена, а возможность bias-логгирования отключена.

NightVision обходит эти ограничения. Авторы используют технику «общего множества подсказок» (common set prompting): несколько различных запросов заставляют модель выдать вероятности для одного и того же набора токенов. Затем спектральный анализ этих вероятностей позволяет вычислить скрытую размерность (hidden dimension) модели. Дополнительные замеры времени до первого токена (TTFT) вместе с оценённой размерностью дают возможность определить глубину сети и общее число параметров.

Эффективность NightVision проверена на 32 открытых LLM (включая модели семейства Llama, Mistral, MoE и другие). Средняя относительная ошибка при восстановлении hidden dimension составила 23% для всех моделей и всего 9% для моделей на основе архитектуры эксперт-роутер (MoE). Глубина и количество параметров восстанавливались с точностью до 53% для моделей с более чем 3 миллиардами параметров.

Исследователи провели детальные абляции, чтобы показать, как точность зависит от бюджета токенов и свойств модели. Результаты указывают, что текущие API-ограничения всё ещё не достаточны для полной защиты архитектурных деталей LLM.

Данная работа поднимает важные вопросы безопасности и приватности для индустрии искусственного интеллекта: даже при строгих ограничениях API злоумышленник может получить ценную информацию о внутреннем устройстве коммерческой модели. Возможно, провайдерам потребуется внедрять дополнительные меры защиты, такие как шум или ограничение числа запросов.

Атака NightVision раскрывает архитектуру LLM даже через ограниченный API

Разделы

Навигация

Теги

Атака NightVision раскрывает архитектуру LLM даже через ограниченный API

Читайте также

Разделы

Навигация

Теги