Geometry-Lite: новый метод анализа безопасности LLM через геометрию слоёв
Исследователи разработали новый инструмент для интерпретируемого анализа безопасности больших языковых моделей (LLM) — Geometry-Lite. Этот компактный зонд на уровне промптов позволяет понять, как модель отделяет безопасные запросы от опасных, изучая геометрию скрытых состояний по слоям.
Ранее существовавшие методы определяли только общую точность детекции, но не объясняли, как именно формируется решение. Geometry-Lite восполняет этот пробел: он картографирует представления последнего токена каждого слоя в знаковые отступы (margins) с помощью трёх типов считывания — центроидного, локально-окрестностного и supervised-линейной границы. Затем полученные профили обобщаются по положению границы, изменениям между слоями и грубой форме.
Метод был протестирован на девяти инструкционно-настроенных моделях (от 1,2 до 70 миллиардов параметров) и семи бенчмарках безопасности. Geometry-Lite показал результаты, близкие к полному многослойному стекингу, превзойдя однослойные зонды. Это делает его удобным инструментом для анализа многослойного сигнала безопасности.
Ключевое открытие: доказательства безопасности выражаются в основном через устойчивую геометрию границ — итоговые или экстремальные отступы и занятость слоёв со стороны опасных запросов. В отличие от этого, конечно-разностный дрейф и структурные суммарные метрики почти не влияют на агрегированную метрику AUROC, хотя дрейф может давать небольшие корректировки в сторону повышения полноты при низких порогах ложноположительных срабатываний.
При сдвиге бенчмарка оптимизированные линейные границы резко обостряются на обучающей выборке, тогда как класс-условная средняя геометрия сохраняет разделимость более надёжно на заранее заданном сложном подмножестве. Это указывает на то, что зонды безопасности должны учитывать не только общую точность, но и поведение в критических режимах принятия решений.
Таким образом, исследование показывает, что сигнал безопасности на уровне промптов — это не столько движение между слоями, сколько устойчивая послойная геометрия границ. Geometry-Lite делает эту геометрию видимой и позволяет разработчикам LLM точнее настраивать защитные механизмы, особенно в условиях меняющихся угроз.


