COLAGUARD: латентное мышление ускоряет защиту LLM в 13 раз без потери качества

Обеспечение безопасности больших языковых моделей (LLM) становится критически важным по мере их внедрения в реальные приложения. Существующие системы фильтрации контента часто жертвуют скоростью ради точности либо наоборот.

Исследователи разработали COLAGUARD — новую модель-ограждение, которая переносит многошаговые рассуждения о безопасности в непрерывное латентное пространство. Вместо генерации текстовых объяснений модель использует прямой перенос скрытых состояний, что резко снижает вычислительную нагрузку.

Модель обучается по каскадной схеме: сначала на явных рассуждениях, затем их постепенное сжатие в скрытое представление. На этапе инференса COLAGUARD работает как однонаправленный классификатор, но с внутренним контекстом, обогащённым рассуждениями.

Тестирование проводилось на десяти сценариях модерации запросов и ответов, охватывающих восемь бенчмарков безопасности. По сравнению с популярной моделью Llama Guard 3 COLAGUARD улучшил macro-F1 на 8,24 пункта.

При этом точность сравнялась с лучшим методом явных рассуждений GuardReasoner, но скорость обработки выросла в 12,9 раза, а потребление токенов сократилось в 22,4 раза. Это делает COLAGUARD пригодным для высоконагруженных систем.

Авторы подчёркивают, что латентное мышление — практичная альтернатива генерации явных обоснований для развёртываемых систем защиты. Оно позволяет совместно повышать и надёжность, и эффективность, а не рассматривать их как конфликтующие цели.