Новый фреймворк PropGuard защищает многоагентные LLM-системы от скрытых атак

Группа исследователей разработала PropGuard — новый подход к защите многоагентных систем на основе больших языковых моделей (LLM-MAS). Такие системы применяются для сложных задач, где агенты взаимодействуют через сообщения, инструменты и общую память. Однако злоумышленники могут внедрить вредоносные инструкции, которые распространяются между агентами и раундами, нарушая работу всей системы.

Существующие методы защиты, такие как локальная фильтрация или графовое обнаружение аномалий, не способны отслеживать тонкие пути распространения угроз и часто требуют остановки совместной работы для очистки. PropGuard решает эту проблему, создавая двойной пространственно-временной граф, объединяющий оценку риска на уровне ответов и сохранение полного состояния системы.

Ключевой элемент PropGuard — инспектор, обученный с использованием алгоритма GE-GRPO. Он последовательно анализирует граф состояний, выделяя компактные подграфы с подозрительной активностью. Затем система проверяет вредоносность через диагностику подграфов и применяет источник-ориентированное восстановление: исправляет заражённые состояния и перезапускает затронутые взаимодействия.

Эксперименты проводились на четырёх архитектурах коммуникации и пяти типах атак. Результаты показали, что PropGuard стабильно снижает успех атак, сохраняя высокий уровень успешности выполнения задач. Это подтверждает сбалансированность эффективности и производительности.

Разработка может быть полезна для промышленных и исследовательских LLM-MAS, где безопасность и непрерывность работы критичны. Дальнейшие планы включают адаптацию фреймворка к более сложным сценариям и интеграцию с популярными платформами.