COMPASS: новый фреймворк для безопасного поиска с ИИ-агентами
Команда исследователей разработала COMPASS — когнитивный фреймворк для обеспечения безопасности ИИ-агентов, выполняющих многошаговый поиск. Работа опубликована на arXiv под номером 2605.30838.
Современные LLM-агенты способны к многошаговым рассуждениям и использованию инструментов, но это создаёт риски: вредоносные намерения могут быть разбиты на безобидные подзапросы, приводящие к опасным результатам. Существующие методы выравнивания неэффективны против таких скрытых атак.
COMPASS включает два ключевых компонента: Cognitive Tree Exploration (CTE) для синтеза атакующих траекторий и Introspective Step-wise Alignment (ISA) для точного контроля над каждым промежуточным действием.
Как сообщается в статье, CTE позволяет эффективно генерировать скрытые атакующие сценарии, а ISA изолирует рискованные шаги для детального обучения. Благодаря этому удаётся достичь баланса между безопасностью и полезностью при существенно меньшем объёме обучающих данных.
Эксперименты показали, что COMPASS обеспечивает высокий уровень безопасности без значительного снижения общей производительности агента. Это открывает путь к более надёжному применению ИИ-агентов в поисковых системах и других инструментах с многошаговым взаимодействием.
Разработка важна для индустрии, где требуется минимизация рисков при сохранении функциональности. Исследователи планируют дальнейшее развитие фреймворка.


