COMPASS: новый фреймворк для безопасного поиска с ИИ-агентами

Редакция RusNews 01-июн, 12:54 Наука 1 Искусственный интеллект

Команда исследователей разработала COMPASS — когнитивный фреймворк для обеспечения безопасности ИИ-агентов, выполняющих многошаговый поиск. Работа опубликована на arXiv под номером 2605.30838.

Современные LLM-агенты способны к многошаговым рассуждениям и использованию инструментов, но это создаёт риски: вредоносные намерения могут быть разбиты на безобидные подзапросы, приводящие к опасным результатам. Существующие методы выравнивания неэффективны против таких скрытых атак.

COMPASS включает два ключевых компонента: Cognitive Tree Exploration (CTE) для синтеза атакующих траекторий и Introspective Step-wise Alignment (ISA) для точного контроля над каждым промежуточным действием.

Как сообщается в статье, CTE позволяет эффективно генерировать скрытые атакующие сценарии, а ISA изолирует рискованные шаги для детального обучения. Благодаря этому удаётся достичь баланса между безопасностью и полезностью при существенно меньшем объёме обучающих данных.

Эксперименты показали, что COMPASS обеспечивает высокий уровень безопасности без значительного снижения общей производительности агента. Это открывает путь к более надёжному применению ИИ-агентов в поисковых системах и других инструментах с многошаговым взаимодействием.

Разработка важна для индустрии, где требуется минимизация рисков при сохранении функциональности. Исследователи планируют дальнейшее развитие фреймворка.

COMPASS: новый фреймворк для безопасного поиска с ИИ-агентами

Разделы

Навигация

Теги

COMPASS: новый фреймворк для безопасного поиска с ИИ-агентами

Читайте также

Разделы

Навигация

Теги