RIFT-Bench: новый метод оценки безопасности автономных AI-агентов

Исследователи опубликовали работу, описывающую RIFT-Bench — новую методологию динамического тестирования безопасности для агентных AI-систем. Системы на базе больших языковых моделей всё чаще становятся автономными, что порождает новые векторы атак, выходящие за рамки традиционных уязвимостей.

Как отмечается в статье на arXiv, существующие оценки безопасности часто привязаны к конкретным реализациям или областям, что затрудняет унифицированное сравнение разнородных систем. RIFT-Bench решает эту проблему с помощью графового представления архитектуры агента.

Метод состоит из двух автоматизированных этапов: Discovery (обнаружение структуры системы) и Scanning (развёртывание адаптивных состязательных атак с последующей генерацией отчёта). При этом оценке подвергается сама исследуемая система, а не отдельные компоненты.

Эффективность подхода продемонстрирована на 45 агентных системах, охватывающих широкий спектр реализаций. RIFT-Bench показал способность обобщать результаты на гетерогенные архитектуры и учитывать различные векторы атак и цели.

Помимо тестирования систем и атак, платформа поддерживает прямую оценку стратегий защиты. По мнению авторов, это делает RIFT-Bench масштабируемой основой для оценки безопасности агентных AI-систем.

Разработка может быть полезна как разработчикам автономных агентов, так и исследователям в области безопасности ИИ, предоставляя единый инструмент для поиска и устранения уязвимостей в различных архитектурах.