RIFT-Bench: новый метод оценки безопасности автономных AI-агентов
Исследователи опубликовали работу, описывающую RIFT-Bench — новую методологию динамического тестирования безопасности для агентных AI-систем. Системы на базе больших языковых моделей всё чаще становятся автономными, что порождает новые векторы атак, выходящие за рамки традиционных уязвимостей.
Как отмечается в статье на arXiv, существующие оценки безопасности часто привязаны к конкретным реализациям или областям, что затрудняет унифицированное сравнение разнородных систем. RIFT-Bench решает эту проблему с помощью графового представления архитектуры агента.
Метод состоит из двух автоматизированных этапов: Discovery (обнаружение структуры системы) и Scanning (развёртывание адаптивных состязательных атак с последующей генерацией отчёта). При этом оценке подвергается сама исследуемая система, а не отдельные компоненты.
Эффективность подхода продемонстрирована на 45 агентных системах, охватывающих широкий спектр реализаций. RIFT-Bench показал способность обобщать результаты на гетерогенные архитектуры и учитывать различные векторы атак и цели.
Помимо тестирования систем и атак, платформа поддерживает прямую оценку стратегий защиты. По мнению авторов, это делает RIFT-Bench масштабируемой основой для оценки безопасности агентных AI-систем.
Разработка может быть полезна как разработчикам автономных агентов, так и исследователям в области безопасности ИИ, предоставляя единый инструмент для поиска и устранения уязвимостей в различных архитектурах.


