Уязвимости в AI-агентах: атака на память увеличила отказы в пособиях до 88,9%
Автономные AI-системы, способные самостоятельно использовать инструменты и выполнять многошаговые задачи, всё чаще внедряются в государственные услуги, здравоохранение и финансовое консультирование. Однако новое исследование, опубликованное на arXiv, показало, что популярные фреймворки для создания таких агентов не обеспечивают структурных гарантий безопасности.
Авторы работы применили шесть принципов изоляции, основанных на композиционной модели архитектуры агентов, и проверили три доминирующих фреймворка: LangChain, AutoGPT и OpenAI Agents SDK. Результат: ни один из них не соответствует ни одному из этих принципов в своей стандартной конфигурации.
Особое внимание уделено защите целостности памяти — одной из самых распространённых уязвимостей. Исследователи не обнаружили встроенной защиты от атак, направленных на искажение долговременной памяти агента, ни в одном из трёх фреймворков.
Для проверки реальной опасности была создана симуляция государственного агента по выдаче пособий на базе LangChain. Одна-единственная запись с «отравленной» памятью вызывала стойкое искажение поведения: неправомерный отказ для целевых заявителей составил 88,9% во всех тестовых сценариях и бэкендах.
При более сложной политике, включающей пять факторов, та же атака не снижала общую точность решений, но увеличивала долю ложных отказов для целевых заявителей в 3,5 раза. Это делает атаку труднообнаружимой при стандартном мониторинге агрегированных метрик.
Авторы предложили два лёгких механизма защиты: валидатор целостности памяти и политический шлюз. Оба устраняют выявленные векторы атак с накладными расходами менее 0,2 миллисекунды на вызов.
Исследователи делают вывод, что текущая экосистема фреймворков для агентского ИИ пока не соответствует ожиданиям «безопасных по умолчанию» для публичных развертываний, особенно в социально значимых приложениях высокой степени ответственности.




