Разработана иммунная система для ИИ-агентов: защита от runtime-атак на основе биологии

Переход от статических чат-ботов к автономным агентам с постоянной памятью, протоколами работы с инструментами и многолетним взаимодействием кардинально расширил ландшафт угроз в сфере искусственного интеллекта. Существующие механизмы защиты — периметровая безопасность и выравнивание на этапе обучения — остаются внешними по отношению к активному циклу рассуждений агента. В результате полностью выровненный агент остаётся крайне уязвимым для захвата в реальном времени: через отравление памяти, манипуляции инструментальной цепочкой или атаки на межсетевой протокол.

Для устранения этого критического пробела группа исследователей представила Agent-Native Immune System (ANIS) — первую биологически вдохновлённую эндогенную архитектуру защиты, встроенную непосредственно в когнитивный цикл агента. Работа опубликована на arXiv (ID: 2606.28270).

В основе ANIS лежит «Иммунная башня» (Immune Tower), состоящая из шести слоёв — от L0 до L5. Особо выделяется уровень L1 (Barrier Immunity) — не-когнитивный слой физической и логической изоляции. Он действует как первый барьер, блокируя угрозы до того, как они достигнут активного мышления агента.

Авторы систематизировали единую таксономию «агентных вирусов» и «агентных вакцин». Они формально разграничивают поверхностные непараметрические защиты и устойчивые параметрические вакцины. Кроме того, введена концепция «Триады контролей» (Harness Triad) — Meta, Self и Auto — самоконтролирующаяся метакогнитивная автоматизация, которая обеспечивает непрерывное иммунное обучение (CIL). Это позволяет вакцинам динамически адаптироваться к новым угрозам.

Важным вкладом является строгое теоретическое разграничение между выравниванием модели и иммунитетом агента. Если выравнивание (alignment) задаёт статическую «конституционную» ценностную основу во время обучения, то ANIS действует как динамический «правоохранительный механизм» во время выполнения. Ранее эти два аспекта часто смешивались; новая работа чётко разводит их.

Исследователи также обозначают открытые вызовы: стандартизация иммунных протоколов, разработка новых метрик, таких как показатель аутоиммунитета (частота ложноположительных вмешательств), а также коэволюционная динамика между патогенами и вакцинами в коллективных интеллектуальных экосистемах.

Разработка ANIS может стать важным шагом в создании безопасных и надёжных автономных агентов, особенно в приложениях, где требуется доверенное выполнение сложных многолетних задач.