Модель SMARt: новый подход к управлению автономными ИИ-агентами для предотвращения сбоев

Автономные ИИ-агенты сталкиваются с проблемой галлюцинаций и настойчивых необоснованных действий, особенно в роботизированных средах. Новое исследование, представленное на arXiv, связывает эти сбои с архитектурной уязвимостью неограниченной автономии — предположением, что агент должен продолжать работу независимо от роста неопределенности.

Авторы предлагают теорию управляемой автономии, где интеллектуальное поведение определяется способностью обнаруживать эпистемический дрейф, приостанавливать рассуждения, пытаться восстановиться и, в конечном итоге, передавать контроль при снижении надежности. Эта теория реализована в модели SMARt (Self-Managing Multi-tier Autonomous Reasoning with Regulated/Revoked transitions).

SMARt представляет собой четырехуровневую архитектуру: Stable (стабильное состояние), Meta-cognitive (метакогнитивный контроль), Assisted (ассистируемый режим) и Regulated (регулируемый режим с внешним вмешательством). Система может переключаться между этими состояниями в зависимости от уровня неопределенности, обеспечивая безопасную работу.

Для формальной верификации модели используется таймированная, управляемая сеть Петри, которая доказывает теоретически ограниченные свойства системы. Это позволяет гарантировать, что архитектура может принудительно инициировать эскалацию, ограничивать некорректные выходные данные и обеспечивать достижимость управления в заданных условиях.

В работе также анализируется использование доменно-специфичных триггеров в различных операционных средах, таких как здравоохранение и робототехника. При соблюдении критериев полноты и корректности такие триггеры могут систематически сохранять безопасность, адаптивно расширяя операционную область агента с течением времени.

Авторы заключают, что формализация управления сбоями в жизненном цикле автономии является ключевым шагом к созданию надежного и управляемого искусственного интеллекта. Предложенная модель SMARt может лечь в основу будущих стандартов безопасности для автономных систем.