Mnemosyne: новая система для проверки и исправления действий AI-агентов

Группа исследователей разработала Mnemosyne — систему, предназначенную для проверки и исправления действий, сгенерированных AI-агентами. Работа представлена в препринте на arXiv.

Предложенная модель Agentic Transaction Processing (ATP) рассматривает каждое сгенерированное действие как непроверенное предложение до тех пор, пока оно не пройдет детерминированную проверку на соответствие заданному набору ограничений. Это позволяет отделить генерацию от исполнения и гарантировать корректность состояния системы.

Mnemosyne реализует несколько механизмов безопасности, включая разделение полномочий, последовательную проверку предложений, восстановление с сохранением контекста и контроль обязательств. Ключевая особенность — протокол локализованного восстановления (LCRP), который исправляет сбои без полного пересчета всей цепочки действий.

В ходе экспериментов система успешно выявила и предотвратила все целевые нарушения в девяти тестах. Накладные расходы на проекцию и проверку составили менее 6%, а локальное восстановление затронуло на порядок меньше операций, чем полный пересчёт.

Авторы подчёркивают, что корректность финального состояния не зависит от компетентности модели, сгенерировавшей действие — проверка производится на этапе исполнения. Это делает систему применимой в сценариях, где требуется высокая надёжность, например, в автоматизации бизнес-процессов или управлении роботизированными системами.

Код Mnemosyne опубликован в открытом доступе на GitHub.