Фреймворк RIZZ учит ИИ-агентов адаптироваться без доступа к весам модели

Научная работа, опубликованная на arXiv, представляет фреймворк RIZZ (Routing Interactions to Near Zero-interference Zones), предназначенный для непрерывной адаптации агентов на основе больших языковых моделей (LLM). Ключевая особенность — отсутствие необходимости в доступе к весам модели: система работает в режиме черного ящика.

Современные LLM все чаще используются в качестве долгоживущих агентов, которым приходится подстраиваться под разных пользователей, задачи и домены. Однако адаптация затруднена, когда входные данные нестационарны, обратная связь редка, а сбои в одной задаче могут нарушить поведение в другой. RIZZ решает эту проблему с помощью комбинации маршрутизации, памяти и компиляции промптов.

Архитектура RIZZ организует потоки входных данных в динамически создаваемые ветви памяти. Во время инференса — онлайн или офлайн — контекстно-зависимый маршрутизатор выбирает или создает ветвь, которая извлекает локальный, глобальный, графовый и рабочий контекст. Эта информация компилируется в ограниченный промпт вместе с извлеченными свидетельствованиями задач.

После того как модель выполняет действие, специальные верификаторы оценивают результат. Только верифицированные взаимодействия могут обновлять память, продвигать полезные правила, понижать вредные или создавать антипаттерны. Такой подход позволяет агенту улучшаться на основе постоянной обратной связи на естественном языке, одновременно контролируя интерференцию между задачами.

Фреймворк нацелен на сценарии, где адаптация должна происходить онлайн в условиях ограниченного контекстного бюджета. Разработчики провели тестирование RIZZ на конкурентных бенчмарках, где он превзошел современные базовые методы. Это открывает новые возможности для создания самообучающихся систем, которые могут безопасно развертываться в динамичных средах без переобучения модели с нуля.