Новая архитектура решает проблему запоминания и забывания в вербальном обучении с подкреплением

Исследователи из академического сообщества предложили новую архитектуру для вербального обучения с подкреплением (Verbal Reinforcement Learning), которая решает давнюю дилемму запоминания и забывания. В работе, опубликованной на arXiv, авторы указывают, что существующие методы хорошо извлекают правила из опыта, но слабо управляют ими, что приводит к снижению производительности в нестационарных средах.

Вербальное обучение без дообучения позволяет LLM-агентам учиться на сигналах внешнего мира — например, результатах задач, рыночных данных или прогнозах спроса. Агент извлекает вербальные правила из опыта и добавляет их в контекст, изменяя поведение без изменения параметров модели. Однако в нестационарных условиях возникает проблема: если сохранять устаревшие правила, происходит отрицательный перенос, а если отбрасывать их — катастрофическое забывание при повторении условий.

Авторы выделили четыре требования для преодоления этой дилеммы: оценка на основе результата, постоянное структурированное хранение доказательств, немонотонный жизненный цикл знаний и композиционное управление. Они показали, что существующие методы переинвестируют в извлечение опыта, но недостаточно в управление инсайтами.

В ответ предложена трёхуровневая архитектура, состоящая из правил, доказательств и навыков. Правила фиксируют обобщённый опыт, логи доказательств отслеживают надёжность каждого правила в разных эпизодах, а навыки определяют, какие правила применять, как разрешать конфликты и когда воздерживаться от вывода.

В качестве прикладного примера выбрано финансовое прогнозирование — область, где сигналы обратной связи обильны, зашумлены и нестационарны. Эксперименты показали, что без механизма циклической обратной связи накопленный опыт ухудшает результаты даже по сравнению с нулевым baseline. С предложенной архитектурой, напротив, точность и риск-скорректированная доходность значительно улучшаются.

Авторы подчёркивают, что их подход не требует дообучения модели и может быть интегрирован в существующие LLM-агенты. Работа открывает путь к более надёжным системам, способным адаптироваться к меняющимся условиям без потери накопленных знаний.