Новый метод PMD улучшает обучение языковых моделей за счет процедурной памяти

Исследователи представили Procedural Memory Distillation (PMD) — новый метод обучения языковых моделей, который использует накопленный опыт из множества эпизодов для улучшения качества. Работа опубликована на arXiv.

Существующие подходы, такие как RLVR и SDPO, оценивают каждый эпизод отдельно и обновляют политику на основе сигнала от эпизода. Однако более богатая процедурная информация из развертываний редко сохраняется и повторно используется, что ограничивает возможности модели.

PMD решает эту проблему, преобразуя кросс-эпизодные сигналы в процедурную память и дистиллируя её в веса политики во время обучения. Память организована на трёх уровнях абстракции: сырые траектории, саморефлексивные стратегии и уроки, а также поведенческие паттерны, повторяющиеся в задачах.

Ключевой принцип — коэволюция: политика генерирует развертывания, обновляющие память, а память формирует супервизию, обновляющую политику. Это позволяет модели постепенно интернализировать процедурные знания в своих параметрах.

Эксперименты проводились на моделях Qwen3-8B и OLMo3-Instruct-7B. PMD превзошёл SDPO на 3.8–5.5% на SCIKNOWEVAL и на 7.9–13.6% на LIVECODEBENCH. Заморозка памяти или политики ухудшала результаты более чем на 10%.

Авторы отмечают, что PMD может стать основой для самосовершенствующихся языковых моделей, способных накапливать и использовать опыт без внешней памяти на этапе инференса.