Новый метод PMD улучшает обучение языковых моделей за счет процедурной памяти
Исследователи представили Procedural Memory Distillation (PMD) — новый метод обучения языковых моделей, который использует накопленный опыт из множества эпизодов для улучшения качества. Работа опубликована на arXiv.
Существующие подходы, такие как RLVR и SDPO, оценивают каждый эпизод отдельно и обновляют политику на основе сигнала от эпизода. Однако более богатая процедурная информация из развертываний редко сохраняется и повторно используется, что ограничивает возможности модели.
PMD решает эту проблему, преобразуя кросс-эпизодные сигналы в процедурную память и дистиллируя её в веса политики во время обучения. Память организована на трёх уровнях абстракции: сырые траектории, саморефлексивные стратегии и уроки, а также поведенческие паттерны, повторяющиеся в задачах.
Ключевой принцип — коэволюция: политика генерирует развертывания, обновляющие память, а память формирует супервизию, обновляющую политику. Это позволяет модели постепенно интернализировать процедурные знания в своих параметрах.
Эксперименты проводились на моделях Qwen3-8B и OLMo3-Instruct-7B. PMD превзошёл SDPO на 3.8–5.5% на SCIKNOWEVAL и на 7.9–13.6% на LIVECODEBENCH. Заморозка памяти или политики ухудшала результаты более чем на 10%.
Авторы отмечают, что PMD может стать основой для самосовершенствующихся языковых моделей, способных накапливать и использовать опыт без внешней памяти на этапе инференса.


