Новый метод PMD улучшает обучение языковых моделей за счет процедурной памяти

Редакция RusNews 03-июл, 10:52 Наука 1 Искусственный интеллект

Исследователи представили Procedural Memory Distillation (PMD) — новый метод обучения языковых моделей, который использует накопленный опыт из множества эпизодов для улучшения качества. Работа опубликована на arXiv.

Существующие подходы, такие как RLVR и SDPO, оценивают каждый эпизод отдельно и обновляют политику на основе сигнала от эпизода. Однако более богатая процедурная информация из развертываний редко сохраняется и повторно используется, что ограничивает возможности модели.

PMD решает эту проблему, преобразуя кросс-эпизодные сигналы в процедурную память и дистиллируя её в веса политики во время обучения. Память организована на трёх уровнях абстракции: сырые траектории, саморефлексивные стратегии и уроки, а также поведенческие паттерны, повторяющиеся в задачах.

Ключевой принцип — коэволюция: политика генерирует развертывания, обновляющие память, а память формирует супервизию, обновляющую политику. Это позволяет модели постепенно интернализировать процедурные знания в своих параметрах.

Эксперименты проводились на моделях Qwen3-8B и OLMo3-Instruct-7B. PMD превзошёл SDPO на 3.8–5.5% на SCIKNOWEVAL и на 7.9–13.6% на LIVECODEBENCH. Заморозка памяти или политики ухудшала результаты более чем на 10%.

Авторы отмечают, что PMD может стать основой для самосовершенствующихся языковых моделей, способных накапливать и использовать опыт без внешней памяти на этапе инференса.

Новый метод PMD улучшает обучение языковых моделей за счет процедурной памяти

Разделы

Навигация

Теги

Новый метод PMD улучшает обучение языковых моделей за счет процедурной памяти

Читайте также

Разделы

Навигация

Теги