CP-MoE: новый подход к обучению без забывания для языковых моделей

Катастрофическое забывание остаётся серьёзным препятствием для непрерывного обучения больших языковых моделей (LLM) и визуально-языковых моделей (VLM). Архитектуры Mixture-of-Experts (MoE) позволяют масштабировать модели, но существующие методы на основе LoRA сталкиваются с дилеммой: либо изолируют экспертов, ограничивая перенос знаний между задачами, либо допускают перезапись важных параметров, что ведёт к забыванию.

Для решения этой проблемы авторы предложили CP-MoE — фреймворк непрерывного обучения, построенный вокруг временного эксперта. Этот эксперт захватывает ранние обновления, характерные для новой задачи, и направляет их интеграцию в стабильных экспертов.

Ключевые компоненты CP-MoE — смещение маршрутизации, сохраняющее консистентность, и механизм регуляризации на основе временного эксперта. Первый компонент оценивает схожесть представлений между временным и стабильными экспертами, направляя маршрутизацию к совместимым экспертам. Второй — выборочно защищает важные исторические параметры при слиянии.

Эти элементы снижают интерференцию параметров и забывание, сохраняя при этом перенос знаний между задачами. CP-MoE протестирован как на одномодальных, так и на мультимодальных бенчмарках непрерывного обучения с использованием MoE-моделей на базе LLM и VLM.

На бенчмарке SuperNI, охватывающем разнообразные последовательные языковые задачи, CP-MoE показал state-of-the-art производительность и более сильный zero-shot перенос на невидимые задачи. На наборе данных VQA v2 метод эффективно масштабируется для мультимодальных визуальных рассуждений, последовательно уменьшая забывание и превосходя сильные MoE-базовые линии.

Разработка открывает путь к более адаптивным моделям, способным учиться новым задачам без потери предыдущих знаний, что важно для практических применений в постоянно меняющихся средах.