MiniMax представил модели M2: эффективность через мини-активацию и самоэволюцию

Компания MiniMax представила семейство языковых моделей MiniMax-M2, построенных на принципе «мини-активации для максимального интеллекта». Флагманская модель M2 содержит 229,9 млрд параметров, но при каждом токене активируется лишь 9,8 млрд — это позволяет добиться высокой эффективности при сохранении производительности.

Архитектура M2 спроектирована для агентного развертывания и включает три ключевых компонента. Первый — агентно-ориентированные конвейеры данных, создающие крупномасштабные и верифицируемые траектории в сценариях агентного кодирования и совместной работы. Каждая траектория привязана к исполняемому рабочему пространству и использует вознаграждение, согласованное с результатом.

Второй компонент — система обучения с подкреплением Forge, адаптированная для длинных агентных траекторий. Она включает оконное FIFO-планирование, слияние префиксных деревьев, оптимизацию инференса и чистую декомпозицию «обучение-инференс-агент», поддерживающую как белые, так и черные ящики.

Третий элемент — последняя версия M2.7, которая делает шаг к самоэволюции. Модель способна автономно отлаживать процесс обучения и модифицировать собственный каркас, не требуя вмешательства человека.

Комбинация этих компонентов позволяет моделям серии M2 демонстрировать производительность на уровне передовых решений в задачах агентного кодирования, глубокого поиска, офисных задач и рассуждений. При этом активация лишь малой доли параметров делает модели энергоэффективными и подходящими для промышленного использования.

Исследование опубликовано на arXiv под номером 2605.26494. Выход M2-Series подтверждает тренд на создание моделей, которые при скромных вычислительных затратах способны решать сложные агентные задачи, включая самонастройку и адаптацию под новые сценарии.