Исследователи автоматизировали поиск гетерогенных MoE-моделей и выявили скрытое смещение выборки
Исследователи из проекта NNGPT разработали автоматизированный пайплайн для поиска гетерогенных архитектур Mixture-of-Experts (MoE) с четырьмя экспертами. Работа основана на экосистеме нейросетевых датасетов LEMUR и опубликована на arXiv.
Пайплайн заменяет ручное проектирование детерминированным генератором кода, который систематически комбинирует базовые архитектуры из базы LEMUR в ансамбли MoE4. Каждый ансамбль управляется сверточной сетью гейтинга с температурным масштабированием, аугментацией mixup и косинусным планировщиком скорости обучения.
За 28-дневную кампанию на видеокарте NVIDIA RTX 4090 пайплайн сгенерировал 4 463 модели в 197 батчах, из которых успешно оценены 1 021. Критическое открытие: из-за алфавитного перебора через itertools.combinations всё исследованное пространство поиска (4,8% от теоретических 23 751 комбинаций) оказалось привязано к одному семейству — AirNet.
Исследователи точно охарактеризовали это смещение покрытия, выявили его коренную причину в генераторе и предложили исправление — стратифицированную случайную выборку. В рамках привязки к AirNet наилучшую точность стабильно давали комбинации ShuffleNet и MobileNetV3 (средняя точность до 0,632).
Семейства FractalNet и MNASNet признаны низкоэффективными — их рекомендовано исключить из будущих кампаний. Все артефакты анализа, пайплайн и исправленный генератор опубликованы в открытом доступе на GitHub в рамках проекта NNGPT.
Результаты работы показывают, как автоматизация нейросетевого дизайна может неожиданно вносить скрытые систематические ошибки. Предложенное исправление позволит в дальнейшем исследовать более широкое пространство архитектур без алфавитного смещения.



