LatentRouter: новая система выбора мультимодальной ИИ-модели опережает аналоги
Команда разработчиков представила LatentRouter — систему маршрутизации для мультимодальных больших языковых моделей (MLLM). Метод основан на контрфактическом прогнозировании полезности: вместо запуска всех доступных моделей система оценивает, как каждая справилась бы с конкретным запросом, и выбирает лучшую.
Проблема выбора модели актуальна, так как разные MLLM сильны в разных задачах — распознавании текста, анализе графиков, пространственных рассуждениях или ответах на вопросы по изображениям. Кроме того, модели отличаются по стоимости и скорости работы. LatentRouter учитывает все эти факторы.
Архитектура включает три ключевых компонента: обучаемые мультимодальные маршрутизирующие капсулы, токены способностей для каждой модели и механизм скрытой коммуникации между ними. Распределительная головка предсказывает контрфактическое качество, а коррекция капсул уточняет граничные решения.
Эксперименты на эталонных наборах MMR-Bench и VL-RouterBench показали, что LatentRouter превосходит фиксированные модели, методы на основе признаков и обученные маршрутизаторы. Наибольший прирост зафиксирован в задачах, где выбор модели критически зависит от визуальных особенностей, расположения объектов или сложных логических рассуждений.
Дополнительный анализ подтвердил, что именно скрытая коммуникация между капсулами даёт основной вклад в улучшение результатов. Система поддерживает как оптимизацию по качеству, так и баланс качества и стоимости, а также позволяет добавлять или удалять модели из пула без переобучения.
Код LatentRouter опубликован в открытом доступе на GitHub. Разработчики планируют дальнейшее развитие метода, включая поддержку более широкого спектра мультимодальных задач и интеграцию с облачными платформами.
Исследование представлено на arXiv. Отмечается, что технология может быть полезна для сервисов, обрабатывающих разнородные визуальные запросы — от медицинской диагностики до анализа спутниковых снимков.



