Исследователи представили CosmicFish-HRM: компактная языковая модель с адаптивной глубиной рассуждений

Научная работа, опубликованная на arXiv, описывает новую компактную языковую модель CosmicFish-HRM. Её ключевая особенность — адаптивная глубина рассуждений: модель тратит разное количество вычислительных ресурсов на разные входные данные.

Традиционно большие языковые модели достигают сильных результатов за счёт огромного числа параметров, что делает их дорогими в использовании. В этой работе исследователи пошли иным путём: они не увеличивают размер модели, а учат её гибко распределять вычисления.

В основе CosmicFish-HRM лежит иерархический модуль рассуждений (HRM). Он состоит из высокоуровневых и низкоуровневых циклов. Модель сама решает, когда остановиться, в зависимости от сложности задачи. Это позволяет избежать лишних вычислений на простых запросах.

Разработчики также интегрировали современные компоненты трансформеров: групповое внимание с запросами (Grouped Query Attention), позиционное кодирование RoPE и активации SwiGLU. Несмотря на то, что дополнительная инфраструктура для рассуждений увеличивает накладные расходы на малых масштабах, авторы предполагают, что с ростом модели этот компромисс становится всё более выгодным.

Эксперименты показали, что CosmicFish-HRM демонстрирует неравномерное поведение в рассуждениях: на разных задачах и входных данных модель делает разное количество шагов. Это подтверждает, что адаптивная глубина может стать перспективной альтернативой простому наращиванию числа параметров.

Таким образом, новый подход предлагает способ повышения эффективности и производительности компактных языковых моделей без необходимости в огромных вычислительных затратах.