Новый трансформер CCT превзошел GPT-2 Small на 12% по перплексии

Исследователи разработали новую архитектуру языкового моделирования — Cognitive Categorical Transformer (CCT). Модель с 306 млн параметров дополняет предобученный GPT-2 Small компонентами, основанными на теории категорий и когнитивной науке. Результаты эксперимента опубликованы в препринте на arXiv.

В ходе эксперимента CCT сравнивали с тонко настроенной GPT-2 Small при одинаковом количестве шагов оптимизации (215 000), одинаковых данных и гиперпараметрах. На тестовом наборе WikiText-103 CCT достиг перплексии 21,27, тогда как базовая модель показала 24,19. Это означает снижение на 2,92 пункта (12% в относительном выражении).

Чтобы оценить вклад ключевого компонента — симплициального сообщения (simplicial message passing, GT-Full), авторы провели абляционное исследование. При обучении с нуля без GT-Full перплексия составила 23,72, что локализует 84% улучшения (2,45 из 2,92 PPL) именно на этот механизм. Это первое подтверждение, что симплициальное сообщение улучшает перплексию языковых моделей на масштабе 306 млн параметров.

Для сравнения: опубликованная ранее GPT-2 Large (в 6,2 раза больше параметров) показывает нулевую перплексию 22,05 на WikiText-103. Результат CCT близок к этому показателю при значительно меньшем размере модели.

Также в работе отмечены три отрицательных результата для других категориальных приоров — сглаживание пучка (sheaf smoothing), циклическое сопряжение (adjunction round-trip) и регуляризация кривизны (curvature regularization). Вместе с положительным результатом GT-Full это указывает на эмпирическое различие между структурными и согласованностными приорами: добавление новой топологии улучшает моделирование языка, а enforcing consistency identity — нет.