ITNet: новая архитектура ИИ объединяет свертки, внимание и рекуррентные сети в единую модель
Группа исследователей опубликовала в arXiv препринт, в котором предложена новая нейросетевая архитектура — Integral Transform Network (ITNet). В центре работы лежит идея о том, что три основных семейства моделей — свёрточные сети, рекуррентные сети и трансформеры — являются частными случаями одного и того же математического объекта: обучаемого интегрального преобразования.
Авторы показывают, что все три типа архитектур возникают при определённых параметризациях единого ядра, которое зависит как от позиций, так и от признаков. Это ядро реализуется в виде небольшой нейронной сети (MLP), моделирующей парные взаимодействия. Таким образом, ITNet может адаптировать своё поведение под данные, не будучи жёстко ограниченным конкретной индуктивной предвзятостью.
Для практического применения были разработаны методы эффективного вычисления: разбиение ядра на тайлы, интеграция Монте-Карло с взвешиванием по важности и обученная факторизация низкого ранга. Это позволяет масштабировать модель на большие объёмы данных.
Эксперименты показали, что единая архитектура ITNet с общим оператором и лёгкими модально-специфичными энкодерами достигает или превосходит результаты специализированных моделей на наборах данных ImageNet-1K, GLUE, ModelNet40, VQA v2 и NLVR2. Эти результаты охватывают задачи компьютерного зрения, обработки естественного языка и мультимодального анализа.
По мнению авторов, фрагментация архитектур в глубоком обучении отражает не принципиальное разнообразие в обработке сигналов, а неполные представления о едином математическом объекте. ITNet доказывает, что один обучаемый механизм взаимодействия может восстанавливать поведение всех трёх семейств, обучаясь на данных.
Работа опубликована в открытом доступе на сервере препринтов arXiv. Пока что это теоретическая и экспериментальная демонстрация; для широкого практического внедрения потребуется дальнейшая оптимизация и тестирование.



