RoVE: как сделать механизм внимания чувствительным к позиции — результаты на GPT-2

Редакция RusNews 11-июн, 11:28 Наука 1 Искусственный интеллект

Традиционный механизм внимания с позиционными эмбеддингами RoPE учитывает расстояние между токенами при вычислении весов внимания, но сами значения (value vectors) остаются позиционно-слепыми: сообщение от токена-значения не зависит от его удалённости от запроса. Исследователи предложили простое, но эффективное решение — RoVE (Rotary Value Embeddings), которое вращает значения вместе с ключами, делая их позиционно-чувствительными без добавления обучаемых параметров.

Как указано в новой статье на arXiv, RoVE превращает внимание с RoPE в «внимательную свёртку», что открывает интересный взгляд на механизм — он объединяет независимые формулировки из компьютерного зрения, робототехники и современных архитектур больших языковых моделей.

Эксперименты проводились на моделях GPT-2 с 124 миллионами и 354 миллионами параметров. RoVE показал устойчивый прирост производительности по сравнению с базовым RoPE на тестах few-shot внутриконтекстного обучения, на оценке перплексии для данных вне распределения и на задачах извлечения информации из длинного контекста. Наилучшие результаты были получены именно на задачах, требующих агрегации информации на больших расстояниях.

Авторы отмечают, что предложенный метод не требует переобучения с нуля — RoVE может быть интегрирован в существующие модели на основе RoPE без изменения количества параметров. Это делает его привлекательным для применения в системах, работающих с длинными последовательностями, таких как анализ документов, диалоговые системы и генерация кода.

Работа также демонстрирует, что простая симметрия между ключами и значениями может дать ощутимые практические выгоды, не усложняя архитектуру. Унификация с методами из других областей машинного обучения указывает на фундаментальность такого подхода.

По данным источника, следующими шагами может стать исследование применения RoVE в более крупных моделях и testing на задачах, требующих работы с контекстами длиной свыше 100 тысяч токенов.

RoVE: как сделать механизм внимания чувствительным к позиции — результаты на GPT-2

Разделы

Навигация

Теги

RoVE: как сделать механизм внимания чувствительным к позиции — результаты на GPT-2

Читайте также

Разделы

Навигация

Теги