LaneRoPE: как заставить LLM работать сообща для точных ответов

При тестировании больших языковых моделей (LLM) часто используют стратегию best-of-N: генерируется N ответов, и выбирается лучший. Однако до сих пор каждый ответ создавался независимо, без обмена информацией между копиями.

Новый метод LaneRoPE, описанный в статье на arXiv, решает эту проблему. Он вводит два ключевых улучшения: межпоследовательную маску внимания, которая делает выбор токенов зависимым от других последовательностей, и расширение позиционного кодирования RoPE, учитывающее взаимное положение токенов как внутри одной цепочки, так и между разными.

Авторы протестировали LaneRoPE на задачах математического рассуждения. Результаты показали, что координация между последовательностями даёт дополнительный прирост точности, особенно при ограниченной длине генерируемого текста.

Важно, что LaneRoPE требует минимальных изменений в архитектуре модели — достаточно модифицировать маски внимания и позиционное кодирование. Накладные расходы на инференс практически незаметны, что делает метод привлекательным для быстрого внедрения параллельного рассуждения в существующие пайплайны.

По мнению разработчиков, LaneRoPE открывает путь к более эффективному использованию тест-тайм вычислений: вместо простого перебора вариантов модели могут сотрудничать, уточняя ответы друг друга. Это особенно актуально для сложных задач, где требуется глубокий анализ.

Исследование выполнено специалистами в области искусственного интеллекта и опубликовано на arXiv. Дальнейшие работы планируется направить на адаптацию метода для других модальностей и типов задач.