NVIDIA представила Nemotron-Labs Diffusion: в 4 раза быстрее генерация текста на GPU B200

Компания NVIDIA представила открытое семейство языковых моделей Nemotron-Labs Diffusion. Новинка существенно ускоряет генерацию текста за счёт отказа от традиционной поэтапной генерации токенов.
На флагманском ускорителе NVIDIA B200 модели достигают скорости 865 токенов в секунду. Это в четыре раза быстрее обычной генерации токен-за-токеном при том же уровне качества.
Линейка включает три размера: 3, 8 и 14 миллиардов параметров. Все модели доступны под открытой лицензией, что позволяет разработчикам адаптировать их под свои задачи.
Отдельно представлена мультимодальная версия на 8 миллиардов параметров — она способна обрабатывать не только текст, но и изображения. Это расширяет сферу применения, включая создание контента и анализ данных.
Ускорение стало возможным за счёт применения диффузионного подхода, при котором модель генерирует сразу несколько токенов параллельно. NVIDIA утверждает, что при этом не происходит потери точности или релевантности ответов.
Открытый характер моделей позволит сообществу исследователей и инженеров интегрировать их в собственные проекты, ускоряя внедрение высокопроизводительных языковых решений.







