HybridCodec: новый метод объединяет дискретные и непрерывные представления для эффективных речевых языковых моделей

Группа исследователей представила новый метод под названием HybridCodec, который объединяет дискретные и непрерывные представления аудиосигнала для создания более эффективных речевых языковых моделей. Работа опубликована на сервере препринтов arXiv.

Как поясняют авторы, дискретные аудиопредставления становятся всё популярнее для построения мультимодальных систем текст-аудио и интеграции речевых возможностей в большие языковые модели. Однако многие исследования отмечают снижение производительности на различных downstream-задачах из-за потери информации при дискретизации.

Для решения этой проблемы предлагается комбинация сжатых по времени дискретных токенов и непрерывных остатков с пониженной размерностью. Разработанный фреймворк включает гибридный дискретно-непрерывный кодек с фокальной модуляцией и гибридный трансформер.

Архитектура выполняет авторегрессионный вывод в дискретной области в сочетании с неавторегрессионным предсказанием и апсемплингом непрерывных остатков. По результатам экспериментов, HybridCodec значительно улучшает сохранение характеристик говорящего по сравнению с методами, использующими только дискретные представления, и одновременно сокращает количество необходимых авторегрессионных шагов.

Разработка может найти применение в системах синтеза речи, распознавания и улучшения качества аудио, а также в мультимодальных диалоговых ассистентах, где важна точность передачи голосовых особенностей.

Исследование представляет собой шаг к более качественной обработке речевых сигналов в языковых моделях, сохраняя эффективность инференса.