HybridCodec: новый метод объединяет дискретные и непрерывные представления для эффективных речевых языковых моделей
Группа исследователей представила новый метод под названием HybridCodec, который объединяет дискретные и непрерывные представления аудиосигнала для создания более эффективных речевых языковых моделей. Работа опубликована на сервере препринтов arXiv.
Как поясняют авторы, дискретные аудиопредставления становятся всё популярнее для построения мультимодальных систем текст-аудио и интеграции речевых возможностей в большие языковые модели. Однако многие исследования отмечают снижение производительности на различных downstream-задачах из-за потери информации при дискретизации.
Для решения этой проблемы предлагается комбинация сжатых по времени дискретных токенов и непрерывных остатков с пониженной размерностью. Разработанный фреймворк включает гибридный дискретно-непрерывный кодек с фокальной модуляцией и гибридный трансформер.
Архитектура выполняет авторегрессионный вывод в дискретной области в сочетании с неавторегрессионным предсказанием и апсемплингом непрерывных остатков. По результатам экспериментов, HybridCodec значительно улучшает сохранение характеристик говорящего по сравнению с методами, использующими только дискретные представления, и одновременно сокращает количество необходимых авторегрессионных шагов.
Разработка может найти применение в системах синтеза речи, распознавания и улучшения качества аудио, а также в мультимодальных диалоговых ассистентах, где важна точность передачи голосовых особенностей.
Исследование представляет собой шаг к более качественной обработке речевых сигналов в языковых моделях, сохраняя эффективность инференса.


