Генерация аудио и речи: TTS, Whisper, MusicGen
🔒 Sign in to use this
Аудио и речь: Whisper, TTS и MusicGen.
Аудио — это просто еще одна последовательность: одномерный сигнал, дискретизируемый с частотой 16 000 или 44 100 раз в секунду. Современные аудиомодели преобразуют необработанные сигналы в частотно-временное представление, называемое спектрограммой, а затем применяют ту же архитектуру преобразователя, которая используется в LLM и моделях изображений. В этом уроке рассматриваются три доминирующие парадигмы генерации звука: автоматическое распознавание речи (Whisper), преобразование текста в речь (TTS) и генерация музыки (MusicGen).
Content is available with subscription.
Get full access to all courses on the platform for one year with a single payment.
▼
▼
Unlike other platforms that charge per course, here you get everything for one price, and after one year of use there will be no automatic charge for the following year.
🔒 Sign in to use this