Генерация аудио и речи: TTS, Whisper, MusicGen

🔒 Sign in to use this

Аудио и речь: Whisper, TTS и MusicGen.

Аудио — это просто еще одна последовательность: одномерный сигнал, дискретизируемый с частотой 16 000 или 44 100 раз в секунду. Современные аудиомодели преобразуют необработанные сигналы в частотно-временное представление, называемое спектрограммой, а затем применяют ту же архитектуру преобразователя, которая используется в LLM и моделях изображений. В этом уроке рассматриваются три доминирующие парадигмы генерации звука: автоматическое распознавание речи (Whisper), преобразование текста в речь (TTS) и генерация музыки (MusicGen).

Content is available with subscription.

Get full access to all courses on the platform for one year with a single payment.

Unlike other platforms that charge per course, here you get everything for one price, and after one year of use there will be no automatic charge for the following year.

🔒 Sign in to use this