Deep Learning for Audio

Lectures presented at:

Content:

Lecture 1: Physics of sound, Discret Fourier Transform, Spectrograms.
Lecture 2: Learnable DFT, Time and Spectral domain audio augmentations.
Lecture 3: Modern TTS, Tacotorn, Multi-speaker models, Multi-head models, Phonemes, Griffin-Lim Phase Reconstruction Vocoder
Lecture 4: Expressive TTS, Style Encodres, Style Tokens, SpichSplit, Zero Resource TTS.
Code for training neural DFT.

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
assets		assets
data		data
experiments		experiments
.gitignore		.gitignore
Lecture-1-Introduction-Physics_of_sound-DFT-Spectrograms.ipynb		Lecture-1-Introduction-Physics_of_sound-DFT-Spectrograms.ipynb
Lecture-2-Learnable_DFT-Augmentations.ipynb		Lecture-2-Learnable_DFT-Augmentations.ipynb
Lecture-3-Modern-TTS_Tacotron_Multi_speaker-Multi_head_models.ipynb		Lecture-3-Modern-TTS_Tacotron_Multi_speaker-Multi_head_models.ipynb
Lecture-4-Expressive_TTS-zero_resource_TTS.ipynb		Lecture-4-Expressive_TTS-zero_resource_TTS.ipynb
Lecture-5-crucial-speech-processing-tasks.ipynb		Lecture-5-crucial-speech-processing-tasks.ipynb
README.md		README.md
WavLM.py		WavLM.py
modules.py		modules.py
requirements.txt		requirements.txt
stft.py		stft.py
train_stft.py		train_stft.py

Provide feedback