10. 10
Dilated causal convolution
過去のサンプルにのみ依存した穴開きの畳込み
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
*Figure from van den Oord+, WaveNet: A generative model for raw audio, 2016.
𝑥 𝑛−16 𝑥 𝑛−2 𝑥 𝑛−1
𝑝(𝑥 𝑛|𝑥 𝑛−1, … , 𝑥 𝑛−16)
考慮可能なサンプル数が指数関数的に増加
非常に大きな受容野のサイズを確保可能
11. 11
量子化された波形の利用
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
Time
Amplitude
𝜇-rawアルゴリズムで波形を8 bitのone-hotへ変換
クラス分類問題として音声波形を推定
*Figure from Heiga Zen, Generative model-based TTS synthesis