More Related Content
More from Deep Learning JP (20)
[DL輪読会]Wavenet a generative model for raw audio
- 3. 従来の音声生成
・concatenative Text to Speech(TTS)
データベースから該当する音をつなぎあわせて音声を作っていく
音をつなぎ合わせているだけなので、強調・声色変更などができない
・parametric TTS
生成モデルを用いて単語や発話者の特徴量を抽出し音声を生成する。
単語毎に音の特徴量に変換していたので、英語のようなリエゾンのある
言語の音声生成は難しかった。
→WaveNetでは、生の波形から音声を生成する
- 9. dilated causal convolutional layers
Dilationの大きさ毎に入力を飛ばしていくことで層が深くなるにつれてinputの
数を指数関数的に大きくすることができる。また、Dilationの上限を超えたら
次の層でDilationを1に戻すことで、計算の効率化している。
e.g.) 1,2,4,...,512,1,2,4,...,512,1,2,4,...,512.
- 17. TEXT-TO-SPEECH
・データセット
Google’s North American English(24.6時間)
Mandarin Chinese TTS systems(34.8時間)
のそれぞれの単一話者のスピーチ
・入力
基本周波数 (log F0)
→信号を正弦波の合成(例えばフーリエ級数)で
表したときの最も低い周波数成分の周波数(wikipediaより)
単語の言語特徴量(音節・発音etc)
・出力
基本周波数 (log F0)
音節の長さ
・receptive field size (入力データサイズ)
およそ0.24sec(おそらく16層)