More Related Content
Similar to A Method of Speech Waveform Synthesis based on WaveNet considering Speech Generation Process
Similar to A Method of Speech Waveform Synthesis based on WaveNet considering Speech Generation Process (8)
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Generation Process
- 8. ソースフィルタモデル[Fant, ‘60]
)(nh
)(ne
)(*)()( nenhnx
励起信号
パルス列(有声)
白色雑音(無声)
音声
音源の特徴
(声の高さ・大きさ)
声道の特徴
(口やのどの形)
基本周波数
非周期成分付与
有声・無声情報
窓かけ
overlap/shift
ケプストラム係数など
+
線形時不変システム
• 音声の生成過程を音源生成と声道共振(フィルタ)に分離
• 窓かけした音声を分析して音響特徴量を抽出
基本周波数(音源),ケプストラム係数(声道)など
• 音声波形合成系はボコーダ(Vocoder)とも呼ばれる
- 11. WaveNet [van den Oord et.al, ’16]
音声の自己回帰型の生成モデル
重要な構成要素
• Causal dilated convolution
⇒非常に長期に渡る依存関係をモデル化
• ゲート付き活性化関数, residual, skip-connection
⇒強力な非線形性
• 出力層にsoftmax
⇒回帰問題(連続値)ではなくクラス分類問題(離散値)
:音声波形データ
畳み込みニューラルネットワークでモデル化
:モデルパラメータ
- 12. Causal Dilated Convolution
• Causal : 過去の波形サンプルのみを参照して畳み込み
• 層を重ねるごとにdilation(穴あき)を指数的に増やす
⇒長期の相関を効率よく取り込む
入力
隠れ層1
dilation=1
隠れ層2
dilation=2
隠れ層3
dilation=4
出力
dilation=8
- 26. ネットワークの学習条件
• 最適化アルゴリズムはAdamを利用; 学習率は手動で調整
• Dilationは1, 2, .... , 512を
3回繰り返す
⇒30層
Dilated
Conv.
1×1
Conv.
tanh sigm
Dilated
Conv.
1×1
Conv.
tanh sigm
Dilated
Conv.
1×1
Conv.
Causal
Conv.
ReLU
Skip-connections
Residual Residual
1×1
Conv.
1×1
Conv.
ReLU
Input
Output
● ● ●
Softmax
Residual
ブロック
Residual
ブロックGated activation
256ch
256ch
30ブロック = Causal dilated convolution 30層
2048ch 2048ch
256ch
2048ch
- 31. メルケプストラムボコーダとの歪み比較
比較手法 メルケプストラムの抽出元 波形合成法
Plain-MLSA 短時間FFTスペクトル MLSA フィルタ
STRAIGHT-
MLSA
STRAIGHT分析※1による
スペクトル包絡
MLSA フィルタ
※2
Plain-
WaveNet
短時間FFTスペクトル WaveNet
STRAIGHT-
WaveNet
STRAIGHT分析による
スペクトル包絡
WaveNet
※1 高品質ボコーダSTRAIGHTで行われる音声分析の通称
※2 MLSAフィルタ:メルケプストラムボコーダの合成フィルタ