More Related Content More from Deep Learning JP (20) [DL輪読会]音声言語病理学における機械学習とDNN1. DEEP LEARNING JP
[DL Papers]
⾳声⾔語病理学における機械学習とDNN
Haruka Murakami, Matsuo Lab
http://deeplearning.jp/
2. Learning Latent Representations for Style Control and
Transfer in End-to-end Speech Synthesis
• ICASSP(2019)
• Ya-Jie Zhang ; Shifeng Pan ; Lei He ; Zhen-Hua Ling
• 内容:end-to-endの⾳声合成モデルにVAEを導⼊し、発話スタイルの
潜在表現を教師なし学習する
• 貢献ポイント:Kullback-Leibler発散崩壊を回避するためにいくつか
の⼯夫をしている
• 被引⽤数:26
• 選定理由:Text-to-speechの先⾏研究を⾒ていて、⽐較的最近のもの
の中ではよく引⽤されていたため、変更点がシンプルに⾒えたため
2
3. ⾳声合成の⼿法による違い
波形接続型 HMM型 DNN型
肉声感 ◎元の音声を使っている ×ロボット的 △
抑揚 × △自然な読みができるレベ
ル
弱点 大容量の波形DBが必要 計算量が多く応答性が弱
い
3
ニーズ:明瞭性→人間の音声に近づける
2016年 WaveNetにより進歩 → Google CloudText-to-Speechに採用
4. Variational Autoencoder (VAE)
• VAEは、潜在変数zを確率分布という構造に押し込める
• AE: 教師なし学習の⼀つ。そのため学習時の⼊⼒データは訓練データ
のみで教師データは利⽤しない。データを表現する特徴を獲得するた
めのニューラルネットワーク。
• VAEはこの潜在変数zzに確率分布、通常z~N(0,1)z~N(0,1)を仮定
4
KL誤差↑の負の値再構
成誤差
6. Tacotron 2
• Tacotron 2
– End-to-endの⾳声合成システム
• メルスペクトログラム
– 実際の⾳と⼈間の⾳⾼知覚の差
異を吸収し、ヒトの⽿向けに調
整した特徴量
– ⼈間は線形スケールで周波数を
知覚せず、低周波数の⽅が差異
に敏感
– リズムや強調などの調⼦を得ら
れる
6
7. 提案モデル
7
• ⼤きく分けて2部ある
• Recognition model部(推論部)
– 参照⾳源を、潜在表現の固定⻑
の短ベクトル(スタイルを表す潜
在変数z)に符号化
• End-to-end TTSモデル部
– Tacotron2を利⽤
– 潜在表現とテキストエンコーダ
の状態が結合されたものを、特
定のスタイルを持つ⽣成分に変
換する
• モデル全体のlossは
FC: fully connected
幅5、512チャンネルの3つ
の1次元畳み込み層と確率
0.1のゾーンアウトの双方向
LSTM層で構成
8. KL collapseの回避
• 潜在変数zの事後分布 が事前分布 と⼀致し, データの特性を捉えない
現象.
• 訓練中に識別可能な表現を学習する前にKL誤差が簡単にcollapseする
• KL誤差の収束速度が再構成誤差の収束速度をはるかに上回り、KL損
失は即座にゼロ付近まで低下して⼆度と上昇しないため、エンコーダ
が動作しなくなる
• この問題の解決にKL annealingを導⼊
– 1.訓練中にKL項に可変の重みを加える;開始時はゼロに近い値→徐々に増
加させる
– 2.KステップごとにKL誤差を考慮する
8
9. 評価⼿法
• 使⽤データセット: Blizzard Challenge 2013
– 単⼀話者による様々な語りのスタイルが含まれる105時間の英語オーディオブ
ックのデータセット
– 学習⽤発話:58453個、テスト⽤発話:200個
– フレームシフト:12.5ms、フレーム⻑:50msで80次元のメルスペクトルグラ
ムを抽出
• ベースラインモデル:GST model (Wang 2018)
– Global style tokens:end-to-end⾳声合成システムのTacotron内で学習される
embedding列
– 要は明⽰的なラベルなしで⾳声の因⼦を分解することができる先⾏研究
– ハイパーパラメータは先⾏研究内のセッティングを適⽤
9
10. 主な評価⼿法
• 1)⽣成したものをメルスペクトルグラムで⽐較
• 2)non-parallel transferとparallel transferをABXテストで⽐較
• Non-parallelデータ
– テキスト→指定したスタイルの読み
– non-parallelデータ;スタイルラベルのついた⾳声データ
• Parallel transfer:ターゲットテキストと参照⾳源の情報元が同じも
の
• Non-parallel transfer:上記の情報源が異なるもの
10
14. Style transfer
• ⼊⼒テキストは同じ
– 図は”She went into the shop . It was
warm and smelled deliciously.”
• ⽣成された⾳声と参照⾳声のメルス
ペクトログラムはピッチの⾼さ、⼀
時停⽌時間、発話率、ピッチの変化
などのパターンの類似性を有してい
る
– (と書いてあるが、⾳声の結果は⾒つ
からなかった)
14
1 行目:スタイルの異なる 3 つの録音のメロ・スペクトロ
グラム
2 行目は:録音で参照された合成音声
16. Style transferのABXテストの結果
• 提案モデルはparallel, non-parallelの両⽅において、GSTモデルよりも優れ
ている(p値<10-5)
• つまり、VAEが潜在的なスタイル表現をより良くモデル化できることを⽰
し、結果としてより良いstyle transferが可能であることを⽰している
• 特に、non-parallelにおいて優位で、より優れた⼀般化能⼒を⽰している16