SlideShare a Scribd company logo
1 of 17
Download to read offline
DEEP LEARNING JP
[DL Papers]
⾳声⾔語病理学における機械学習とDNN
Haruka Murakami, Matsuo Lab
http://deeplearning.jp/
Learning Latent Representations for Style Control and
Transfer in End-to-end Speech Synthesis
• ICASSP(2019)
• Ya-Jie Zhang ; Shifeng Pan ; Lei He ; Zhen-Hua Ling
• 内容:end-to-endの⾳声合成モデルにVAEを導⼊し、発話スタイルの
潜在表現を教師なし学習する
• 貢献ポイント:Kullback-Leibler発散崩壊を回避するためにいくつか
の⼯夫をしている
• 被引⽤数:26
• 選定理由:Text-to-speechの先⾏研究を⾒ていて、⽐較的最近のもの
の中ではよく引⽤されていたため、変更点がシンプルに⾒えたため
2
⾳声合成の⼿法による違い
波形接続型 HMM型 DNN型
肉声感 ◎元の音声を使っている ×ロボット的 △
抑揚 × △自然な読みができるレベ
ル
弱点 大容量の波形DBが必要 計算量が多く応答性が弱
い
3
ニーズ:明瞭性→人間の音声に近づける
2016年 WaveNetにより進歩 → Google CloudText-to-Speechに採用
Variational Autoencoder (VAE)
• VAEは、潜在変数zを確率分布という構造に押し込める
• AE: 教師なし学習の⼀つ。そのため学習時の⼊⼒データは訓練データ
のみで教師データは利⽤しない。データを表現する特徴を獲得するた
めのニューラルネットワーク。
• VAEはこの潜在変数zzに確率分布、通常z~N(0,1)z~N(0,1)を仮定
4
KL誤差↑の負の値再構
成誤差
提案モデル
5
• 基本的には後述する先⾏研究
に⼀部変更を加えたモデル
• 発話スタイル潜在表現z+テキ
スト⽂をEncoder部分を修正
したTacotron2に⼊⼒し、得
られたメルスペクトログラム
をWaveNet vocoderに⼊⼒し、
⽣成⾳源を得る
Tacotron 2
• Tacotron 2
– End-to-endの⾳声合成システム
• メルスペクトログラム
– 実際の⾳と⼈間の⾳⾼知覚の差
異を吸収し、ヒトの⽿向けに調
整した特徴量
– ⼈間は線形スケールで周波数を
知覚せず、低周波数の⽅が差異
に敏感
– リズムや強調などの調⼦を得ら
れる
6
提案モデル
7
• ⼤きく分けて2部ある
• Recognition model部(推論部)
– 参照⾳源を、潜在表現の固定⻑
の短ベクトル(スタイルを表す潜
在変数z)に符号化
• End-to-end TTSモデル部
– Tacotron2を利⽤
– 潜在表現とテキストエンコーダ
の状態が結合されたものを、特
定のスタイルを持つ⽣成分に変
換する
• モデル全体のlossは
FC: fully connected
幅5、512チャンネルの3つ
の1次元畳み込み層と確率
0.1のゾーンアウトの双方向
LSTM層で構成
KL collapseの回避
• 潜在変数zの事後分布 が事前分布 と⼀致し, データの特性を捉えない
現象.
• 訓練中に識別可能な表現を学習する前にKL誤差が簡単にcollapseする
• KL誤差の収束速度が再構成誤差の収束速度をはるかに上回り、KL損
失は即座にゼロ付近まで低下して⼆度と上昇しないため、エンコーダ
が動作しなくなる
• この問題の解決にKL annealingを導⼊
– 1.訓練中にKL項に可変の重みを加える;開始時はゼロに近い値→徐々に増
加させる
– 2.KステップごとにKL誤差を考慮する
8
評価⼿法
• 使⽤データセット: Blizzard Challenge 2013
– 単⼀話者による様々な語りのスタイルが含まれる105時間の英語オーディオブ
ックのデータセット
– 学習⽤発話:58453個、テスト⽤発話:200個
– フレームシフト:12.5ms、フレーム⻑:50msで80次元のメルスペクトルグラ
ムを抽出
• ベースラインモデル:GST model (Wang 2018)
– Global style tokens:end-to-end⾳声合成システムのTacotron内で学習される
embedding列
– 要は明⽰的なラベルなしで⾳声の因⼦を分解することができる先⾏研究
– ハイパーパラメータは先⾏研究内のセッティングを適⽤
9
主な評価⼿法
• 1)⽣成したものをメルスペクトルグラムで⽐較
• 2)non-parallel transferとparallel transferをABXテストで⽐較
• Non-parallelデータ
– テキスト→指定したスタイルの読み
– non-parallelデータ;スタイルラベルのついた⾳声データ
• Parallel transfer:ターゲットテキストと参照⾳源の情報元が同じも
の
• Non-parallel transfer:上記の情報源が異なるもの
10
潜在変数の補間
• VAEは潜在表現間のスムーズな補間と連続的
なサンプリングをサポートして、解釈可能な
表現を得られる
• これを利⽤して2つのz間の補間演算を⾏った
• 結果、1つは⾼い発話率と⾼いピッチの⾳声、
もう1つは低い発話率と低いピッチの⾳声を⽣
成することができた
• このように、⽣成された⾳声のピッチと発話
率は、補間に伴って徐々に低下していること
がわかる
• この結果から、学習した潜在空間がスペクト
ルグラムの傾向を連続的に制御していること
がわかり、さらにスタイルの変化に反映され
ることがわかる
11
生成された音声のメルスペクトル
これは何を意味するのか?
• 複数の次元が独⽴した表現であることは、潜在
変数が概念のみを完全に制御し、他の要因から
の変化に対して不変であることを意味する
• 実験で、複数の次元が独⽴してピッチハイト、
局所的なピッチ変動、発話率などのスタイル属
性を制御できることが分かった
• つまり、⼀つの次元を調整することで、⽣成⾳
声の属性を変化させることができる
12
他の次元を固定しながら、単一
の次元を操作した場合のスペク
トログラムの変化
1列目:潜在次元6を-0.9, -0.1,
0.7に調整することで、ピッチ
の高さのみが制御されている
2列目:ディメンション10の値
をそれぞれ0.1, 0.5, 0.9, 0.1, 0.5,
0.9にすると局所的なピッチ変
動が徐々に拡大
潜在変数の加法性
• ↑ピッチ⾼さ属性と局所的なピッチ変動属性の組み合わせ結果
• Zを組み合わせて⽣成された⾳声は、双⽅のdisentangleされた次元の特性を継承
していることがわかる
• (a)と(b)は、1つの次元をを⾮ゼロ、他の次元をゼロとするzで⽣成されている。
• (a)のValued次元はピッチの⾼さを制御し、(b)のValued次元はピッチの変化を制
御する。(c)は(a)と(b)のzの和で⽣成される。 13
Style transfer
• ⼊⼒テキストは同じ
– 図は”She went into the shop . It was
warm and smelled deliciously.”
• ⽣成された⾳声と参照⾳声のメルス
ペクトログラムはピッチの⾼さ、⼀
時停⽌時間、発話率、ピッチの変化
などのパターンの類似性を有してい
る
– (と書いてあるが、⾳声の結果は⾒つ
からなかった)
14
1 行目:スタイルの異なる 3 つの録音のメロ・スペクトロ
グラム
2 行目は:録音で参照された合成音声
Style transferの性能評価⼿法
• Parallelとnon-paralleltransferでABXテストを実施
• Parallel
– テストセットから60個の⾳声クリップとテキストをランダムに選択
• Non-parallel
– 60⽂のテキストと60個の他の参照⾳声クリップを選択して⾳声を⽣成
• ベースライン⾳声:パラメータチューニングしたGSTモデル
• ABX test:被験者がAとBを聞き分けられることを客観的に評価するテスト
– 25⼈の英語ネイティブ
– どちらの話し⽅が基準スタイルに近いか
– (1)Aの⽅が良い (2)Bの⽅が良い (3)中⽴
15
Style transferのABXテストの結果
• 提案モデルはparallel, non-parallelの両⽅において、GSTモデルよりも優れ
ている(p値<10-5)
• つまり、VAEが潜在的なスタイル表現をより良くモデル化できることを⽰
し、結果としてより良いstyle transferが可能であることを⽰している
• 特に、non-parallelにおいて優位で、より優れた⼀般化能⼒を⽰している16
まとめ
• End-to-endのTTSモデルにVAEモジュールを導⼊
• 連続空間における発話スタイルの潜在表現を教師なし学習し、合成⾳
声の発話スタイルをコントロール出来るようにした
– 潜在空間が連続的であることを実証し、学習された潜在変数において解釈可能
な因⼦を探した
• ABXテストにおいてStyle transferでGSTモデルを上回る
• 今後の研究
– より説明可能な潜在表現を得ることに焦点を当てる
– 単⼀話者だけでなく、複数話者にも適応を拡⼤する
17

More Related Content

More from Deep Learning JP

More from Deep Learning JP (20)

【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
 
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
 
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
 
【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM
 

Recently uploaded

Recently uploaded (11)

Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 

[DL輪読会]音声言語病理学における機械学習とDNN