SlideShare a Scribd company logo
1 of 19
Download to read offline
F0-consistent many-to-many non-parallel voice
conversion via conditional autoencoder
Author: K, Qian, Z. Jin, M. H-Johnson, G, J. Mysore
presenter: @peisuke
ICASSP2020⾳響⾳声読み会
⾃⼰紹介
名前:藤本 敬介
所属:ABEJA
研究:コンピュータビジョン、ロボット
活動:
Twitter @peisuke
Github https://github.com/peisuke
Qiita https://qiita.com/peisuke
SlideShare https://www.slideshare.net/FujimotoKeisuke
概要
• タイトル
• F0-consistent many-to-many non-parallel voice conversion via conditional
autoencoder
• どんな論⽂?
• Auto Encoderによってメルスペクトログラムを他⼈のものに変換
• その際にF0(ピッチ)が反転してしまう場合があった問題を解決
• ⼯夫点は?
• 過去に実施したAutoVC(AEベースでの⾳声変換)に、ソース⾳声のF0を条件
として与えた
全体の構成
• AutoVC (ICML2019)に対してF0を条件に追加
Output
変換後のメルスペクトログラム
(WaveNetボコーダで⾳声に変換)
Input
ソース⾳声のメルスペクトログラム
ソース話者・ターゲット話者の⾳声特徴
ソース⾳声の正規化したlog F0 ← New!!
AutoVCとは
• AutoEncoderの特徴量の次元を絞ることで、⾳声の変換を実現
1. エンコード・デコード時に話者を変えずに
復元した場合( !𝑋, 𝑋)の復元ロス
2. 上記処理の中間復元結果 $𝑋の復元ロス
3. 復元したメルスペクトログラムを再エン
コードした特徴の⼀致度合い
AutoVCの構成
• 全体のネットワーク構成
AutoVCの構成
• ⼊⼒はメルスペクトログラム
ソース⾳声の
メルスペクトログラム
ターゲット⾳声の
メルスペクトログラム
AutoVCの構成
• 予め話者の特徴抽出機を学習しておく(Wan et al. 2018)
話者の特徴抽出
(事前に学習しておく)
話者の特徴抽出
(事前に学習しておく)
AutoVCの構成
• ソース発話内容と話者特徴をエンコード
発話内容のエンコード
AutoVCの構成
• ダウンサンプルする事で特徴の次元数を落とす
ダウンサンプル&
アップサンプル
AutoVCの構成
• ターゲットの話者特徴を加えてデコードする
ターゲット特徴を
Concatしてデコード
AutoVCの学習・変換
• 学習時はソース話者のみ出現
• 単⼀の話者の発話内容を圧縮し、当該話者の特徴を利⽤して復元
• 話者の変換を明⽰的には学習しない
• 推論時に、ターゲット話者の特徴を利⽤
F0による条件付け
• AutoVCではターゲット話者の韻律の分布と⼀致しない場合がある
• デコーダに持ち越されたソース話者の韻律情報と、ターゲット話者の埋め込み
に含まれる韻律の情報が⽭盾する結果、F0が反転すると予想
• この問題に対して、ソース⾳声のlog-F0を正規化したものを、デコー
ド時にターゲット話者の特徴と⼀緒に埋め込む
• 256段階のone-hot+無⾳1次元分の257次元
𝑝!"#$ =
𝑝%#& − 𝜇
4𝜎
pはフレーム毎のlog-F0
u, σはpの平均・標準偏差
実験
• 実験内容
• F0の情報が適切に復元されるかを、定性的・定量的に調査
• 実験条件
• VCTKコーパスで学習/テストを⾏う
• 過去の実験との条件を合わせるため、男⼥それぞれ10を対象に実験
• 90%のデータを学習、10%をテストに利⽤
定量的評価
• F0の分布に関する評価
• 男⼥4⼈ずつ、160サンプルに関し、F0の分布を調査
• AutoVC(上段)と⽐較し、提案⼿法(下段)の⽅がlog(F0)の分布がGTに近
くなっている
• 上段では2つの⼭が出来ており、⾳声が反転しているケースが確認できる
定量的評価
• 変換前後でF0が⼀貫性を持つかを調査
• 変換後のF0のGTは無いので変換前のF0から線形変換して擬似的に作成
• 左図のように、変換後にF0が⼤きく変化してしまわないことが確認でき、
右図よりエラーの分布も提案⼿法の精度が⾼いことが確認できる
ボトルネックのテストおよびF0の制御
• 実験1:エンコーダのF0リーク検証
• 提案⼿法によって訓練済みのエンコーダに、F0情報を付与しないデコーダを組み合わせ、デ
コーダのみ学習
• エンコーダがF0情報をリークしないように学習できているため、デコーダにF0を付与しない
事でランダムなF0が復元されていることが確認できる
• 実験2:F0の制御の検証
• デコーダに与えるF0をフラットにして実験
• 復元される⾳声のF0もフラットにできる
定性的評価
• Amazon Mechanical TurkでMOS評価を⾏った
• AutoVCに加えStarGANおよびCHOUと⽐較し、各種法と⽐べて⾼い評価を得
られた
• 男⼥変換についてAutoVCと⽐較し、それぞれにおいて良い評価を達成
まとめ
• AutoEncoderベースでのmany-to-many⾳声変換
• ベース⼿法であるAutoVCでは変換によってF0が反転してしまう問題
があった
• F0の情報をデコーダに⼊れる事で上記問題を解決
• 実験により、定量的・定性的に上記効果を検証

More Related Content

More from Fujimoto Keisuke

sublabel accurate convex relaxation of vectorial multilabel energies
sublabel accurate convex relaxation of vectorial multilabel energiessublabel accurate convex relaxation of vectorial multilabel energies
sublabel accurate convex relaxation of vectorial multilabel energies
Fujimoto Keisuke
 

More from Fujimoto Keisuke (20)

Chainer meetup 9
Chainer meetup 9Chainer meetup 9
Chainer meetup 9
 
20180925 CV勉強会 SfM解説
20180925 CV勉強会 SfM解説20180925 CV勉強会 SfM解説
20180925 CV勉強会 SfM解説
 
Sliced Wasserstein Distance for Learning Gaussian Mixture Models
Sliced Wasserstein Distance for Learning Gaussian Mixture ModelsSliced Wasserstein Distance for Learning Gaussian Mixture Models
Sliced Wasserstein Distance for Learning Gaussian Mixture Models
 
LiDAR-SLAM チュートリアル資料
LiDAR-SLAM チュートリアル資料LiDAR-SLAM チュートリアル資料
LiDAR-SLAM チュートリアル資料
 
Stock trading using ChainerRL
Stock trading using ChainerRLStock trading using ChainerRL
Stock trading using ChainerRL
 
Cold-Start Reinforcement Learning with Softmax Policy Gradient
Cold-Start Reinforcement Learning with Softmax Policy GradientCold-Start Reinforcement Learning with Softmax Policy Gradient
Cold-Start Reinforcement Learning with Softmax Policy Gradient
 
Representation learning by learning to count
Representation learning by learning to countRepresentation learning by learning to count
Representation learning by learning to count
 
Dynamic Routing Between Capsules
Dynamic Routing Between CapsulesDynamic Routing Between Capsules
Dynamic Routing Between Capsules
 
Deep Learning Framework Comparison on CPU
Deep Learning Framework Comparison on CPUDeep Learning Framework Comparison on CPU
Deep Learning Framework Comparison on CPU
 
ICCV2017一人読み会
ICCV2017一人読み会ICCV2017一人読み会
ICCV2017一人読み会
 
Global optimality in neural network training
Global optimality in neural network trainingGlobal optimality in neural network training
Global optimality in neural network training
 
CVPR2017 oral survey
CVPR2017 oral surveyCVPR2017 oral survey
CVPR2017 oral survey
 
Point net
Point netPoint net
Point net
 
CVIM最先端ガイド6 幾何学的推定のための最適化手法 3.5 - 3.8
CVIM最先端ガイド6 幾何学的推定のための最適化手法 3.5 - 3.8CVIM最先端ガイド6 幾何学的推定のための最適化手法 3.5 - 3.8
CVIM最先端ガイド6 幾何学的推定のための最適化手法 3.5 - 3.8
 
Value iteration networks
Value iteration networksValue iteration networks
Value iteration networks
 
sublabel accurate convex relaxation of vectorial multilabel energies
sublabel accurate convex relaxation of vectorial multilabel energiessublabel accurate convex relaxation of vectorial multilabel energies
sublabel accurate convex relaxation of vectorial multilabel energies
 
Deep SimNets
Deep SimNetsDeep SimNets
Deep SimNets
 
G2o
G2oG2o
G2o
 
Deep Fried Convnets
Deep Fried ConvnetsDeep Fried Convnets
Deep Fried Convnets
 
L0TV: a new method for image restoration in the presence of impulse noise
L0TV: a new method for image restoration in the presence of impulse noiseL0TV: a new method for image restoration in the presence of impulse noise
L0TV: a new method for image restoration in the presence of impulse noise
 

F0-Consistent Many-to-many Non-parallel Voice Conversion via Conditional Autoencoder