差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定

/16
本発表の概要
Ø 研究⽬的:
– ⾼品質・低遅延な声質変換の実現
Ø 従来法: 最⼩位相フィルタを⽤いた差分スペクトル法 [Suda18]
– ⾼品質だが，変換時の畳み込みの計算コストが増⼤
– 単にフィルタ打ち切りで計算量を削減した場合，品質が劣化
Ø 提案法: フィルタ打ち切りを考慮したリフタ学習
– DNNのパラメータとヒルベルト変換のリフタ係数を同時に学習
Ø 実験的評価:
– 提案法により，品質を劣化させずにタップ⻑を1/8まで短縮可能
2

/16
差分スペクトル法による声質変換 [Kobayashi14][Suda18]
Ø 差分フィルタを推定し，変換元話者の⾳声波形に直接適⽤
– ボコーダによる⾳質劣化を回避
– 最⼩位相フィルタによる⼿法は，MLSAフィルタより⾼品質
3
X Y-X
Filter
⊗

/16
従来法の学習プロセス
4
𝐹($)
⊕
𝐿
変換元話者の低次
実ケプストラム
差分フィルタの低次
Ø DNNで差分フィルタのケプストラム系列を推定
Ø ととの⼆乗誤差を最⼩化するようにDNNを学習
変換先話者の低次
変換⾳声の低次
STFT*
(𝐶(*)
𝐶(*)
DNN
𝐶($)
𝐶(+)
(𝐶(*)
𝐶(*)
* 短時間フーリエ変換

/16
従来法の変換プロセス
5
Ø 最⼩位相化・ヒルベルト変換を⾏うことで差分フィルタを推定
Ø 計算量削減のためにタップ⻑𝑙で打ち切り，畳み込み演算を⾏う
STFT
ヒルベルト変換
𝒖./0
畳み込み
最⼩位相化の
リフタ係数 (定数)
DNN
タップ⻑𝑙で
打ち切り
𝐹($)
𝐶($)
𝐶(+)
𝐹(+)
𝑓(+)
⊗
逆フーリエ
変換
𝑓(2)

/16
提案法
フィルタ打ち切りを考慮した
リフタ学習
6

/16
Ø 最⼩位相フィルタは，⾼品質な反⾯，計算量が⼤きい．
– MLSAフィルタと⽐較して必ずしもタップ⻑の短さが保証されない．
Ø フィルタをあるタップ⻑で打ち切ることで，計算量削減
– 単に打ち切っただけでは，品質が劣化してしまう．
Ø 提案法:
フィルタの打ち切りタップ⻑を条件として，DNNの
パラメータとヒルベルト変換のリフタを同時に学習
提案法: フィルタ打ち切りを考慮したリフタ学習
7
打ち切り
タップ⻑𝑙 タップ⻑𝑙

/16
提案法の学習プロセス
8
Ø フィルタ打ち切りを学習に含め，DNNとリフタ係数を同時に学習
Ø 全過程で微分可能であり，誤差逆伝播によりパラメータ更新可能
逆フーリエ変換𝒖
学習により更新する
リフタ係数
タップ⻑𝑙で
打ち切り
フーリエ変換
⨀
𝐿
DNN
𝐹($)
𝐶($)
𝐶(+)
𝐹(+) 𝑓(+)
𝑓(2)
𝐹(2)
4𝐹(*) (𝐶(*)
𝐶(*)

/16
提案法の変換プロセス
9
学習したDNNとリフタ係数により差分フィルタを求める．
フィルタを時間領域で畳み込むことにより変換．
逆フーリエ変換
𝒖
学習済みリフタ係数
タップ⻑𝑙で
打ち切り
DNN
畳み込み
𝐹($)
𝐶($)
𝐶(+) 𝐹(+) 𝑓(+)
𝑓(2)
⊗

/16
実験条件
11
データセット変換元話者: JSUT corpus [Sonobe17]
変換先話者: 声優統計 corpus [y_benjo17]
(100⽂，約12分からなるパラレルデータ)
Train/Valid/Test 80⽂/10⽂/10⽂
サンプリングレート 16 kHz
DNN 隠れ層2層のMulti Layer Perceptron
FFT⻑ 512
窓⻑ 25 ms
低次ケプストラム次数 40次
提案法と従来法でフィルタ打ち切りを⾏い，品質を評価
タップ⻑が512(打ち切りなし)，256，128，64の4ケースを⽐較

/16
客観評価結果: TestデータでのRMSE⽐較
Ø 全ケースで提案法のRMSE < 従来法のRMSE
–提案法は従来法よりも，フィルタ打ち切りの影響を低減
12
0.96
0.95
0.94
0.93
0.92
100 200 300 400 5000
従来法
提案法
タップ⻑
*RMSE
* Rooted Mean Squared Error

/16
主観評価結果: 提案法と従来法の⽐較
13
Ø タップ⻑64の場合で，有意に提案法 > 従来法
– 提案法により，フィルタを打ち切ったときの品質の劣化を低減
256
128
64
256
128
64
256
128
64
256
128
64
話者類似性⾳質
0 0.5 1.0 0 0.5 1.0
Preference score
＊＊
Preference score
従来法提案法提案法従来法

/16
主観評価結果: 提案法と打ち切りなしの場合との⽐較
14
Ø 打ち切りなし(512)・打ち切った場合との間に有意差なし
– 話者類似性・⾳質を劣化させずにタップ⻑を1/8まで短縮可能
256
128
64
0 0.5 1.0
Preference score
0 0.5 1.0
Preference score
512
512
512
256
128
64
512
512
512
話者類似性⾳質提案法提案法従来法従来法

/16
サンプル⾳源
15
タップ⻑: 512 タップ⻑: 64
従来法
提案法
変換元話者変換先話者

/16
まとめ
Ø 研究⽬的:
– ⾼品質・低遅延な声質変換の実現
Ø 提案:
– 差分スペクトル法に基づくDNN声質変換の計算量削減法
– フィルタの打ち切りタップ⻑を条件として，DNNの
パラメータとヒルベルト変換のリフタを同時に学習
Ø 実験結果:
– 提案法により，品質を劣化させずにタップ⻑を1/8まで短縮
Ø 今後の課題:
– 様々な話者データでの実験的評価の実施
– 提案法に基づく，リアルタイム・広帯域な声質変換の実現
16

/16
実験条件の詳細
18
サンプリングパラメータサンプリングレート 16kHz
STFTパラメータ窓⻑ 25ms
FFT⻑ 512 点
低次ケプストラム次数 40次元
フレームシフト 5ms
DNNパラメータ DNNの種類 Multi Layer Perceptron
loss Mean squared error
optimizer Adam
バッチサイズ 1000
活性化関数 Gated Linear Unit
(sigmoid, tanh)
隠れ層の数 2層 (280次元，100次元)
BatchNorm 隠れ層全てに適⽤

差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Shinnosuke Takamichi

More from Shinnosuke Takamichi (20)

Recently uploaded

Recently uploaded (10)

差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定