広帯域DNN音声合成のためのスペクトル包絡のGMM近似

広帯域DNN音声合成のための
スペクトル包絡のGMM近似
小口純矢, 高道慎之介, 猿渡洋（東大・情報理工）
嵯峨山茂樹（電通大・情報理工）
2020年日本音響学会春季研究発表会 1-2-6
GMM approximation of spectrum envelopes for
wide-band DNN-based speech synthesis

/20
背景：スペクトルのGMM近似
2
𝐺(𝜔) = ෍
𝑘=1
𝑛
𝑤 𝑘
2𝜋𝜎 𝑘
exp −
𝜔 − 𝜇 𝑘
2
2𝜎 𝑘
2
➢ ― ガウス分布はスペクトルの共振構造を表現
・平均 𝜇 ：周波数
・分散 𝜎2 ：鋭さ
・重み 𝑤：振幅（パワー）
観測スペクトル包絡
GMM 近似包絡 𝐺(𝜔)
𝜎4
𝜎3
𝜎2
𝜎1
𝜇4𝜇3𝜇2𝜇1
𝑤4
𝑤3
𝑤2
𝑤1
周波数
振幅
― GMM を音声特徴量に用いた統計的音声合成 [北条+ 2012]
・狭帯域音声が対象（16 kHz）
・GMM の統計的音声合成における優れた性質（後述）
[Zolfaghari+ 1996]

/20
発表概要
➢ 目的：GMM パラメータを広帯域のDNN音声合成へ
– 従来の分析手法は広帯域音声に対して適切か？
– DNN 音声合成へそのまま適用できるか？
➢ 広帯域音声分析と DNNテキスト音声合成の手法を提案
– 提案法①：反復推定アルゴリズムにおけるパラメータ初期化法
• ピークピッキングに基づくパラメータ初期化
• 従来の初期化法と比較して合成音声の自然性が向上
– 提案法②：GMM パラメータを用いた DNN 音響モデルの学習法
• GMMパラメータ同士の MSE + GMM 近似包絡-観測包絡間の IS div.
– パラメータ推定精度のばらつきを吸収
– 提案法③：分散パラメータ補正に基づくフォルマント強調法
• ポストフィルタ処理により合成音声の自然性が向上
3
GMM: Gaussian Mixture Model（混合ガウスモデル）
DNN: Deep Neural Network（深層ニューラルネットワーク）
MSE: Mean Squared Error（平均二乗誤差）
IS div：Itakura-Saito divergence（板倉斎藤擬距離）
テ
キ
ス
ト
音
声
合
成
音
声
分
析

GMMパラメータを用いた
音声分析合成系

/20
GMM パラメータによる音声分析合成
5
➢ 分析時：ボコーダ分析より得られたスペクトル包絡をGMM近似
➢ 合成時：GMM近似包絡からスペクトル包絡に戻して合成
非周期性指標
GMM
パラメータ
ボコーダ
分析
ボコーダ
合成
GMM
近似
混合
基本周波数
音声波形スペクトル包絡
[Zolfaghari+ 1996]

/20
GMM を用いる利点
6
1. 統計学習の平均化による over-smoothing を低減できる
– GMM は周波数方向に平均化される
𝜇2A + 𝜇2𝐵
2
𝜇1A + 𝜇1𝐵
2
𝑤2A + 𝑤2𝐵
2
𝑤1A + 𝑤1𝐵
2
𝜇2B𝜇1𝐵
𝑤2B
𝑤1𝐴
𝜇2𝐴𝜇1A
𝑤2𝐴
𝑤1A
周波数
振幅
2. スペクトルの共振成分を独立に制御できる
– 局所的な構造の加工が容易
• 例. スペクトルモーフィングによる声質変換 [Nguyen+ 2006]
平均化されても
ピークとディップが保存される
[北条+ 2012]

/20
GMMパラメータ推定法
7
𝐺(𝜔) = ෍
𝑘=1
𝑛
𝑤 𝑘
2𝜋𝜎 𝑘
exp −
𝜔 − 𝜇 𝑘
2
2𝜎 𝑘
2
➢ ガウス分布はスペクトルの共振構造を表現
平均 𝜇 ：周波数
分散 𝜎2 ：鋭さ
重み 𝑤：振幅（パワー）
𝐻: 観測スペクトル包絡
𝐺(𝜔): GMM近似包絡
𝜎4
𝜎3
𝜎2
𝜎1
𝑤4
𝑤3
𝑤2
𝑤1
周波数
振幅
I -ダイバージェンス＋ 𝜇 𝑘 の時間遷移モデルの最小化に基づき反復推定
– 反復アルゴリズムの初期値には自由度が存在
– 𝜇 の初期値は推定結果に大きく影響
[Zolfaghari+ 1996]
[北条+ 2012]

広帯域音声のための
パラメータ初期化法

/20
従来法：LSP分析に基づく初期化と問題点
反復アルゴリズムの初期値の任意性
– 平均パラメータ 𝜇 の初期値は推定精度に大きく影響
– 従来法：混合数×2 次の線スペクトル対 [Itakura+ ] の平均
9
周波数
振幅
正規分布が低域に集中して適合
Log-amplitude
Frequency [Hz]

/20
提案法：ピークピッキングに基づく初期化
包絡のピーク周波数を平均パラメータ初期値に
– 包絡のピークを直接
– LSP 初期値よりも全体域に満遍なく適合する傾向
10
周波数
振幅
Log-amplitude
Frequency [Hz]
高域にも偏りなく適合

GMMパラメータを用いた
DNN音声合成系

/20
GMMパラメータを考慮した DNN 学習
12
混合
DNN
GMM近似
コンテキスト
MSE
板倉-斎藤
擬距離
𝜇1 𝜎1𝑤1 𝜇2 𝜎2𝑤2 𝜇1 𝜎1𝑤1 𝜇2 𝜎2𝑤2
観測GMMパラメータ 𝑌
近似スペクトル包絡 ෠𝐺 観測スペクトル包絡 𝐻
推論GMMパラメータ ෠𝑌
ℒMSE 𝑌, ෠𝑌 + 𝛼ℒIS(𝐻, ෠𝐺)
スペクトル間誤差を考慮し
構造を保存するよう誘導
パラメータ同士の平均化により
スペクトルが過剰に平滑化

/20
GMMの分散パラメータ補正に基づく
フォルマント強調
14
➢ ポストフィルタ処理で合成音声の品質を改善できないか？
– 例. ケプストラムにおけるフォルマント強調 [Yoshimura+ 2004]
➢ 提案法：分散パラメータ補正に基づくポストフィルタ
– 分散パラメータ：共振の鋭さ
– 1 以下の値で定数倍することでフォルマント強調
周波数
振幅
周波数
振幅
スペクトルの山谷を強調
分散パラメータ
定数倍

実験的評価
分析合成音声とDNN合成音声

/20
実験条件（分析合成音声の評価）
16
音声データ
JVS コーパス [Takamichi+ 2019]
話者：男女 1 名ずつ無作為に選出
読み上げ文：PARALLEL100 から無作為に選んだ 2 文
分析・合成 WORLD（d4c edition） [Morise+ 2016]
サンプリング周波数
16 kHz（フレーム長 1024 サンプル）
24 kHz（フレーム長 2048 サンプル）
フレームシフト 5 ms
GMM 混合数 30
➢ 提案法（GMM-PEAK）の自然性をABプリファレンステストで評価
– 比較対象
• GMM-LSP ：LSP初期値（GMM-LSP）
• MCEP60 ：60次元メルケプストラム
• MCEP40 ：40次元メルケプストラム

/20
分析合成音声のプリファンレンススコア
17
16 kHz
提案手法スコア比較手法
GMM-PEAK 0.505 vs. 0.495 GMM-LSP
GMM-PEAK 0.454 vs. 0.556 MCEP40
従来法（GMM-LSP）と比較して
広帯域音声に対して自然性を有意に改善
24 kHz
GMM-PEAK 0.570 vs. 0.430 GMM-LSP
※太字のスコアは p 値が0.05以下の場合

/20
実験条件（DNN音声合成）
18
音声データ
JSUT コーパス [Sonobe+ 2017]
BASIC5000 から 4500 文（訓練）, 500 文（検証）
VOICEACTRESS100 から 100 文（テスト）
入力コンテキスト 535 次元
音声特徴量 30混合GMM, 対数Fo, 非周期性指標, 有/無声, Δ, ΔΔ
サンプリング周波数 48 kHz（2048 サンプル, フレームシフト 5 ms）
DNN Feed-forward 型
IS div. 重み 𝛼 1000
分散補正ポスト
フィルタ係数
0.75
➢ 合成音声の自然性をABプリファレンステストで評価
– MSE ：MSE 最小化学習
– MSE+IS ：MSE + IS div. 最小化学習
– MSE+IS+PF ：MSE + IS.div 最小化学習 + 分散補正ポストフィルタ

/20
分析合成音声の主観評価結果
19
分散パラメータ補正に基づくポストフィルタ処理は
合成音声の自然性を有意に改善
スペクトル間誤差を考慮することで自然性が有意に改善
スペクトル間誤差の有無による比較
ポストフィルタ処理の有無による比較
手法スコア比較手法
MSE+IS 0.822 vs. 0.178 MSE
MSE+IS+PF 0.720 vs. 0.280 MSE+IS
※太字のスコアは p 値が0.05以下の場合

/20
まとめ
➢ 目的：GMM パラメータを広帯域の DNN音声合成へ
➢ 広帯域音声分析と DNNテキスト音声合成の手法を提案
– 提案法①：反復推定アルゴリズムにおけるパラメータ初期化法
• 評価結果：広帯域音声の初期値としてピークピッキングが有効
– 提案法②：GMMパラメータを用いたDNN 音響モデルの学習法
• パラメータ間誤差だけでなくスペクトル間誤差の導入により品質改善
– 提案法③：分散パラメータ補正に基づくフォルマント強調法
• 評価結果：ポストフィルタ処理の導入により品質改善
➢ 今後の展望
– パラメータ推定精度向上
– 計算速度の向上
20
テ
キ
ス
ト
音
声
合
成
音
声
分
析

広帯域DNN音声合成のためのスペクトル包絡のGMM近似

Recommended

Recommended

More Related Content

More from Shinnosuke Takamichi

More from Shinnosuke Takamichi (20)

Recently uploaded

Recently uploaded (9)