A Method of Speech Waveform Synthesis based on WaveNet considering Speech Generation Process

音声生成過程を考慮した
WaveNetに基づく音声波形合成法
玉森聡，林知樹，戸田智基，武田一哉
名古屋大学

研究目標
高品質かつ多様な音声波形合成技術の実現
• 音声による機械との情報伝達
• 音声は最も基本的なコミュニケーションツールの一つ
• 音声対話・音声翻訳，家電，ゲームなど
• 様々な要望
• いつでもどこでも聞き取りやすい音声
• より自然で肉声感のある音声
• 話速や声質を柔軟に制御したいなど

代表的な音声波形合成技術
波形接続方式
（ノンパラメトリック）
分析合成方式
（パラメトリック）
概要 :
音声波形の素片を接続して
音声を合成
概要：
音響特徴量（パラメタ）から
音声を合成
利点:
高品質（明瞭性の高さなど）
欠点:
音質が劣化（ボコーダ音）
欠点:
声質制御の柔軟性が低い
（話速や声色）など
利点:
声質制御の柔軟性が高い
など
両方式の良いとこ取りは実現できないか？

深層学習に基づく音声波形合成
• 音声合成分野にも深層学習が進出
例：Feed-Forward [Zen et al., ‘13] , LSTM-RNN [Zen et al., ‘15]
• WaveNet [van den Oord et al., ‘16]
• ニューラルネットワーク自身が音声波形を直接生成
⇒波形接続方式をも上回る高品質な音声
• 波形合成をサポートする補助特徴量が利用可能
WaveNetのポテンシャルに注目

本研究の概要
• 音響特徴量をWaveNetの補助特徴量として利用
従来の波形接続・分析合成方式の利点を併せ持つ
• 音響特徴量の利用 ⇒ 声質制御の柔軟性を期待
• 既存の分析合成器を介さない ⇒ 高品質な音声を期待
• 客観評価実験
メルケプストラムボコーダと比較して歪み改善
WaveNet
合成音声
音響特徴量

目次
• 研究背景
• 音声の生成過程とソースフィルタモデル
• WaveNet
• 提案法
• 実験
• まとめ

音声の生成過程
肺からの空気
音声
「こんにちは」
テキスト（概念）
「こんにちは」
口やのどの形
声の高さ・大きさ
発声器官を制御
音声の生成過程を模擬
（ディジタルフィルタ）
合成音声
制御パラメータ化して表現

ソースフィルタモデル［Fant, ‘60］
)(nh
)(ne
)(*)()( nenhnx 
励起信号
パルス列（有声）
白色雑音（無声）
音声
音源の特徴
（声の高さ・大きさ）
声道の特徴
（口やのどの形）
基本周波数
非周期成分付与
有声・無声情報
窓かけ
overlap/shift
ケプストラム係数など
＋
線形時不変システム
• 音声の生成過程を音源生成と声道共振（フィルタ）に分離
• 窓かけした音声を分析して音響特徴量を抽出
基本周波数（音源），ケプストラム係数（声道）など
• 音声波形合成系はボコーダ（Vocoder）とも呼ばれる

音質の限界を与える要因
)(nh
)(ne
)(*)()( nenhnx 
励起信号
パルス列（有声）
白色雑音（無声）
音声
音源の特徴
（声の高さ・大きさ）
声道の特徴
（口やのどの形）
基本周波数
非周期成分付与
有声・無声情報
窓かけ
overlap/shift
ケプストラム係数など
＋
線形時不変システム
• 励起信号のモデル化 ⇒ 位相情報の損失
• フィルタのモデル化 ⇒ 数学的仮定の導入（ガウス性など）
• Frame-by-Frameな処理 ⇒ 固定窓長＆窓内の線形性
複数要因が組み合わさり音質が劣化

WaveNet [van den Oord et.al, ’16]
音声の自己回帰型の生成モデル
重要な構成要素
• Causal dilated convolution
⇒非常に長期に渡る依存関係をモデル化
• ゲート付き活性化関数, residual, skip-connection
⇒強力な非線形性
• 出力層にsoftmax
⇒回帰問題（連続値）ではなくクラス分類問題（離散値）
：音声波形データ
畳み込みニューラルネットワークでモデル化
：モデルパラメータ

Causal Dilated Convolution
• Causal : 過去の波形サンプルのみを参照して畳み込み
• 層を重ねるごとにdilation（穴あき）を指数的に増やす
⇒長期の相関を効率よく取り込む
入力
隠れ層1
dilation=1
隠れ層2
dilation=2
隠れ層3
dilation=4
出力
dilation=8

アーキテクチャの全体図
sigm
Dilated
Conv.
1×1
Conv.
tanh tanh sigm
Dilated
Conv.
1×1
Conv.
tanh sigm
Dilated
Conv.
1×1
Conv.
Causal
Conv.
ReLU
Skip-connections
Residual Residual
1×1
Conv.
1×1
Conv.
ReLU
Input
Output
● ● ●
Softmax
Residual
ブロック
Residual
ブロック
Residual
ブロック

アーキテクチャの全体図
Dilated
Conv.
1×1
Conv.
tanh sigm
Dilated
Conv.
1×1
Conv.
tanh sigm
Dilated
Conv.
1×1
Conv.
Causal
Conv.
ReLU
Skip-connections
Residual Residual
1×1
Conv.
1×1
Conv.
ReLU
Input
Output
● ● ●
Softmax
Residual
ブロック
Residual
ブロックGated activation
Causal Dilated Conv.
ゲート付き活性化関数
Residual
Skip-connection

Softmax
• 問題点：振幅値の直接予測はクラス数が過多
例：量子化が16bitならば65,536個の値を取りうる
• 解決策：振幅値の符号化
取りうる値を大幅に削減（16bitから8bit）
• Softmax分布を出力層に設置
• 符号化された波形サンプル値が予測対象
• 予測で得られた値は復号化して振幅値に戻す

WaveNetの学習と合成
• 学習
• 入力側と出力側それぞれに符号化済サンプル列を用意
• クロスエントロピー最小化基準による最適化
• 合成
• 入力側は過去にWaveNet自身が生成したサンプル列
• Softmax分布からのランダムサンプリングを繰り返す
⇒自己回帰過程からのサンプリング

条件付きWaveNet
• 補助特徴量系列を導入してモデルを条件づける
• 先行研究では言語情報や基本周波数が補助特徴量
⇒ 言語情報と音声波形の間の対応関係を学習
⇒ テキスト音声合成タスクに適用

条件付きWaveNetと提案法との関係
• 補助特徴量系列によるモデルの条件づけは同じ
• 提案法は既存のボコーダの音響特徴量が補助特徴量
補助特徴量系列と音声波形系列で時間解像度が不一致
⇒補助特徴量の時間拡張（ → ）により対応
⇒各時刻の補助特徴量を予測分布に埋め込む

音響特徴量の抽出
音声
…… …
分析窓長
フレームシフト
音声分析
特徴量系列長は音声波形長よりも短い
音響
特徴量

音響特徴量の時間拡張
音響特徴量をフレームシフト幅だけ時間方向に複製
⇒音声と時間的解像度を合わせる
第1フレーム第2フレーム第3フレーム第4フレーム
音声サンプル点
系列
オリジナルの
補助特徴量
系列
コピー
…
…
時間拡張した
補助特徴量
系列 …

補助特徴量の埋め込み
Residual Blockの追加入力として実現
Residual
Block #3
Residual
Block #4
Residual
Block #2
Residual
Block #1
Residual
Block #1
補助特徴量
隠れ層1
dilation=1
隠れ層2
dilation=2
隠れ層3
dilation=4
出力
dilation=8

提案法の特徴
ボコーダの音響特徴量と音声波形の対応関係を学習
• 励起信号のモデル化は不要
⇒位相情報の損失の軽減，音質劣化を抑える
• 複雑な数学的モデルや仮定は不要
⇒対応関係をデータドリブンで自動構築
• Sample-by-Sampleかつ非線形な対応関係
⇒従来はFrame-by-Frameかつ線形な関係
既存のボコーダの代替を期待

実験による性能評価
• 合成音声と元音声の間の歪みによる客観評価
• 実験条件
CMU-ARCTIC データベース
女性話者 SLT
学習データ 1082 文章
評価データ 50 文章
サンプリング周波数 16 kHz
フレーム周期 5 ms
フレーム長 25 ms
窓関数ハミング窓
0 次〜24 次メルケプストラム
基本周波数
データベース
音響特徴量

ネットワークの学習条件
• 最適化アルゴリズムはAdamを利用; 学習率は手動で調整
• Dilationは1, 2, .... , 512を
3回繰り返す
⇒30層
Dilated
Conv.
1×1
Conv.
tanh sigm
Dilated
Conv.
1×1
Conv.
tanh sigm
Dilated
Conv.
1×1
Conv.
Causal
Conv.
ReLU
Skip-connections
Residual Residual
1×1
Conv.
1×1
Conv.
ReLU
Input
Output
● ● ●
Softmax
Residual
ブロック
Residual
ブロックGated activation
256ch
256ch
30ブロック = Causal dilated convolution 30層
2048ch 2048ch
256ch
2048ch

歪み評価の指標
• フレーム平均SNR（セグメンタルSNR）
⇒時間領域の歪みを評価
• フレーム平均SDR
⇒振幅スペクトルの歪みを評価
: フレーム総数 : フレーム長 : 評価用音声 : 合成音声
: 周波数ビンの総数 : 合成音声の
スペクトログラム
: 評価用音声の
スペクトログラム

補助特徴量の違いが歪みに与える影響
補助特徴量のパターン説明
Nothing 補助特徴量なし
Mcep メルケプストラムのみ
Mcep + F0 メルケプストラム
基本周波数
• 補助特徴量を変えてWaveNetを学習
※メルケプストラムは短時間FFTスペクトルから抽出

実験結果（補助特徴量の違い）
• 縦軸の単位はdB; ノッチは有意水準5%の信頼区間を表す
SNR SDR
McepNothing Mcep+F0Raw
（くぼみ）

実験結果（補助特徴量の違い）
• 基本周波数の軌跡（合成音声を分析して抽出）
Mcepは評価用音声（Test）の軌跡から大きく逸脱
メルケプストラムのみでも致命的な破綻はない
抽出誤り

メルケプストラムボコーダとの歪み比較
比較手法メルケプストラムの抽出元波形合成法
Plain-MLSA 短時間FFTスペクトル MLSA フィルタ
STRAIGHT-
MLSA
STRAIGHT分析※1による
スペクトル包絡
MLSA フィルタ
※2
Plain-
WaveNet
短時間FFTスペクトル WaveNet
STRAIGHT-
WaveNet
STRAIGHT分析による
スペクトル包絡
WaveNet
※1 高品質ボコーダSTRAIGHTで行われる音声分析の通称
※2 MLSAフィルタ：メルケプストラムボコーダの合成フィルタ

実験結果（SNR）
提案法の有効性を確認
SNRの改善
STRAIGHT-
WaveNet

メルケプストラムボコーダからの
有意な歪み改善
STRAIGHT-
WaveNet

高品質なメルケプストラムが
波形生成に有効に働く
STRAIGHT-
WaveNet
Raw

実験結果（SDR）
STRAIGHT-MLSAと同等の歪みを達成
STRAIGHT-
WaveNet

まとめ
音声の生成過程を考慮したWaveNetに基づく音声波形合成
• 既存のボコーダの音響特徴量を補助特徴量に利用
• 客観評価実験
• メルケプストラムボコーダが対象
• SNRについて有意な歪み改善，SDRはSTRAIGHTと同程度
今後の課題
• 主観評価実験
• 音響特徴量の変化に対する補完・頑健性の調査
• 既存の各種ボコーダの音響特徴量を適用
• データの規模を増減させて有効性を検証
時間領域の歪みを改善した高品質な音声波形の生成

A Method of Speech Waveform Synthesis based on WaveNet considering Speech Generation Process

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (19)

Similar to A Method of Speech Waveform Synthesis based on WaveNet considering Speech Generation Process

Similar to A Method of Speech Waveform Synthesis based on WaveNet considering Speech Generation Process (8)

A Method of Speech Waveform Synthesis based on WaveNet considering Speech Generation Process