音響モデル尤度に基づくsubword分割の韻律推定精度における評価

音響モデル尤度に基づくsubword分割の
韻律推定精度における評価
東京大学大学院情報理工学系研究科
☆阿曽真至高道慎之介高宗典玄猿渡洋
日本音響学会
2020年春季研究発表会 1-2-4

/162
研究背景・問題設定
 タスク：韻律コンテキスト抽出を用いた音声合成
– Seq2Seqモデル [Wang+17] により，文字のみの入力で合成可能
– 日本語など特定言語の音声合成では，アクセント情報などが必要
– 従来法 [Akiyama+18] ではパラレルデータから韻律コンテキスト抽出
 問題設定：韻律コンテキスト抽出に最適な入力言語単位とは？
Accentual
information
従来法 [Akiyama+18]
東京都に住む
Text
Speech
Language units
？？？？
F0 seq.
Prosodic context
アクセント情報を用いた
音声合成
東京都に住む
Text
Speech

/16
入力言語単位の影響と subword 単位の分割
3
 入力言語単位の影響
– 文字単位：F0を捉えることが困難
– 単語単位：言語知識が必要，未知語・低頻出単語が発生しやすい
 Subword (部分文字列) 単位の分割 [Akiyama+18]
– 文字単位や単語単位の問題点を緩和
– 韻律推定にも関わらず言語モデル尤度に基づく subword 分割
[Kudo18]
東京オリンピック東京オリンピック東京オリンピック
F0 seq.
Character level
(e.g. original Tacotron) Word levelSubword level
Capture suprasegmental feats?
Avoid sparsity problem?
No. Yes.
Yes. No.
“東京オリンピック”
DNN
Input text
DNN DNN
F0 seq. F0 seq.

/16
発表概要
 従来法の韻律コンテキスト抽出の問題点 [Akiyama+18]
– 言語モデルに基づく subword 分割を使用
– 言語モデル尤度＝単語の出現頻度
– 高い音響モデル尤度を目的とする韻律コンテキスト抽出と矛盾
 提案法の韻律コンテキスト抽出
– 以前の研究 [Aso+19] で，音響モデルに基づく subword 分割を提案
– 音響モデル尤度=韻律の予測精度
– 高い音響モデル尤度を目的とする韻律コンテキスト抽出と合致
– Subword 分割モデルの中間層を韻律コンテキストとして使用可
 実験結果
– 提案法の subword 分割による合成音声の音質の改善
4
EM: expectation-maximization
DNN: deep neural network

/165
 言語モデル
– Subword の出現頻度を出力確率とするHMM
 言語モデルに基づく学習・分割
– 学習: 言語モデル尤度を最大化する，とを推定
– 分割: 言語モデルに基づき，尤もらしい subword 分割を推定
[Kudo18]
言語モデルに基づく
subword 分割
Subword
Sentence
Segmentation
candidate 京都に
京都
東京住む
東住む
東京都住
にむ東京
Subword
vocab.
Unigram
prob.
従来法
HMM: hidden Markov model

/16
BLSTMによる
韻律コンテキスト抽出
 2 層のBLSTMの間の中間層を抽出
6
従来法
[Akiyama+18]
F0 envelope
F0 seq.
Sentence
都に東京住むSubword seq.
Bottleneck
features
BLSTM
BLSTM
Prosodic
context
BLSTM: bi-directional long short-term memory
Lang. model-based subword tokenization

/16
従来法の問題点と提案法のアプローチ
 従来法の問題点
– 言語モデル尤度を最大化する分割を用いて韻律コンテキスト抽出
7
Lang. model-based
subword tokenization
東京都に住む
F0 seq.
Subword seq.
Sentence
Acoust. model-based
context extraction
[Akiyama +18]
Prosodic
context
に住む東京都

/16
従来法の問題点と提案法のアプローチ
 従来法の問題点
– 言語モデル尤度を最大化する分割を用いて韻律コンテキスト抽出
 提案法のアプローチ
– 音響モデル尤度を最大化する分割を用いて韻律コンテキスト抽出
8
東京都に住む
Acoust. model-based
Proposed
東京都に住む
Subword seq.
Sentence
Prosodic
context
Lang. model-based
Conventional
東京都に住む
F0 seq.
Subword seq.
Sentence
Acoust. model-based
context extraction
[Akiyama +18]
Prosodic
context
に住む東京都

提案法
音響モデルに基づく
subword 分割による

/16
音響モデルに基づく
subword 分割
10
 音響モデル
– パラメータを持つ韻律推定DNNの推定誤差を利用
 音響モデルに基づく学習・分割
– 学習：音響モデル尤度を最大化する，とを推定
– 分割：音響モデルに基づき，尤もらしい subword 分割を推定
Subword
Sentence
Segmentation
candidate
F0 envelope
F0 seq.
京都に
京都
東京住む
東住む
DNN
東京都住
にむ東京
Subword
vocab.
[Aso+19]

/16
Subword 分割モデル
DNN-HMM
11
 隠れ変数を，出力確率を以下の確率とするHMM
 音響モデル尤度
– 出力確率を用い表されるが与えられた下でのの尤度
Subword
Sentence
Segmentation
candidate
F0 envelope
F0 seq.
京都に
京都
東京住む
東住む
DNN
東京都住
にむ東京
Subword
vocab.
分散共分散行列正規分布
[Aso+19]

/16
DNN-HMMによる
12
京都に
京都
東京住む
F0 envelope
DNN
F0 seq.
東住む
Prosodic
context
Subword
Sentence
Tokenization
candidate
東京都住
にむ東京
Subword Vocab.
 学習済みの subword 分割のDNN音響モデルの中間層を抽出
– ただし，音響モデルに基づく subword 分割と，BLSTMによる韻律
コンテキスト抽出を組み合わせることもできる

/1614
実験条件
項目値／設定
日本語コーパス JSUT [Sonobe+17], JNAS [Ito+99]
学習／テストデータ 18,905 文／2,101 文
DNNの構成 Feed-Forward (see our paper.)
F0 の包絡成分
64 点にリサンプリングした後，離散コサ
イン変換の１次から 10 次までの成分を
抽出 [Ijima+17]
Subword vocab. の初期値
Enhanced suffix array [Abouelhoda+04] によ
り作られた13,585 語の subword
最終的な vocab. size 4,000 語のsubword
言語モデル Sentencepiece [Kudo18]
EMアルゴリズムの
反復回数
30 回
M-step Mini-batch 学習 (サイズ: 1,000 文), 30 回

/16
合成音声の客観評価
15
Subword
分割
音響モデル
(提案法)
言語モデル
[Kudo18]
音響モデル
(提案法)
韻律コンテキスト
抽出
DNN-HMM
(提案法)
BLSTM
[Akiyama+18]
BLSTM
[Akiyama+18]
RMSE 0.755 0.734 0.731
 RMSE (root mean squared error) を比較
– 一文ごとにRMSEを求め，さらにテストデータ全体で平均
– Subword 分割として，言語モデルと音響モデルを比較
– 韻律コンテキスト抽出として，DNN-HMMとBLSTMを比較
– 音響モデル尤度に基づく subword 分割は音響モデル尤度を最大化
実験
GoodBad
提案法の subword 分割によるRMSEの改善を確認

/1616
 プリファレンスABテストにより比較
– 韻律コンテキスト抽出はRMSEの良かったBLSTMによる手法
– 「どちらがイントネーションの自然か」について質問
– クラウドソーシングで，評価者数は 200 名
– 有意水準は 0.05 ％
実験
手法 A Scores
𝑝-
value
手法 B
Subword 分割言語モデル
[Kudo18]
0.484 vs. 0.517 0.037
音響モデル
(提案法)
韻律コンテキスト
抽出
BLSTM
[Akiyama+18]
BLSTM
[Akiyama+18]
合成音声の主観評価
GoodBad
イントネーションの自然性の改善を確認

/1617
まとめ
 背景
– 最適な言語単位を入力として，専門的な言語知識を用いず，
韻律コンテキスト抽出を行いたい
 提案法
– 音響モデルに基づく subword 分割による韻律コンテキスト抽出
– 学習済みDNN-HMMの中間層を用いた韻律コンテキスト抽出を提案
– ただし，BLSTMによる韻律コンテキスト抽出 [Akiyama+18] と音響モ
デルに基づく subword 分割 [Aso+19] を組み合わせることも可能
 結果
– 合成音声を用いた客観・主観評価では，DNN-HMMによる韻律コン
テキスト抽出の効果は見られなかった
– 一方， BLSTMによる韻律コンテキスト抽出 [Akiyama+18] において，
音響モデル尤度に基づく subword 分割の効果を確認

音響モデル尤度に基づくsubword分割の韻律推定精度における評価

Recommended

Recommended

More Related Content

What's hot

What's hot (15)

More from Shinnosuke Takamichi

More from Shinnosuke Takamichi (20)

Recently uploaded

Recently uploaded (8)

音響モデル尤度に基づくsubword分割の韻律推定精度における評価