日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding

日本語音声合成のための
subword 内モーラを考慮した
prosody-aware subword embedding
日本音響学会 2018年春季研究発表会 2-9-3
☆秋山貴則(東大)，
高道慎之介，猿渡洋(東大院・情報理工)

2/14
• 目的：未知語・未知アクセントを含む言語の音声合成
- 方言音声合成に向けた，規則・辞書を利用しない韻律コンテキストの自動抽出
• 従来法：Prosody-aware word embedding [Ijima et al., 2017]
- 利点：単語の韻律コンテキストを教師なしで抽出
- 欠点：未知語の韻律コンテキストは生成不可能，利用するF0情報の過不足
• 提案法：日本語韻律構造を考慮したProsody-aware subword embedding
- テキストをアクセント句境界を考慮して subword 系列に分割
- Subword 内モーラ数に応じた変調フィルタリング
本発表の概要
日本音響学会 2018年春季研究発表会
日本共通語の音声合成において，有効性を確認

• 単語からF0情報を推定する neural network の bottleneck 特徴量として
韻律コンテキストを獲得
→未知語の韻律コンテキスト抽出は困難 & 韻律情報に過不足あり
従来法：Prosody-aware word embedding
[Ijima et al., 2017]
Bi-directional LSTM
Bi-directional LSTM
連続F0系列
F0情報
あらゆる現実単語列
あらゆる現実 …テキスト
単語分割
音声合成器
韻律コンテキスト
F0 information F0 information
3/14日本音響学会 2018年春季研究発表会

従来法：F0情報の抽出
テキスト
部屋を出るときには，…
リサンプリング
連続 F0 系列
固定長 F0 系列
離散コサイン変換
(DCT)
F0情報
単語の文字数に関係なくDCT
の固定次数成分を
F0情報として利用
↓
利用するF0情報の過不足

提案法：日本語韻律構造を考慮した
prosody-aware subword embedding
アクセント句境界を考慮した subword 分割
+
Subword 内モーラ数を考慮した変調フィルタリング

• Subword 分割 [Senrich et al., 2016][Kudo, 2017]
- 言語モデル尤度に基づいて，低頻出語を部分文字列に分解する手法
- 未知語に対しても，既知 subword への分割により韻律コンテキスト抽出可能
• 複数アクセント句にまたがる subword を生成すると，embedding 性能が低下
→ アクセント句をまたぐ文字列を言語モデルの計算から除外して
subword 分割を学習
アクセント句境界を考慮した subword 分割
生文本当な / のかも / しれない
Subword 本当なのかもしれない
Subword（アクセント句
を考慮）
本当なのかもしれない
東京オリンピック
未知語
東京 / オリ / ン / ピ / ッ /ク
Subword
系列への分割既知 subword

• Subword の韻律コンテキストを教師なし抽出
Prosody-aware subword embedding
Bi-directional LSTM
Bi-directional LSTM
連続F0系列
F0情報
ふるいSubword
ふるいテキスト
リサンプリング &
変調フィルタリング
Subword 分割
音声合成器
韻律コンテキスト

• 変調フィルタリング：変調スペクトル [Takamichi et al., 2016] へのフィルタリング
• 日本語はモーラ等時性言語 & モーラ毎に変化する高低アクセント
→モーラ数で決まる高低以外は不要
Subword 内モーラ数を考慮した変調フィルタリング
Filtering
DFT
IDFT
Continuous F0
Target
|𝑌 𝑓 |
|𝑌′
𝑓 |
he ya
he ya
Filter 𝐶 = [𝐶 0 , … , 𝐶 𝑓 , … , 𝐶 𝑇 ]
𝐶 𝑓 =
1 (𝑓 ≤ 𝑓𝑡ℎ or 𝑓 ≥ 𝑇 − 𝑓𝑡ℎ
0 otherwise
𝑓𝑡ℎ =
0 𝑚 = 1
𝑚 + 1
2
otherwise
For 𝑚-mora subword
𝑌′(𝑓) = 𝑌 𝑓 𝐶 𝑓
変調スペクトル
各モーラ位置の高
低情報を保存

10/14
実験条件
Subword embedding の
訓練データ
新聞記事読み上げコーパス（JNAS） 15,676文
JSUTコーパス [Sonobe et al., 2017] 5,390文
音響モデルの訓練データ JSUTコーパス 5,390文
テストデータ JSUTコーパス 600文
Subword 語彙数 4,000
リサンプリング後の系列長 64
Subword-F0アライメント Fast_align [Dyer et al., 2013] による subword-音素アライメント
Julius [Kawahara et al., 2000] による音素-F0アライメント
Embedding モデル 4,000 – 256 (bi-directional LSTM) – 64 (ReLU) – 256 (bi-
directional LSTM) – 64 (linear)
音響モデル Feed-Forward, 394 – 512×3 (ReLU) – 94 (linear)
入力コンテキスト 394次元（音素，音素内継続長，subword 内継続長，前後及び
当該 subword の韻律コンテキスト）
音声特徴量連続F0，有声/無声，40次元のメルケプストラム，5帯域の平均
非周期成分，及びこれらの動的特徴量
最適化手法 Adam [Kingma et al., 2014]

• 評価対象
- Conventional：DCT [Ijima et al., 2017]
- Proposed：変調フィルタリング
- Proposed (acc)：変調フィルタリング + アクセント句の考慮
客観評価（連続対数F0の予測精度）
変調フィルタリングによる改善
アクセント句の考慮による改善
Subword 内モーラ数及び、アクセント句境界の考慮による、
F0予測精度の改善を確認
Root mean squared error
連続対数F0は平均0，分散1に正規化
日本音響学会 2018年春季研究発表会 11/14

• 評価対象
- Conventional：DCT [Ijima et al., 2017]
- Proposed：変調フィルタリング
- Proposed (acc)：変調フィルタリング + アクセント句の考慮
主観評価
（合成音声の自然性に関するプリファレンスABテスト）
有意差なし
エラーバーは95%信頼区間
改善
改善
アクセント句境界の考慮による、音質改善を確認

13/14
• 目的：未知語・未知アクセントを含む言語の音声合成
- 辞書・規則を利用しない韻律コンテキストの自動抽出
• 提案法：日本語韻律構造を考慮したProsody-aware subword embedding
- Subword 内モーラを考慮した変調フィルタリング
- アクセント句境界を考慮した subword 分割
• 実験結果：日本共通語において提案法の有効性を確認
- 変調フィルタリング及び、アクセント句境界の考慮による、F0 予測精度の改善
- アクセント句境界の考慮による、音質改善
• 今後の予定：日本語多方言音声合成への適用（発表予定）
- 多方言音声合成に向けたモデリング
まとめ

日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding

Similar to 日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding (18)

More from Shinnosuke Takamichi

More from Shinnosuke Takamichi (20)

日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding