Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding

893 views

Published on

日本音響学会2018年春季研究発表会講演論文集 "日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding"

Published in: Science
  • Login to see the comments

日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding

  1. 1. 日本語音声合成のための subword 内モーラを考慮した prosody-aware subword embedding 日本音響学会 2018年春季研究発表会 2-9-3 ☆秋山貴則(東大), 高道慎之介,猿渡洋(東大院・情報理工)
  2. 2. 2/14 • 目的:未知語・未知アクセントを含む言語の音声合成 - 方言音声合成に向けた,規則・辞書を利用しない韻律コンテキストの自動抽出 • 従来法:Prosody-aware word embedding [Ijima et al., 2017] - 利点:単語の韻律コンテキストを教師なしで抽出 - 欠点:未知語の韻律コンテキストは生成不可能,利用するF0情報の過不足 • 提案法:日本語韻律構造を考慮したProsody-aware subword embedding - テキストをアクセント句境界を考慮して subword 系列に分割 - Subword 内モーラ数に応じた変調フィルタリング 本発表の概要 日本音響学会 2018年春季研究発表会 日本共通語の音声合成において,有効性を確認
  3. 3. • 単語からF0情報を推定する neural network の bottleneck 特徴量として 韻律コンテキストを獲得 →未知語の韻律コンテキスト抽出は困難 & 韻律情報に過不足あり 従来法:Prosody-aware word embedding [Ijima et al., 2017] Bi-directional LSTM Bi-directional LSTM 連続F0系列 F0情報 あらゆる 現実単語列 あらゆる 現実 …テキスト 単語分割 音声合成器 韻律コンテキスト F0 information F0 information 3/14日本音響学会 2018年春季研究発表会
  4. 4. 従来法:F0情報の抽出 テキスト 部屋 を 出る とき に は,… リサンプリング 連続 F0 系列 固定長 F0 系列 離散コサイン変換 (DCT) F0情報 単語の文字数に関係なくDCT の固定次数成分を F0情報として利用 ↓ 利用するF0情報の過不足 4/14日本音響学会 2018年春季研究発表会
  5. 5. 提案法:日本語韻律構造を考慮した prosody-aware subword embedding アクセント句境界を考慮した subword 分割 + Subword 内モーラ数を考慮した変調フィルタリング
  6. 6. • Subword 分割 [Senrich et al., 2016][Kudo, 2017] - 言語モデル尤度に基づいて,低頻出語を部分文字列に分解する手法 - 未知語に対しても,既知 subword への分割により韻律コンテキスト抽出可能 • 複数アクセント句にまたがる subword を生成すると,embedding 性能が低下 → アクセント句をまたぐ文字列を言語モデルの計算から除外して subword 分割を学習 アクセント句境界を考慮した subword 分割 生文 本当な / のかも / しれない Subword 本当 なの かもしれない Subword(アクセント句 を考慮) 本当 な の かも しれない 6/14日本音響学会 2018年春季研究発表会 東京オリンピック 未知語 東京 / オリ / ン / ピ / ッ /ク Subword 系列への分割 既知 subword
  7. 7. • Subword の韻律コンテキストを教師なし抽出 Prosody-aware subword embedding Bi-directional LSTM Bi-directional LSTM 連続F0系列 F0情報 ふ る いSubword ふ る いテキスト リサンプリング & 変調フィルタリング Subword 分割 音声合成器 韻律コンテキスト 7/14日本音響学会 2018年春季研究発表会
  8. 8. • 変調フィルタリング:変調スペクトル [Takamichi et al., 2016] へのフィルタリング • 日本語はモーラ等時性言語 & モーラ毎に変化する高低アクセント →モーラ数で決まる高低以外は不要 Subword 内モーラ数を考慮した変調フィルタリング Filtering DFT IDFT Continuous F0 Target |𝑌 𝑓 | |𝑌′ 𝑓 | he ya he ya Filter 𝐶 = [𝐶 0 , … , 𝐶 𝑓 , … , 𝐶 𝑇 ] 𝐶 𝑓 = 1 (𝑓 ≤ 𝑓𝑡ℎ or 𝑓 ≥ 𝑇 − 𝑓𝑡ℎ 0 otherwise 𝑓𝑡ℎ = 0 𝑚 = 1 𝑚 + 1 2 otherwise For 𝑚-mora subword 𝑌′(𝑓) = 𝑌 𝑓 𝐶 𝑓 変調スペクトル 各モーラ位置の高 低情報を保存 8/14日本音響学会 2018年春季研究発表会
  9. 9. 実験的評価
  10. 10. 10/14 実験条件 Subword embedding の 訓練データ 新聞記事読み上げコーパス(JNAS) 15,676文 JSUTコーパス [Sonobe et al., 2017] 5,390文 音響モデルの訓練データ JSUTコーパス 5,390文 テストデータ JSUTコーパス 600文 Subword 語彙数 4,000 リサンプリング後の系列長 64 Subword-F0アライメント Fast_align [Dyer et al., 2013] による subword-音素アライメント Julius [Kawahara et al., 2000] による音素-F0アライメント Embedding モデル 4,000 – 256 (bi-directional LSTM) – 64 (ReLU) – 256 (bi- directional LSTM) – 64 (linear) 音響モデル Feed-Forward, 394 – 512×3 (ReLU) – 94 (linear) 入力コンテキスト 394次元(音素,音素内継続長,subword 内継続長,前後及び 当該 subword の韻律コンテキスト) 音声特徴量 連続F0,有声/無声,40次元のメルケプストラム,5帯域の平均 非周期成分,及びこれらの動的特徴量 最適化手法 Adam [Kingma et al., 2014] 日本音響学会 2018年春季研究発表会
  11. 11. • 評価対象 - Conventional:DCT [Ijima et al., 2017] - Proposed:変調フィルタリング - Proposed (acc):変調フィルタリング + アクセント句の考慮 客観評価(連続対数F0の予測精度) 変調フィルタリングによる改善 アクセント句の考慮による改善 Subword 内モーラ数及び、アクセント句境界の考慮による、 F0予測精度の改善を確認 Root mean squared error 連続対数F0は平均0,分散1に正規化 日本音響学会 2018年春季研究発表会 11/14
  12. 12. • 評価対象 - Conventional:DCT [Ijima et al., 2017] - Proposed:変調フィルタリング - Proposed (acc):変調フィルタリング + アクセント句の考慮 主観評価 (合成音声の自然性に関するプリファレンスABテスト) 有意差なし エラーバーは95%信頼区間 改善 改善 アクセント句境界の考慮による、音質改善を確認 12/14日本音響学会 2018年春季研究発表会
  13. 13. 13/14 • 目的:未知語・未知アクセントを含む言語の音声合成 - 辞書・規則を利用しない韻律コンテキストの自動抽出 • 提案法:日本語韻律構造を考慮したProsody-aware subword embedding - Subword 内モーラを考慮した変調フィルタリング - アクセント句境界を考慮した subword 分割 • 実験結果:日本共通語において提案法の有効性を確認 - 変調フィルタリング及び、アクセント句境界の考慮による、F0 予測精度の改善 - アクセント句境界の考慮による、音質改善 • 今後の予定:日本語多方言音声合成への適用(発表予定) - 多方言音声合成に向けたモデリング まとめ 日本音響学会 2018年春季研究発表会

×