SlideShare a Scribd company logo
1 of 13
Download to read offline
日本語音声合成のための
subword 内モーラを考慮した
prosody-aware subword embedding
日本音響学会 2018年春季研究発表会 2-9-3
☆秋山貴則(東大),
高道慎之介,猿渡洋(東大院・情報理工)
2/14
• 目的:未知語・未知アクセントを含む言語の音声合成
- 方言音声合成に向けた,規則・辞書を利用しない韻律コンテキストの自動抽出
• 従来法:Prosody-aware word embedding [Ijima et al., 2017]
- 利点:単語の韻律コンテキストを教師なしで抽出
- 欠点:未知語の韻律コンテキストは生成不可能,利用するF0情報の過不足
• 提案法:日本語韻律構造を考慮したProsody-aware subword embedding
- テキストをアクセント句境界を考慮して subword 系列に分割
- Subword 内モーラ数に応じた変調フィルタリング
本発表の概要
日本音響学会 2018年春季研究発表会
日本共通語の音声合成において,有効性を確認
• 単語からF0情報を推定する neural network の bottleneck 特徴量として
韻律コンテキストを獲得
→未知語の韻律コンテキスト抽出は困難 & 韻律情報に過不足あり
従来法:Prosody-aware word embedding
[Ijima et al., 2017]
Bi-directional LSTM
Bi-directional LSTM
連続F0系列
F0情報
あらゆる 現実単語列
あらゆる 現実 …テキスト
単語分割
音声合成器
韻律コンテキスト
F0 information F0 information
3/14日本音響学会 2018年春季研究発表会
従来法:F0情報の抽出
テキスト
部屋 を 出る とき に は,…
リサンプリング
連続 F0 系列
固定長 F0 系列
離散コサイン変換
(DCT)
F0情報
単語の文字数に関係なくDCT
の固定次数成分を
F0情報として利用
↓
利用するF0情報の過不足
4/14日本音響学会 2018年春季研究発表会
提案法:日本語韻律構造を考慮した
prosody-aware subword embedding
アクセント句境界を考慮した subword 分割
+
Subword 内モーラ数を考慮した変調フィルタリング
• Subword 分割 [Senrich et al., 2016][Kudo, 2017]
- 言語モデル尤度に基づいて,低頻出語を部分文字列に分解する手法
- 未知語に対しても,既知 subword への分割により韻律コンテキスト抽出可能
• 複数アクセント句にまたがる subword を生成すると,embedding 性能が低下
→ アクセント句をまたぐ文字列を言語モデルの計算から除外して
subword 分割を学習
アクセント句境界を考慮した subword 分割
生文 本当な / のかも / しれない
Subword 本当 なの かもしれない
Subword(アクセント句
を考慮)
本当 な の かも しれない
6/14日本音響学会 2018年春季研究発表会
東京オリンピック
未知語
東京 / オリ / ン / ピ / ッ /ク
Subword
系列への分割 既知 subword
• Subword の韻律コンテキストを教師なし抽出
Prosody-aware subword embedding
Bi-directional LSTM
Bi-directional LSTM
連続F0系列
F0情報
ふ る いSubword
ふ る いテキスト
リサンプリング &
変調フィルタリング
Subword 分割
音声合成器
韻律コンテキスト
7/14日本音響学会 2018年春季研究発表会
• 変調フィルタリング:変調スペクトル [Takamichi et al., 2016] へのフィルタリング
• 日本語はモーラ等時性言語 & モーラ毎に変化する高低アクセント
→モーラ数で決まる高低以外は不要
Subword 内モーラ数を考慮した変調フィルタリング
Filtering
DFT
IDFT
Continuous F0
Target
|𝑌 𝑓 |
|𝑌′
𝑓 |
he ya
he ya
Filter 𝐶 = [𝐶 0 , … , 𝐶 𝑓 , … , 𝐶 𝑇 ]
𝐶 𝑓 =
1 (𝑓 ≤ 𝑓𝑡ℎ or 𝑓 ≥ 𝑇 − 𝑓𝑡ℎ
0 otherwise
𝑓𝑡ℎ =
0 𝑚 = 1
𝑚 + 1
2
otherwise
For 𝑚-mora subword
𝑌′(𝑓) = 𝑌 𝑓 𝐶 𝑓
変調スペクトル
各モーラ位置の高
低情報を保存
8/14日本音響学会 2018年春季研究発表会
実験的評価
10/14
実験条件
Subword embedding の
訓練データ
新聞記事読み上げコーパス(JNAS) 15,676文
JSUTコーパス [Sonobe et al., 2017] 5,390文
音響モデルの訓練データ JSUTコーパス 5,390文
テストデータ JSUTコーパス 600文
Subword 語彙数 4,000
リサンプリング後の系列長 64
Subword-F0アライメント Fast_align [Dyer et al., 2013] による subword-音素アライメント
Julius [Kawahara et al., 2000] による音素-F0アライメント
Embedding モデル 4,000 – 256 (bi-directional LSTM) – 64 (ReLU) – 256 (bi-
directional LSTM) – 64 (linear)
音響モデル Feed-Forward, 394 – 512×3 (ReLU) – 94 (linear)
入力コンテキスト 394次元(音素,音素内継続長,subword 内継続長,前後及び
当該 subword の韻律コンテキスト)
音声特徴量 連続F0,有声/無声,40次元のメルケプストラム,5帯域の平均
非周期成分,及びこれらの動的特徴量
最適化手法 Adam [Kingma et al., 2014]
日本音響学会 2018年春季研究発表会
• 評価対象
- Conventional:DCT [Ijima et al., 2017]
- Proposed:変調フィルタリング
- Proposed (acc):変調フィルタリング + アクセント句の考慮
客観評価(連続対数F0の予測精度)
変調フィルタリングによる改善
アクセント句の考慮による改善
Subword 内モーラ数及び、アクセント句境界の考慮による、
F0予測精度の改善を確認
Root mean squared error
連続対数F0は平均0,分散1に正規化
日本音響学会 2018年春季研究発表会 11/14
• 評価対象
- Conventional:DCT [Ijima et al., 2017]
- Proposed:変調フィルタリング
- Proposed (acc):変調フィルタリング + アクセント句の考慮
主観評価
(合成音声の自然性に関するプリファレンスABテスト)
有意差なし
エラーバーは95%信頼区間
改善
改善
アクセント句境界の考慮による、音質改善を確認
12/14日本音響学会 2018年春季研究発表会
13/14
• 目的:未知語・未知アクセントを含む言語の音声合成
- 辞書・規則を利用しない韻律コンテキストの自動抽出
• 提案法:日本語韻律構造を考慮したProsody-aware subword embedding
- Subword 内モーラを考慮した変調フィルタリング
- アクセント句境界を考慮した subword 分割
• 実験結果:日本共通語において提案法の有効性を確認
- 変調フィルタリング及び、アクセント句境界の考慮による、F0 予測精度の改善
- アクセント句境界の考慮による、音質改善
• 今後の予定:日本語多方言音声合成への適用(発表予定)
- 多方言音声合成に向けたモデリング
まとめ
日本音響学会 2018年春季研究発表会

More Related Content

What's hot

音声認識の基礎
音声認識の基礎音声認識の基礎
音声認識の基礎Akinori Ito
 
saito2017asj_vc
saito2017asj_vcsaito2017asj_vc
saito2017asj_vcYuki Saito
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentationYuki Saito
 
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムDNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムYuki Saito
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNAYuki Saito
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討Shinnosuke Takamichi
 
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...KoueiYamaoka
 
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)KoueiYamaoka
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumnYuki Saito
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割Shinnosuke Takamichi
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価Shinnosuke Takamichi
 
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)貴史 益子
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用NU_I_TODALAB
 
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムShinnosuke Takamichi
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査Tomoki Hayashi
 
音声の認識と合成
音声の認識と合成音声の認識と合成
音声の認識と合成Akinori Ito
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn MeetingYuki Saito
 

What's hot (20)

音声認識の基礎
音声認識の基礎音声認識の基礎
音声認識の基礎
 
saito2017asj_vc
saito2017asj_vcsaito2017asj_vc
saito2017asj_vc
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
 
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムDNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
 
Saito18sp03
Saito18sp03Saito18sp03
Saito18sp03
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
 
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumn
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
 
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
Saito19asj_s
Saito19asj_sSaito19asj_s
Saito19asj_s
 
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
 
Saito17asjA
Saito17asjASaito17asjA
Saito17asjA
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
 
音声の認識と合成
音声の認識と合成音声の認識と合成
音声の認識と合成
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn Meeting
 

Similar to 日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding

Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演Hironori Washizaki
 
seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptxseminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptxNatsumi KOBAYASHI
 
20170114 lod challenge
20170114 lod challenge20170114 lod challenge
20170114 lod challengezuhitoslide
 
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATIONTEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATIONRyoAIHARA1
 
2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by ホットリンク 公開用
2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by  ホットリンク 公開用2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by  ホットリンク 公開用
2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by ホットリンク 公開用Takeshi Sakaki
 
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係Kosuke Sugai
 
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」Hiroyuki Miyoshi
 
日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発Ken IshiKen
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展Shinnosuke Takamichi
 
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleSegmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleYusuke Matsubara
 
Using continuous lexical embeddings to improve symbolicprosody prediction in ...
Using continuous lexical embeddings to improve symbolicprosody prediction in ...Using continuous lexical embeddings to improve symbolicprosody prediction in ...
Using continuous lexical embeddings to improve symbolicprosody prediction in ...浩気 西山
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020Yuki Saito
 
Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一悠一 鈴木
 
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生Toshihiko Yamasaki
 

Similar to 日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding (18)

Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
 
seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptxseminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptx
 
Erpと自然言語処理
Erpと自然言語処理Erpと自然言語処理
Erpと自然言語処理
 
フレーズテーブルを用いた教師なし用語対訳抽出手法の比較
フレーズテーブルを用いた教師なし用語対訳抽出手法の比較フレーズテーブルを用いた教師なし用語対訳抽出手法の比較
フレーズテーブルを用いた教師なし用語対訳抽出手法の比較
 
20170114 lod challenge
20170114 lod challenge20170114 lod challenge
20170114 lod challenge
 
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATIONTEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
 
2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by ホットリンク 公開用
2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by  ホットリンク 公開用2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by  ホットリンク 公開用
2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by ホットリンク 公開用
 
形態素解析器 売ってみた
形態素解析器 売ってみた形態素解析器 売ってみた
形態素解析器 売ってみた
 
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
 
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
 
日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleSegmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principle
 
Using continuous lexical embeddings to improve symbolicprosody prediction in ...
Using continuous lexical embeddings to improve symbolicprosody prediction in ...Using continuous lexical embeddings to improve symbolicprosody prediction in ...
Using continuous lexical embeddings to improve symbolicprosody prediction in ...
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020
 
Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一
 
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
 

More from Shinnosuke Takamichi

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパスShinnosuke Takamichi
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろうShinnosuke Takamichi
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスShinnosuke Takamichi
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法Shinnosuke Takamichi
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)Shinnosuke Takamichi
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告Shinnosuke Takamichi
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...Shinnosuke Takamichi
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価Shinnosuke Takamichi
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスShinnosuke Takamichi
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザインShinnosuke Takamichi
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamformingShinnosuke Takamichi
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech CorpusShinnosuke Takamichi
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource LanguagesShinnosuke Takamichi
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価Shinnosuke Takamichi
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス Shinnosuke Takamichi
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定Shinnosuke Takamichi
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返ってShinnosuke Takamichi
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingShinnosuke Takamichi
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情Shinnosuke Takamichi
 
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)Shinnosuke Takamichi
 

More from Shinnosuke Takamichi (20)

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情
 
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
 

日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding

  • 1. 日本語音声合成のための subword 内モーラを考慮した prosody-aware subword embedding 日本音響学会 2018年春季研究発表会 2-9-3 ☆秋山貴則(東大), 高道慎之介,猿渡洋(東大院・情報理工)
  • 2. 2/14 • 目的:未知語・未知アクセントを含む言語の音声合成 - 方言音声合成に向けた,規則・辞書を利用しない韻律コンテキストの自動抽出 • 従来法:Prosody-aware word embedding [Ijima et al., 2017] - 利点:単語の韻律コンテキストを教師なしで抽出 - 欠点:未知語の韻律コンテキストは生成不可能,利用するF0情報の過不足 • 提案法:日本語韻律構造を考慮したProsody-aware subword embedding - テキストをアクセント句境界を考慮して subword 系列に分割 - Subword 内モーラ数に応じた変調フィルタリング 本発表の概要 日本音響学会 2018年春季研究発表会 日本共通語の音声合成において,有効性を確認
  • 3. • 単語からF0情報を推定する neural network の bottleneck 特徴量として 韻律コンテキストを獲得 →未知語の韻律コンテキスト抽出は困難 & 韻律情報に過不足あり 従来法:Prosody-aware word embedding [Ijima et al., 2017] Bi-directional LSTM Bi-directional LSTM 連続F0系列 F0情報 あらゆる 現実単語列 あらゆる 現実 …テキスト 単語分割 音声合成器 韻律コンテキスト F0 information F0 information 3/14日本音響学会 2018年春季研究発表会
  • 4. 従来法:F0情報の抽出 テキスト 部屋 を 出る とき に は,… リサンプリング 連続 F0 系列 固定長 F0 系列 離散コサイン変換 (DCT) F0情報 単語の文字数に関係なくDCT の固定次数成分を F0情報として利用 ↓ 利用するF0情報の過不足 4/14日本音響学会 2018年春季研究発表会
  • 5. 提案法:日本語韻律構造を考慮した prosody-aware subword embedding アクセント句境界を考慮した subword 分割 + Subword 内モーラ数を考慮した変調フィルタリング
  • 6. • Subword 分割 [Senrich et al., 2016][Kudo, 2017] - 言語モデル尤度に基づいて,低頻出語を部分文字列に分解する手法 - 未知語に対しても,既知 subword への分割により韻律コンテキスト抽出可能 • 複数アクセント句にまたがる subword を生成すると,embedding 性能が低下 → アクセント句をまたぐ文字列を言語モデルの計算から除外して subword 分割を学習 アクセント句境界を考慮した subword 分割 生文 本当な / のかも / しれない Subword 本当 なの かもしれない Subword(アクセント句 を考慮) 本当 な の かも しれない 6/14日本音響学会 2018年春季研究発表会 東京オリンピック 未知語 東京 / オリ / ン / ピ / ッ /ク Subword 系列への分割 既知 subword
  • 7. • Subword の韻律コンテキストを教師なし抽出 Prosody-aware subword embedding Bi-directional LSTM Bi-directional LSTM 連続F0系列 F0情報 ふ る いSubword ふ る いテキスト リサンプリング & 変調フィルタリング Subword 分割 音声合成器 韻律コンテキスト 7/14日本音響学会 2018年春季研究発表会
  • 8. • 変調フィルタリング:変調スペクトル [Takamichi et al., 2016] へのフィルタリング • 日本語はモーラ等時性言語 & モーラ毎に変化する高低アクセント →モーラ数で決まる高低以外は不要 Subword 内モーラ数を考慮した変調フィルタリング Filtering DFT IDFT Continuous F0 Target |𝑌 𝑓 | |𝑌′ 𝑓 | he ya he ya Filter 𝐶 = [𝐶 0 , … , 𝐶 𝑓 , … , 𝐶 𝑇 ] 𝐶 𝑓 = 1 (𝑓 ≤ 𝑓𝑡ℎ or 𝑓 ≥ 𝑇 − 𝑓𝑡ℎ 0 otherwise 𝑓𝑡ℎ = 0 𝑚 = 1 𝑚 + 1 2 otherwise For 𝑚-mora subword 𝑌′(𝑓) = 𝑌 𝑓 𝐶 𝑓 変調スペクトル 各モーラ位置の高 低情報を保存 8/14日本音響学会 2018年春季研究発表会
  • 10. 10/14 実験条件 Subword embedding の 訓練データ 新聞記事読み上げコーパス(JNAS) 15,676文 JSUTコーパス [Sonobe et al., 2017] 5,390文 音響モデルの訓練データ JSUTコーパス 5,390文 テストデータ JSUTコーパス 600文 Subword 語彙数 4,000 リサンプリング後の系列長 64 Subword-F0アライメント Fast_align [Dyer et al., 2013] による subword-音素アライメント Julius [Kawahara et al., 2000] による音素-F0アライメント Embedding モデル 4,000 – 256 (bi-directional LSTM) – 64 (ReLU) – 256 (bi- directional LSTM) – 64 (linear) 音響モデル Feed-Forward, 394 – 512×3 (ReLU) – 94 (linear) 入力コンテキスト 394次元(音素,音素内継続長,subword 内継続長,前後及び 当該 subword の韻律コンテキスト) 音声特徴量 連続F0,有声/無声,40次元のメルケプストラム,5帯域の平均 非周期成分,及びこれらの動的特徴量 最適化手法 Adam [Kingma et al., 2014] 日本音響学会 2018年春季研究発表会
  • 11. • 評価対象 - Conventional:DCT [Ijima et al., 2017] - Proposed:変調フィルタリング - Proposed (acc):変調フィルタリング + アクセント句の考慮 客観評価(連続対数F0の予測精度) 変調フィルタリングによる改善 アクセント句の考慮による改善 Subword 内モーラ数及び、アクセント句境界の考慮による、 F0予測精度の改善を確認 Root mean squared error 連続対数F0は平均0,分散1に正規化 日本音響学会 2018年春季研究発表会 11/14
  • 12. • 評価対象 - Conventional:DCT [Ijima et al., 2017] - Proposed:変調フィルタリング - Proposed (acc):変調フィルタリング + アクセント句の考慮 主観評価 (合成音声の自然性に関するプリファレンスABテスト) 有意差なし エラーバーは95%信頼区間 改善 改善 アクセント句境界の考慮による、音質改善を確認 12/14日本音響学会 2018年春季研究発表会
  • 13. 13/14 • 目的:未知語・未知アクセントを含む言語の音声合成 - 辞書・規則を利用しない韻律コンテキストの自動抽出 • 提案法:日本語韻律構造を考慮したProsody-aware subword embedding - Subword 内モーラを考慮した変調フィルタリング - アクセント句境界を考慮した subword 分割 • 実験結果:日本共通語において提案法の有効性を確認 - 変調フィルタリング及び、アクセント句境界の考慮による、F0 予測精度の改善 - アクセント句境界の考慮による、音質改善 • 今後の予定:日本語多方言音声合成への適用(発表予定) - 多方言音声合成に向けたモデリング まとめ 日本音響学会 2018年春季研究発表会