Submit Search
Upload
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
•
1 like
•
1,106 views
Shinnosuke Takamichi
Follow
日本音響学会2018年春季研究発表会講演論文集 "日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding"
Read less
Read more
Science
Report
Share
Report
Share
1 of 13
Download now
Download to read offline
Recommended
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
Shinnosuke Takamichi
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
Shinnosuke Takamichi
miyoshi17sp07
miyoshi17sp07
Yuki Saito
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
saito2017asj_tts
saito2017asj_tts
Yuki Saito
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
Shinnosuke Takamichi
miyoshi2017asj
miyoshi2017asj
Yuki Saito
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
Recommended
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
Shinnosuke Takamichi
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
Shinnosuke Takamichi
miyoshi17sp07
miyoshi17sp07
Yuki Saito
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
saito2017asj_tts
saito2017asj_tts
Yuki Saito
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
Shinnosuke Takamichi
miyoshi2017asj
miyoshi2017asj
Yuki Saito
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
音声認識の基礎
音声認識の基礎
Akinori Ito
saito2017asj_vc
saito2017asj_vc
Yuki Saito
Nakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
Yuki Saito
Saito18sp03
Saito18sp03
Yuki Saito
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
KoueiYamaoka
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
KoueiYamaoka
Saito20asj_autumn
Saito20asj_autumn
Yuki Saito
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Shinnosuke Takamichi
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
Shinnosuke Takamichi
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
貴史 益子
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
NU_I_TODALAB
Saito19asj_s
Saito19asj_s
Yuki Saito
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
Saito17asjA
Saito17asjA
Yuki Saito
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
Tomoki Hayashi
音声の認識と合成
音声の認識と合成
Akinori Ito
Saito21asj Autumn Meeting
Saito21asj Autumn Meeting
Yuki Saito
Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Hironori Washizaki
More Related Content
What's hot
音声認識の基礎
音声認識の基礎
Akinori Ito
saito2017asj_vc
saito2017asj_vc
Yuki Saito
Nakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
Yuki Saito
Saito18sp03
Saito18sp03
Yuki Saito
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
KoueiYamaoka
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
KoueiYamaoka
Saito20asj_autumn
Saito20asj_autumn
Yuki Saito
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Shinnosuke Takamichi
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
Shinnosuke Takamichi
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
貴史 益子
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
NU_I_TODALAB
Saito19asj_s
Saito19asj_s
Yuki Saito
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
Saito17asjA
Saito17asjA
Yuki Saito
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
Tomoki Hayashi
音声の認識と合成
音声の認識と合成
Akinori Ito
Saito21asj Autumn Meeting
Saito21asj Autumn Meeting
Yuki Saito
What's hot
(20)
音声認識の基礎
音声認識の基礎
saito2017asj_vc
saito2017asj_vc
Nakai22sp03 presentation
Nakai22sp03 presentation
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
Saito18sp03
Saito18sp03
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
Saito20asj_autumn
Saito20asj_autumn
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
Saito19asj_s
Saito19asj_s
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Saito17asjA
Saito17asjA
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
音声の認識と合成
音声の認識と合成
Saito21asj Autumn Meeting
Saito21asj Autumn Meeting
Similar to 日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Hironori Washizaki
seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptx
Natsumi KOBAYASHI
Erpと自然言語処理
Erpと自然言語処理
Works Applications
フレーズテーブルを用いた教師なし用語対訳抽出手法の比較
フレーズテーブルを用いた教師なし用語対訳抽出手法の比較
長岡技術科学大学 自然言語処理研究室
20170114 lod challenge
20170114 lod challenge
zuhitoslide
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
RyoAIHARA1
2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by ホットリンク 公開用
2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by ホットリンク 公開用
Takeshi Sakaki
形態素解析器 売ってみた
形態素解析器 売ってみた
JustSystems Corporation
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
Kosuke Sugai
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
Hiroyuki Miyoshi
日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発
Ken IshiKen
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principle
Yusuke Matsubara
Using continuous lexical embeddings to improve symbolicprosody prediction in ...
Using continuous lexical embeddings to improve symbolicprosody prediction in ...
浩気 西山
ICASSP読み会2020
ICASSP読み会2020
Yuki Saito
Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一
悠一 鈴木
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
Toshihiko Yamasaki
Similar to 日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
(18)
Interspeech2022 参加報告
Interspeech2022 参加報告
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptx
Erpと自然言語処理
Erpと自然言語処理
フレーズテーブルを用いた教師なし用語対訳抽出手法の比較
フレーズテーブルを用いた教師なし用語対訳抽出手法の比較
20170114 lod challenge
20170114 lod challenge
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by ホットリンク 公開用
2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by ホットリンク 公開用
形態素解析器 売ってみた
形態素解析器 売ってみた
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principle
Using continuous lexical embeddings to improve symbolicprosody prediction in ...
Using continuous lexical embeddings to improve symbolicprosody prediction in ...
ICASSP読み会2020
ICASSP読み会2020
Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
More from Shinnosuke Takamichi
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
Shinnosuke Takamichi
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
Shinnosuke Takamichi
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
Shinnosuke Takamichi
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
Shinnosuke Takamichi
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
Shinnosuke Takamichi
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
Shinnosuke Takamichi
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
Shinnosuke Takamichi
統計的ボイチェン研究事情
統計的ボイチェン研究事情
Shinnosuke Takamichi
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
Shinnosuke Takamichi
More from Shinnosuke Takamichi
(20)
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
統計的ボイチェン研究事情
統計的ボイチェン研究事情
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
1.
日本語音声合成のための subword 内モーラを考慮した prosody-aware subword
embedding 日本音響学会 2018年春季研究発表会 2-9-3 ☆秋山貴則(東大), 高道慎之介,猿渡洋(東大院・情報理工)
2.
2/14 • 目的:未知語・未知アクセントを含む言語の音声合成 - 方言音声合成に向けた,規則・辞書を利用しない韻律コンテキストの自動抽出 •
従来法:Prosody-aware word embedding [Ijima et al., 2017] - 利点:単語の韻律コンテキストを教師なしで抽出 - 欠点:未知語の韻律コンテキストは生成不可能,利用するF0情報の過不足 • 提案法:日本語韻律構造を考慮したProsody-aware subword embedding - テキストをアクセント句境界を考慮して subword 系列に分割 - Subword 内モーラ数に応じた変調フィルタリング 本発表の概要 日本音響学会 2018年春季研究発表会 日本共通語の音声合成において,有効性を確認
3.
• 単語からF0情報を推定する neural
network の bottleneck 特徴量として 韻律コンテキストを獲得 →未知語の韻律コンテキスト抽出は困難 & 韻律情報に過不足あり 従来法:Prosody-aware word embedding [Ijima et al., 2017] Bi-directional LSTM Bi-directional LSTM 連続F0系列 F0情報 あらゆる 現実単語列 あらゆる 現実 …テキスト 単語分割 音声合成器 韻律コンテキスト F0 information F0 information 3/14日本音響学会 2018年春季研究発表会
4.
従来法:F0情報の抽出 テキスト 部屋 を 出る
とき に は,… リサンプリング 連続 F0 系列 固定長 F0 系列 離散コサイン変換 (DCT) F0情報 単語の文字数に関係なくDCT の固定次数成分を F0情報として利用 ↓ 利用するF0情報の過不足 4/14日本音響学会 2018年春季研究発表会
5.
提案法:日本語韻律構造を考慮した prosody-aware subword embedding アクセント句境界を考慮した
subword 分割 + Subword 内モーラ数を考慮した変調フィルタリング
6.
• Subword 分割
[Senrich et al., 2016][Kudo, 2017] - 言語モデル尤度に基づいて,低頻出語を部分文字列に分解する手法 - 未知語に対しても,既知 subword への分割により韻律コンテキスト抽出可能 • 複数アクセント句にまたがる subword を生成すると,embedding 性能が低下 → アクセント句をまたぐ文字列を言語モデルの計算から除外して subword 分割を学習 アクセント句境界を考慮した subword 分割 生文 本当な / のかも / しれない Subword 本当 なの かもしれない Subword(アクセント句 を考慮) 本当 な の かも しれない 6/14日本音響学会 2018年春季研究発表会 東京オリンピック 未知語 東京 / オリ / ン / ピ / ッ /ク Subword 系列への分割 既知 subword
7.
• Subword の韻律コンテキストを教師なし抽出 Prosody-aware
subword embedding Bi-directional LSTM Bi-directional LSTM 連続F0系列 F0情報 ふ る いSubword ふ る いテキスト リサンプリング & 変調フィルタリング Subword 分割 音声合成器 韻律コンテキスト 7/14日本音響学会 2018年春季研究発表会
8.
• 変調フィルタリング:変調スペクトル [Takamichi
et al., 2016] へのフィルタリング • 日本語はモーラ等時性言語 & モーラ毎に変化する高低アクセント →モーラ数で決まる高低以外は不要 Subword 内モーラ数を考慮した変調フィルタリング Filtering DFT IDFT Continuous F0 Target |𝑌 𝑓 | |𝑌′ 𝑓 | he ya he ya Filter 𝐶 = [𝐶 0 , … , 𝐶 𝑓 , … , 𝐶 𝑇 ] 𝐶 𝑓 = 1 (𝑓 ≤ 𝑓𝑡ℎ or 𝑓 ≥ 𝑇 − 𝑓𝑡ℎ 0 otherwise 𝑓𝑡ℎ = 0 𝑚 = 1 𝑚 + 1 2 otherwise For 𝑚-mora subword 𝑌′(𝑓) = 𝑌 𝑓 𝐶 𝑓 変調スペクトル 各モーラ位置の高 低情報を保存 8/14日本音響学会 2018年春季研究発表会
9.
実験的評価
10.
10/14 実験条件 Subword embedding の 訓練データ 新聞記事読み上げコーパス(JNAS)
15,676文 JSUTコーパス [Sonobe et al., 2017] 5,390文 音響モデルの訓練データ JSUTコーパス 5,390文 テストデータ JSUTコーパス 600文 Subword 語彙数 4,000 リサンプリング後の系列長 64 Subword-F0アライメント Fast_align [Dyer et al., 2013] による subword-音素アライメント Julius [Kawahara et al., 2000] による音素-F0アライメント Embedding モデル 4,000 – 256 (bi-directional LSTM) – 64 (ReLU) – 256 (bi- directional LSTM) – 64 (linear) 音響モデル Feed-Forward, 394 – 512×3 (ReLU) – 94 (linear) 入力コンテキスト 394次元(音素,音素内継続長,subword 内継続長,前後及び 当該 subword の韻律コンテキスト) 音声特徴量 連続F0,有声/無声,40次元のメルケプストラム,5帯域の平均 非周期成分,及びこれらの動的特徴量 最適化手法 Adam [Kingma et al., 2014] 日本音響学会 2018年春季研究発表会
11.
• 評価対象 - Conventional:DCT
[Ijima et al., 2017] - Proposed:変調フィルタリング - Proposed (acc):変調フィルタリング + アクセント句の考慮 客観評価(連続対数F0の予測精度) 変調フィルタリングによる改善 アクセント句の考慮による改善 Subword 内モーラ数及び、アクセント句境界の考慮による、 F0予測精度の改善を確認 Root mean squared error 連続対数F0は平均0,分散1に正規化 日本音響学会 2018年春季研究発表会 11/14
12.
• 評価対象 - Conventional:DCT
[Ijima et al., 2017] - Proposed:変調フィルタリング - Proposed (acc):変調フィルタリング + アクセント句の考慮 主観評価 (合成音声の自然性に関するプリファレンスABテスト) 有意差なし エラーバーは95%信頼区間 改善 改善 アクセント句境界の考慮による、音質改善を確認 12/14日本音響学会 2018年春季研究発表会
13.
13/14 • 目的:未知語・未知アクセントを含む言語の音声合成 - 辞書・規則を利用しない韻律コンテキストの自動抽出 •
提案法:日本語韻律構造を考慮したProsody-aware subword embedding - Subword 内モーラを考慮した変調フィルタリング - アクセント句境界を考慮した subword 分割 • 実験結果:日本共通語において提案法の有効性を確認 - 変調フィルタリング及び、アクセント句境界の考慮による、F0 予測精度の改善 - アクセント句境界の考慮による、音質改善 • 今後の予定:日本語多方言音声合成への適用(発表予定) - 多方言音声合成に向けたモデリング まとめ 日本音響学会 2018年春季研究発表会
Download now