Submit Search
Upload
広帯域DNN音声合成のための スペクトル包絡のGMM近似
•
1 like
•
883 views
Shinnosuke Takamichi
Follow
2020年日本音響学会 春季研究発表会 1-2-6
Read less
Read more
Technology
Report
Share
Report
Share
1 of 19
Download now
Download to read offline
Recommended
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
Recommended
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
Shinnosuke Takamichi
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
Shinnosuke Takamichi
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
Shinnosuke Takamichi
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
Shinnosuke Takamichi
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
Shinnosuke Takamichi
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
Shinnosuke Takamichi
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
Shinnosuke Takamichi
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
Shinnosuke Takamichi
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Shinnosuke Takamichi
統計的ボイチェン研究事情
統計的ボイチェン研究事情
Shinnosuke Takamichi
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
Shinnosuke Takamichi
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
Shinnosuke Takamichi
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
Shinnosuke Takamichi
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
Shinnosuke Takamichi
外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正
Shinnosuke Takamichi
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Toru Tamaki
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Hiroki Ichikura
More Related Content
More from Shinnosuke Takamichi
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
Shinnosuke Takamichi
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
Shinnosuke Takamichi
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
Shinnosuke Takamichi
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
Shinnosuke Takamichi
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
Shinnosuke Takamichi
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
Shinnosuke Takamichi
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
Shinnosuke Takamichi
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
Shinnosuke Takamichi
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Shinnosuke Takamichi
統計的ボイチェン研究事情
統計的ボイチェン研究事情
Shinnosuke Takamichi
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
Shinnosuke Takamichi
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
Shinnosuke Takamichi
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
Shinnosuke Takamichi
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
Shinnosuke Takamichi
外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正
Shinnosuke Takamichi
More from Shinnosuke Takamichi
(20)
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
統計的ボイチェン研究事情
統計的ボイチェン研究事情
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正
Recently uploaded
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Toru Tamaki
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Hiroki Ichikura
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Yuma Ohgami
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
sugiuralab
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
taisei2219
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
Ryo Sasaki
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
Toru Tamaki
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
Toru Tamaki
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
iPride Co., Ltd.
Recently uploaded
(9)
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
広帯域DNN音声合成のための スペクトル包絡のGMM近似
1.
広帯域DNN音声合成のための スペクトル包絡のGMM近似 小口 純矢, 高道
慎之介, 猿渡 洋(東大・情報理工) 嵯峨山 茂樹(電通大・情報理工) 2020年日本音響学会 春季研究発表会 1-2-6 GMM approximation of spectrum envelopes for wide-band DNN-based speech synthesis
2.
/20 背景:スペクトルのGMM近似 2 𝐺(𝜔) = 𝑘=1 𝑛 𝑤
𝑘 2𝜋𝜎 𝑘 exp − 𝜔 − 𝜇 𝑘 2 2𝜎 𝑘 2 ➢ ― ガウス分布はスペクトルの共振構造を表現 ・平均 𝜇 :周波数 ・分散 𝜎2 :鋭さ ・重み 𝑤:振幅(パワー) 観測スペクトル包絡 GMM 近似包絡 𝐺(𝜔) 𝜎4 𝜎3 𝜎2 𝜎1 𝜇4𝜇3𝜇2𝜇1 𝑤4 𝑤3 𝑤2 𝑤1 周波数 振幅 ― GMM を音声特徴量に用いた統計的音声合成 [北条+ 2012] ・狭帯域音声が対象(16 kHz) ・GMM の統計的音声合成における優れた性質(後述) [Zolfaghari+ 1996]
3.
/20 発表概要 ➢ 目的:GMM パラメータを
広帯域のDNN音声合成へ – 従来の分析手法は広帯域音声に対して適切か? – DNN 音声合成へそのまま適用できるか? ➢ 広帯域音声分析 と DNNテキスト音声合成 の手法を提案 – 提案法①:反復推定アルゴリズムにおけるパラメータ初期化法 • ピークピッキングに基づくパラメータ初期化 • 従来の初期化法と比較して合成音声の自然性が向上 – 提案法②:GMM パラメータを用いた DNN 音響モデルの学習法 • GMMパラメータ同士の MSE + GMM 近似包絡-観測包絡間の IS div. – パラメータ推定精度のばらつきを吸収 – 提案法③:分散パラメータ補正に基づくフォルマント強調法 • ポストフィルタ処理により合成音声の自然性が向上 3 GMM: Gaussian Mixture Model(混合ガウスモデル) DNN: Deep Neural Network(深層ニューラルネットワーク) MSE: Mean Squared Error(平均二乗誤差) IS div:Itakura-Saito divergence(板倉斎藤擬距離) テ キ ス ト 音 声 合 成 音 声 分 析
4.
GMMパラメータを用いた 音声分析合成系
5.
/20 GMM パラメータによる音声分析合成 5 ➢ 分析時:ボコーダ分析より得られたスペクトル包絡をGMM近似 ➢
合成時:GMM近似包絡からスペクトル包絡に戻して合成 非周期性指標 GMM パラメータ ボコーダ 分析 ボコーダ 合成 GMM 近似 混合 基本周波数 音声波形 スペクトル包絡 [Zolfaghari+ 1996]
6.
/20 GMM を用いる利点 6 1. 統計学習の平均化による
over-smoothing を低減できる – GMM は周波数方向に平均化される 𝜇2A + 𝜇2𝐵 2 𝜇1A + 𝜇1𝐵 2 𝑤2A + 𝑤2𝐵 2 𝑤1A + 𝑤1𝐵 2 𝜇2B𝜇1𝐵 𝑤2B 𝑤1𝐴 𝜇2𝐴𝜇1A 𝑤2𝐴 𝑤1A 周波数 振幅 2. スペクトルの共振成分を独立に制御できる – 局所的な構造の加工が容易 • 例. スペクトルモーフィングによる声質変換 [Nguyen+ 2006] 平均化されても ピークとディップが保存される [北条+ 2012]
7.
/20 GMMパラメータ推定法 7 𝐺(𝜔) = 𝑘=1 𝑛 𝑤
𝑘 2𝜋𝜎 𝑘 exp − 𝜔 − 𝜇 𝑘 2 2𝜎 𝑘 2 ➢ ガウス分布はスペクトルの共振構造を表現 平均 𝜇 :周波数 分散 𝜎2 :鋭さ 重み 𝑤:振幅(パワー) 𝐻: 観測スペクトル包絡 𝐺(𝜔): GMM近似包絡 𝜎4 𝜎3 𝜎2 𝜎1 𝜇4𝜇3𝜇2𝜇1 𝑤4 𝑤3 𝑤2 𝑤1 周波数 振幅 I -ダイバージェンス + 𝜇 𝑘 の時間遷移モデル の最小化に基づき反復推定 – 反復アルゴリズムの初期値には自由度が存在 – 𝜇 の初期値は推定結果に大きく影響 [Zolfaghari+ 1996] [北条+ 2012]
8.
広帯域音声のための パラメータ初期化法
9.
/20 従来法:LSP分析に基づく初期化と問題点 反復アルゴリズムの初期値の任意性 – 平均パラメータ 𝜇
の初期値は推定精度に大きく影響 – 従来法:混合数×2 次の線スペクトル対 [Itakura+ ] の平均 9 周波数 振幅 𝜇4𝜇3𝜇2𝜇1 正規分布が低域に集中して適合 Log-amplitude Frequency [Hz]
10.
/20 提案法:ピークピッキングに基づく初期化 包絡のピーク周波数を平均パラメータ初期値に – 包絡のピークを直接 – LSP
初期値よりも全体域に満遍なく適合する傾向 10 周波数 振幅 Log-amplitude Frequency [Hz] 高域にも偏りなく適合
11.
GMMパラメータを用いた DNN音声合成系
12.
/20 GMMパラメータを考慮した DNN 学習 12 混合 DNN GMM近似 コンテキスト MSE 板倉-斎藤 擬距離 𝜇1
𝜎1𝑤1 𝜇2 𝜎2𝑤2 𝜇1 𝜎1𝑤1 𝜇2 𝜎2𝑤2 観測GMMパラメータ 𝑌 近似スペクトル包絡 𝐺 観測スペクトル包絡 𝐻 推論GMMパラメータ 𝑌 ℒMSE 𝑌, 𝑌 + 𝛼ℒIS(𝐻, 𝐺) スペクトル間誤差を考慮し 構造を保存するよう誘導 パラメータ同士の平均化により スペクトルが過剰に平滑化
13.
/20 GMMの分散パラメータ補正に基づく フォルマント強調 14 ➢ ポストフィルタ処理で合成音声の品質を改善できないか? – 例.
ケプストラムにおけるフォルマント強調 [Yoshimura+ 2004] ➢ 提案法:分散パラメータ補正に基づくポストフィルタ – 分散パラメータ:共振の鋭さ – 1 以下の値で定数倍することでフォルマント強調 周波数 振幅 周波数 振幅 スペクトルの山谷を強調 分散パラメータ 定数倍
14.
実験的評価 分析合成音声とDNN合成音声
15.
/20 実験条件(分析合成音声の評価) 16 音声データ JVS コーパス [Takamichi+
2019] 話者:男女 1 名ずつ無作為に選出 読み上げ文:PARALLEL100 から無作為に選んだ 2 文 分析・合成 WORLD(d4c edition) [Morise+ 2016] サンプリング周波数 16 kHz(フレーム長 1024 サンプル) 24 kHz(フレーム長 2048 サンプル) フレームシフト 5 ms GMM 混合数 30 ➢ 提案法(GMM-PEAK)の 自然性をABプリファレンステストで評価 – 比較対象 • GMM-LSP :LSP初期値(GMM-LSP) • MCEP60 :60次元メルケプストラム • MCEP40 :40次元メルケプストラム
16.
/20 分析合成音声のプリファンレンススコア 17 16 kHz 提案手法 スコア
比較手法 GMM-PEAK 0.505 vs. 0.495 GMM-LSP GMM-PEAK 0.454 vs. 0.556 MCEP40 GMM-PEAK 0.455 vs. 0.545 MCEP60 従来法(GMM-LSP)と比較して 広帯域音声に対して自然性を有意に改善 24 kHz 提案手法 スコア 比較手法 GMM-PEAK 0.570 vs. 0.430 GMM-LSP GMM-PEAK 0.520 vs. 0.480 MCEP40 GMM-PEAK 0.470 vs. 0.530 MCEP60 ※太字のスコアは p 値が0.05以下の場合
17.
/20 実験条件(DNN音声合成) 18 音声データ JSUT コーパス [Sonobe+
2017] BASIC5000 から 4500 文(訓練), 500 文(検証) VOICEACTRESS100 から 100 文(テスト) 入力コンテキスト 535 次元 音声特徴量 30混合GMM, 対数Fo, 非周期性指標, 有/無声, Δ, ΔΔ サンプリング周波数 48 kHz(2048 サンプル, フレームシフト 5 ms) DNN Feed-forward 型 IS div. 重み 𝛼 1000 分散補正ポスト フィルタ係数 0.75 ➢ 合成音声の自然性をABプリファレンステストで評価 – MSE :MSE 最小化学習 – MSE+IS :MSE + IS div. 最小化学習 – MSE+IS+PF :MSE + IS.div 最小化学習 + 分散補正ポストフィルタ
18.
/20 分析合成音声の主観評価結果 19 分散パラメータ補正に基づくポストフィルタ処理は 合成音声の自然性を有意に改善 スペクトル間誤差を考慮することで自然性が有意に改善 スペクトル間誤差の有無による比較 ポストフィルタ処理の有無による比較 手法 スコア 比較手法 MSE+IS
0.822 vs. 0.178 MSE 提案手法 スコア 比較手法 MSE+IS+PF 0.720 vs. 0.280 MSE+IS ※太字のスコアは p 値が0.05以下の場合
19.
/20 まとめ ➢ 目的:GMM パラメータを
広帯域 の DNN音声合成 へ ➢ 広帯域音声分析 と DNNテキスト音声合成 の手法を提案 – 提案法①:反復推定アルゴリズムにおけるパラメータ初期化法 • 評価結果:広帯域音声の初期値としてピークピッキングが有効 – 提案法②:GMMパラメータを用いたDNN 音響モデルの学習法 • パラメータ間誤差だけでなくスペクトル間誤差の導入により品質改善 – 提案法③:分散パラメータ補正に基づくフォルマント強調法 • 評価結果:ポストフィルタ処理の導入により品質改善 ➢ 今後の展望 – パラメータ推定精度向上 – 計算速度の向上 20 テ キ ス ト 音 声 合 成 音 声 分 析
Download now