SlideShare a Scribd company logo
1 of 36
音声生成過程を考慮した
WaveNetに基づく音声波形合成法
玉森 聡,林 知樹,戸田 智基,武田 一哉
名古屋大学
研究目標
高品質かつ多様な音声波形合成技術の実現
• 音声による機械との情報伝達
• 音声は最も基本的なコミュニケーションツールの一つ
• 音声対話・音声翻訳,家電,ゲーム など
• 様々な要望
• いつでもどこでも聞き取りやすい音声
• より自然で肉声感のある音声
• 話速や声質を柔軟に制御したい など
代表的な音声波形合成技術
波形接続方式
(ノンパラメトリック)
分析合成方式
(パラメトリック)
概要 :
音声波形の素片を接続して
音声を合成
概要:
音響特徴量(パラメタ)から
音声を合成
利点:
高品質(明瞭性の高さなど)
欠点:
音質が劣化(ボコーダ音)
欠点:
声質制御の柔軟性が低い
(話速や声色) など
利点:
声質制御の柔軟性が高い
など
両方式の良いとこ取りは実現できないか?
深層学習に基づく音声波形合成
• 音声合成分野にも深層学習が進出
例:Feed-Forward [Zen et al., ‘13] , LSTM-RNN [Zen et al., ‘15]
• WaveNet [van den Oord et al., ‘16]
• ニューラルネットワーク自身が音声波形を直接生成
⇒波形接続方式をも上回る高品質な音声
• 波形合成をサポートする補助特徴量が利用可能
WaveNetのポテンシャルに注目
本研究の概要
• 音響特徴量をWaveNetの補助特徴量として利用
従来の波形接続・分析合成方式の利点を併せ持つ
• 音響特徴量の利用 ⇒ 声質制御の柔軟性を期待
• 既存の分析合成器を介さない ⇒ 高品質な音声を期待
• 客観評価実験
メルケプストラムボコーダと比較して歪み改善
WaveNet
合成音声
音響特徴量
目次
• 研究背景
• 音声の生成過程とソースフィルタモデル
• WaveNet
• 提案法
• 実験
• まとめ
音声の生成過程
肺からの空気
音声
「こんにちは」
テキスト(概念)
「こんにちは」
口やのどの形
声の高さ・大きさ
発声器官を制御
音声の生成過程を模擬
(ディジタルフィルタ)
合成音声
制御パラメータ化して表現
ソースフィルタモデル[Fant, ‘60]
)(nh
)(ne
)(*)()( nenhnx 
励起信号
パルス列(有声)
白色雑音(無声)
音声
音源の特徴
(声の高さ・大きさ)
声道の特徴
(口やのどの形)
基本周波数
非周期成分付与
有声・無声情報
窓かけ
overlap/shift
ケプストラム係数など
+
線形時不変システム
• 音声の生成過程を音源生成と声道共振(フィルタ)に分離
• 窓かけした音声を分析して音響特徴量を抽出
基本周波数(音源),ケプストラム係数(声道)など
• 音声波形合成系はボコーダ(Vocoder)とも呼ばれる
音質の限界を与える要因
)(nh
)(ne
)(*)()( nenhnx 
励起信号
パルス列(有声)
白色雑音(無声)
音声
音源の特徴
(声の高さ・大きさ)
声道の特徴
(口やのどの形)
基本周波数
非周期成分付与
有声・無声情報
窓かけ
overlap/shift
ケプストラム係数など
+
線形時不変システム
• 励起信号のモデル化 ⇒ 位相情報の損失
• フィルタのモデル化 ⇒ 数学的仮定の導入(ガウス性など)
• Frame-by-Frameな処理 ⇒ 固定窓長&窓内の線形性
複数要因が組み合わさり音質が劣化
目次
• 研究背景
• 音声の生成過程とソースフィルタモデル
• WaveNet
• 提案法
• 実験
• まとめ
WaveNet [van den Oord et.al, ’16]
音声の自己回帰型の生成モデル
重要な構成要素
• Causal dilated convolution
⇒非常に長期に渡る依存関係をモデル化
• ゲート付き活性化関数, residual, skip-connection
⇒強力な非線形性
• 出力層にsoftmax
⇒回帰問題(連続値)ではなくクラス分類問題(離散値)
:音声波形データ
畳み込みニューラルネットワークでモデル化
:モデルパラメータ
Causal Dilated Convolution
• Causal : 過去の波形サンプルのみを参照して畳み込み
• 層を重ねるごとにdilation(穴あき)を指数的に増やす
⇒長期の相関を効率よく取り込む
入力
隠れ層1
dilation=1
隠れ層2
dilation=2
隠れ層3
dilation=4
出力
dilation=8
アーキテクチャの全体図
sigm
Dilated
Conv.
1×1
Conv.
tanh tanh sigm
Dilated
Conv.
1×1
Conv.
tanh sigm
Dilated
Conv.
1×1
Conv.
Causal
Conv.
ReLU
Skip-connections
Residual Residual
1×1
Conv.
1×1
Conv.
ReLU
Input
Output
● ● ●
Softmax
Residual
ブロック
Residual
ブロック
Residual
ブロック
アーキテクチャの全体図
Dilated
Conv.
1×1
Conv.
tanh sigm
Dilated
Conv.
1×1
Conv.
tanh sigm
Dilated
Conv.
1×1
Conv.
Causal
Conv.
ReLU
Skip-connections
Residual Residual
1×1
Conv.
1×1
Conv.
ReLU
Input
Output
● ● ●
Softmax
Residual
ブロック
Residual
ブロックGated activation
Causal Dilated Conv.
ゲート付き活性化関数
Residual
Skip-connection
Softmax
• 問題点:振幅値の直接予測はクラス数が過多
例:量子化が16bitならば65,536個の値を取りうる
• 解決策:振幅値の符号化
取りうる値を大幅に削減(16bitから8bit)
• Softmax分布を出力層に設置
• 符号化された波形サンプル値が予測対象
• 予測で得られた値は復号化して振幅値に戻す
WaveNetの学習と合成
• 学習
• 入力側と出力側それぞれに符号化済サンプル列を用意
• クロスエントロピー最小化基準による最適化
• 合成
• 入力側は過去にWaveNet自身が生成したサンプル列
• Softmax分布からのランダムサンプリングを繰り返す
⇒自己回帰過程からのサンプリング
条件付きWaveNet
• 補助特徴量系列 を導入してモデルを条件づける
• 先行研究では言語情報や基本周波数が補助特徴量
⇒ 言語情報と音声波形の間の対応関係を学習
⇒ テキスト音声合成タスクに適用
目次
• 研究背景
• 音声の生成過程とソースフィルタモデル
• WaveNet
• 提案法
• 実験
• まとめ
条件付きWaveNetと提案法との関係
• 補助特徴量系列 によるモデルの条件づけは同じ
• 提案法は既存のボコーダの音響特徴量が補助特徴量
補助特徴量系列と音声波形系列で時間解像度が不一致
⇒補助特徴量の時間拡張( → )により対応
⇒各時刻の補助特徴量を予測分布に埋め込む
音響特徴量の抽出
音声
…… …
分析窓長
フレームシフト
音声分析
特徴量系列長は音声波形長よりも短い
音響
特徴量
音響特徴量の時間拡張
音響特徴量をフレームシフト幅だけ時間方向に複製
⇒音声と時間的解像度を合わせる
第1フレーム 第2フレーム 第3フレーム 第4フレーム
音声サンプル点
系列
オリジナルの
補助特徴量
系列
コピー
…
…
時間拡張した
補助特徴量
系列 …
補助特徴量の埋め込み
Residual Blockの追加入力として実現
Residual
Block #3
Residual
Block #4
Residual
Block #2
Residual
Block #1
Residual
Block #1
補助特徴量
隠れ層1
dilation=1
隠れ層2
dilation=2
隠れ層3
dilation=4
出力
dilation=8
提案法の特徴
ボコーダの音響特徴量と音声波形の対応関係を学習
• 励起信号のモデル化は不要
⇒位相情報の損失の軽減,音質劣化を抑える
• 複雑な数学的モデルや仮定は不要
⇒対応関係をデータドリブンで自動構築
• Sample-by-Sampleかつ非線形な対応関係
⇒従来はFrame-by-Frameかつ線形な関係
既存のボコーダの代替を期待
目次
• 研究背景
• 音声の生成過程とソースフィルタモデル
• WaveNet
• 提案法
• 実験
• まとめ
実験による性能評価
• 合成音声と元音声の間の歪みによる客観評価
• 実験条件
CMU-ARCTIC データベース
女性話者 SLT
学習データ 1082 文章
評価データ 50 文章
サンプリング周波数 16 kHz
フレーム周期 5 ms
フレーム長 25 ms
窓関数 ハミング窓
0 次〜24 次メルケプストラム
基本周波数
データベース
音響特徴量
ネットワークの学習条件
• 最適化アルゴリズムはAdamを利用; 学習率は手動で調整
• Dilationは1, 2, .... , 512を
3回繰り返す
⇒30層
Dilated
Conv.
1×1
Conv.
tanh sigm
Dilated
Conv.
1×1
Conv.
tanh sigm
Dilated
Conv.
1×1
Conv.
Causal
Conv.
ReLU
Skip-connections
Residual Residual
1×1
Conv.
1×1
Conv.
ReLU
Input
Output
● ● ●
Softmax
Residual
ブロック
Residual
ブロックGated activation
256ch
256ch
30ブロック = Causal dilated convolution 30層
2048ch 2048ch
256ch
2048ch
歪み評価の指標
• フレーム平均SNR(セグメンタルSNR)
⇒時間領域の歪みを評価
• フレーム平均SDR
⇒振幅スペクトルの歪みを評価
: フレーム総数 : フレーム長 : 評価用音声 : 合成音声
: 周波数ビンの総数 : 合成音声の
スペクトログラム
: 評価用音声の
スペクトログラム
補助特徴量の違いが歪みに与える影響
補助特徴量のパターン 説明
Nothing 補助特徴量なし
Mcep メルケプストラムのみ
Mcep + F0 メルケプストラム
基本周波数
• 補助特徴量を変えてWaveNetを学習
※メルケプストラムは短時間FFTスペクトルから抽出
実験結果(補助特徴量の違い)
• 縦軸の単位はdB; ノッチは有意水準5%の信頼区間を表す
SNR SDR
McepNothing Mcep+F0Raw
(くぼみ)
実験結果(補助特徴量の違い)
• 基本周波数の軌跡(合成音声を分析して抽出)
Mcepは評価用音声(Test)の軌跡から大きく逸脱
メルケプストラムのみでも致命的な破綻はない
抽出誤り
メルケプストラムボコーダとの歪み比較
比較手法 メルケプストラムの抽出元 波形合成法
Plain-MLSA 短時間FFTスペクトル MLSA フィルタ
STRAIGHT-
MLSA
STRAIGHT分析※1による
スペクトル包絡
MLSA フィルタ
※2
Plain-
WaveNet
短時間FFTスペクトル WaveNet
STRAIGHT-
WaveNet
STRAIGHT分析による
スペクトル包絡
WaveNet
※1 高品質ボコーダSTRAIGHTで行われる音声分析の通称
※2 MLSAフィルタ:メルケプストラムボコーダの合成フィルタ
実験結果(SNR)
提案法の有効性を確認
SNRの改善
STRAIGHT-
WaveNet
実験結果(SNR)
メルケプストラムボコーダからの
有意な歪み改善
STRAIGHT-
WaveNet
実験結果(SNR)
高品質なメルケプストラムが
波形生成に有効に働く
STRAIGHT-
WaveNet
Raw
実験結果(SDR)
STRAIGHT-MLSAと同等の歪みを達成
STRAIGHT-
WaveNet
まとめ
音声の生成過程を考慮したWaveNetに基づく音声波形合成
• 既存のボコーダの音響特徴量を補助特徴量に利用
• 客観評価実験
• メルケプストラムボコーダが対象
• SNRについて有意な歪み改善,SDRはSTRAIGHTと同程度
今後の課題
• 主観評価実験
• 音響特徴量の変化に対する補完・頑健性の調査
• 既存の各種ボコーダの音響特徴量を適用
• データの規模を増減させて有効性を検証
時間領域の歪みを改善した高品質な音声波形の生成

More Related Content

What's hot

音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言Shinnosuke Takamichi
 
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...Deep Learning JP
 
Transformerを用いたAutoEncoderの設計と実験
Transformerを用いたAutoEncoderの設計と実験Transformerを用いたAutoEncoderの設計と実験
Transformerを用いたAutoEncoderの設計と実験myxymyxomatosis
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentationYuki Saito
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術NU_I_TODALAB
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向Yuma Koizumi
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理Yuma Koizumi
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識NU_I_TODALAB
 
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例NU_I_TODALAB
 
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”Shinnosuke Takamichi
 
深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討Kitamura Laboratory
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響NU_I_TODALAB
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法Daichi Kitamura
 
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...Daichi Kitamura
 
信号検出理論 (『実践ベイズモデリング』15章)
信号検出理論 (『実践ベイズモデリング』15章)信号検出理論 (『実践ベイズモデリング』15章)
信号検出理論 (『実践ベイズモデリング』15章)Takashi Yamane
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamformingShinnosuke Takamichi
 
人間の意思決定を機械学習でモデル化できるか
人間の意思決定を機械学習でモデル化できるか人間の意思決定を機械学習でモデル化できるか
人間の意思決定を機械学習でモデル化できるか西岡 賢一郎
 
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測Kitamura Laboratory
 
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?NU_I_TODALAB
 
z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)Shinnosuke Takamichi
 

What's hot (20)

音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
 
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
 
Transformerを用いたAutoEncoderの設計と実験
Transformerを用いたAutoEncoderの設計と実験Transformerを用いたAutoEncoderの設計と実験
Transformerを用いたAutoEncoderの設計と実験
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識
 
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
 
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
 
深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
 
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
 
信号検出理論 (『実践ベイズモデリング』15章)
信号検出理論 (『実践ベイズモデリング』15章)信号検出理論 (『実践ベイズモデリング』15章)
信号検出理論 (『実践ベイズモデリング』15章)
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
人間の意思決定を機械学習でモデル化できるか
人間の意思決定を機械学習でモデル化できるか人間の意思決定を機械学習でモデル化できるか
人間の意思決定を機械学習でモデル化できるか
 
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
 
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?
 
z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)
 

Viewers also liked

懇親会の余興スライド
懇親会の余興スライド懇親会の余興スライド
懇親会の余興スライドAkira Tamamori
 
サポートベクトルマシンを用いた自動人相判別の検討 : A study on automatic physiognomy classification wi...
サポートベクトルマシンを用いた自動人相判別の検討 : A study on automatic physiognomy classification wi...サポートベクトルマシンを用いた自動人相判別の検討 : A study on automatic physiognomy classification wi...
サポートベクトルマシンを用いた自動人相判別の検討 : A study on automatic physiognomy classification wi...Akira Tamamori
 
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)Hiroki Nakahara
 
フォントの選び方・使い方
フォントの選び方・使い方フォントの選び方・使い方
フォントの選び方・使い方k maztani
 
介護Agent提案書 v20214
介護Agent提案書 v20214介護Agent提案書 v20214
介護Agent提案書 v20214nakajima19931201
 
An Analysis of Convolution for Inference
An Analysis of Convolution for InferenceAn Analysis of Convolution for Inference
An Analysis of Convolution for InferenceIntel Nervana
 
ELMS:LN - Dreaming the NGDLE into reality
ELMS:LN - Dreaming the NGDLE into realityELMS:LN - Dreaming the NGDLE into reality
ELMS:LN - Dreaming the NGDLE into realityBryan Ollendyke
 
NTU@TPE intro 2017Spring
NTU@TPE intro 2017SpringNTU@TPE intro 2017Spring
NTU@TPE intro 2017SpringShuwei Huang
 
TETRIS AI WITH REINFORCEMENT LEARNING
TETRIS AI WITH REINFORCEMENT LEARNINGTETRIS AI WITH REINFORCEMENT LEARNING
TETRIS AI WITH REINFORCEMENT LEARNINGJungkyu Lee
 
Tarikh al Hawadits wa al Ahwal an Nabawiyyah (تاريخ الحوادث والأحوال النبوية)
Tarikh al Hawadits wa al Ahwal an Nabawiyyah (تاريخ الحوادث والأحوال النبوية)Tarikh al Hawadits wa al Ahwal an Nabawiyyah (تاريخ الحوادث والأحوال النبوية)
Tarikh al Hawadits wa al Ahwal an Nabawiyyah (تاريخ الحوادث والأحوال النبوية)Nur Agustin Mufarokhah
 
Regret Minimization in Multi-objective Submodular Function Maximization
Regret Minimization in Multi-objective Submodular Function MaximizationRegret Minimization in Multi-objective Submodular Function Maximization
Regret Minimization in Multi-objective Submodular Function MaximizationTasuku Soma
 
Pythonで実現する4コマ漫画の分析・評論
Pythonで実現する4コマ漫画の分析・評論Pythonで実現する4コマ漫画の分析・評論
Pythonで実現する4コマ漫画の分析・評論esu ji
 
Standard Assessment Procedure - ATSPACE LTD
Standard Assessment Procedure - ATSPACE LTDStandard Assessment Procedure - ATSPACE LTD
Standard Assessment Procedure - ATSPACE LTDatspaceltd
 
GRU-Prednetを実装してみた(途中経過)
GRU-Prednetを実装してみた(途中経過)GRU-Prednetを実装してみた(途中経過)
GRU-Prednetを実装してみた(途中経過)Taichi Iki
 
Chainerを使ったらカノジョができたお話
Chainerを使ったらカノジョができたお話Chainerを使ったらカノジョができたお話
Chainerを使ったらカノジョができたお話Hiroki Yamamoto
 
My Future Teaching
My Future TeachingMy Future Teaching
My Future TeachingJIA JIA LIOU
 
Pred net使ってみた
Pred net使ってみたPred net使ってみた
Pred net使ってみたkoji ochiai
 

Viewers also liked (19)

懇親会の余興スライド
懇親会の余興スライド懇親会の余興スライド
懇親会の余興スライド
 
サポートベクトルマシンを用いた自動人相判別の検討 : A study on automatic physiognomy classification wi...
サポートベクトルマシンを用いた自動人相判別の検討 : A study on automatic physiognomy classification wi...サポートベクトルマシンを用いた自動人相判別の検討 : A study on automatic physiognomy classification wi...
サポートベクトルマシンを用いた自動人相判別の検討 : A study on automatic physiognomy classification wi...
 
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
 
フォントの選び方・使い方
フォントの選び方・使い方フォントの選び方・使い方
フォントの選び方・使い方
 
介護Agent提案書 v20214
介護Agent提案書 v20214介護Agent提案書 v20214
介護Agent提案書 v20214
 
An Analysis of Convolution for Inference
An Analysis of Convolution for InferenceAn Analysis of Convolution for Inference
An Analysis of Convolution for Inference
 
ELMS:LN - Dreaming the NGDLE into reality
ELMS:LN - Dreaming the NGDLE into realityELMS:LN - Dreaming the NGDLE into reality
ELMS:LN - Dreaming the NGDLE into reality
 
Apatía escolar
Apatía escolarApatía escolar
Apatía escolar
 
NTU@TPE intro 2017Spring
NTU@TPE intro 2017SpringNTU@TPE intro 2017Spring
NTU@TPE intro 2017Spring
 
TETRIS AI WITH REINFORCEMENT LEARNING
TETRIS AI WITH REINFORCEMENT LEARNINGTETRIS AI WITH REINFORCEMENT LEARNING
TETRIS AI WITH REINFORCEMENT LEARNING
 
Tarikh al Hawadits wa al Ahwal an Nabawiyyah (تاريخ الحوادث والأحوال النبوية)
Tarikh al Hawadits wa al Ahwal an Nabawiyyah (تاريخ الحوادث والأحوال النبوية)Tarikh al Hawadits wa al Ahwal an Nabawiyyah (تاريخ الحوادث والأحوال النبوية)
Tarikh al Hawadits wa al Ahwal an Nabawiyyah (تاريخ الحوادث والأحوال النبوية)
 
PreadNet
PreadNetPreadNet
PreadNet
 
Regret Minimization in Multi-objective Submodular Function Maximization
Regret Minimization in Multi-objective Submodular Function MaximizationRegret Minimization in Multi-objective Submodular Function Maximization
Regret Minimization in Multi-objective Submodular Function Maximization
 
Pythonで実現する4コマ漫画の分析・評論
Pythonで実現する4コマ漫画の分析・評論Pythonで実現する4コマ漫画の分析・評論
Pythonで実現する4コマ漫画の分析・評論
 
Standard Assessment Procedure - ATSPACE LTD
Standard Assessment Procedure - ATSPACE LTDStandard Assessment Procedure - ATSPACE LTD
Standard Assessment Procedure - ATSPACE LTD
 
GRU-Prednetを実装してみた(途中経過)
GRU-Prednetを実装してみた(途中経過)GRU-Prednetを実装してみた(途中経過)
GRU-Prednetを実装してみた(途中経過)
 
Chainerを使ったらカノジョができたお話
Chainerを使ったらカノジョができたお話Chainerを使ったらカノジョができたお話
Chainerを使ったらカノジョができたお話
 
My Future Teaching
My Future TeachingMy Future Teaching
My Future Teaching
 
Pred net使ってみた
Pred net使ってみたPred net使ってみた
Pred net使ってみた
 

Similar to A Method of Speech Waveform Synthesis based on WaveNet considering Speech Generation Process

音声を検索するための索引付け方式の紹介(初心者向け)
音声を検索するための索引付け方式の紹介(初心者向け)音声を検索するための索引付け方式の紹介(初心者向け)
音声を検索するための索引付け方式の紹介(初心者向け)utsuro_lab
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Shinnosuke Takamichi
 
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化Kitamura Laboratory
 
深層学習に基づく音響帯域拡張による音源分離処理の高速化
深層学習に基づく音響帯域拡張による音源分離処理の高速化深層学習に基づく音響帯域拡張による音源分離処理の高速化
深層学習に基づく音響帯域拡張による音源分離処理の高速化Kitamura Laboratory
 
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援Ryohei Suzuki
 
論文紹介Morphing-hui.pptx
論文紹介Morphing-hui.pptx論文紹介Morphing-hui.pptx
論文紹介Morphing-hui.pptxNatsumi KOBAYASHI
 
WaveNet: A Generative Model for Raw Audio
WaveNet: A Generative Model for Raw AudioWaveNet: A Generative Model for Raw Audio
WaveNet: A Generative Model for Raw AudioShunji Kawabata
 

Similar to A Method of Speech Waveform Synthesis based on WaveNet considering Speech Generation Process (8)

音声を検索するための索引付け方式の紹介(初心者向け)
音声を検索するための索引付け方式の紹介(初心者向け)音声を検索するための索引付け方式の紹介(初心者向け)
音声を検索するための索引付け方式の紹介(初心者向け)
 
Kameoka2016 miru08
Kameoka2016 miru08Kameoka2016 miru08
Kameoka2016 miru08
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
 
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
 
深層学習に基づく音響帯域拡張による音源分離処理の高速化
深層学習に基づく音響帯域拡張による音源分離処理の高速化深層学習に基づく音響帯域拡張による音源分離処理の高速化
深層学習に基づく音響帯域拡張による音源分離処理の高速化
 
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
 
論文紹介Morphing-hui.pptx
論文紹介Morphing-hui.pptx論文紹介Morphing-hui.pptx
論文紹介Morphing-hui.pptx
 
WaveNet: A Generative Model for Raw Audio
WaveNet: A Generative Model for Raw AudioWaveNet: A Generative Model for Raw Audio
WaveNet: A Generative Model for Raw Audio
 

A Method of Speech Waveform Synthesis based on WaveNet considering Speech Generation Process