SlideShare a Scribd company logo
1 of 25
Download to read offline
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
ICASSP2018発表参加
報告
紹介論文: FFTNet、Tacotron2
橘 健太郎
1
ICASSP2018 概要
● International Conference on Acoustic, Speech and Signal Processing (ICASSP)
○ 音声信号処理のトップカンファレンス
○ 分野は、音声や音楽の認識・生成・分離、音声対話、音声・動画像符号化など
● 会場:カナダ カルガリー
○ 当初ソウルであったが、北の政治不安の影響で、
急遽変更。
● 計数
○ 発表件数: 1406件 (採択率: 49.7%)
○ 最大8パラレルセッション、5日間開催
○ 音声合成・声質変換が中心の文献:26件
■ 8/26件がWaveNet関連、
他のセッションでも2件の発表
2
アジェンダ
● 導入
○ 音声合成概要
○ WaveNet概要
● WaveNet関連論文紹介 (10件分をざっと)
● 紹介論文 2件
1. FFTNET: A REAL-TIME SPEAKER-DEPENDENT NEURAL VOCODER
2. NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET
ON MEL SPECTROGRAM PREDICTIONS (Tacotron2)
3
導入:音声合成システム概要
4
https://www.slideshare.net/f2forest/nips2017-speech-audio-86474213
● 離散記号系列の確率分布を自己回帰モデルで、非常に高精度に表現
○ 入力xは過去のサンプルと補助特徴量に依存
● 特徴
○ 階層的なdilated convolutionで、時系列データを効率的に表現
○ 活性化関数(sigmaとtanh)で、recurrent的に時系列データを考慮
○ 音声波形を直接、cross-entropy基準で予測
導入:WaveNet [van den Oord+; ’16] 概要
5
補助特徴量(音響特徴量、言語特徴量)
図は[Rethage+; ‘18]参照
WaveNet関連研究(ICASSP2018分)
6
性能分析 ON THE ANALYSIS OF TRAINING DATA FOR WAVENET-BASED SPEECH
SYNTHESIS
学習データコーパス量と音質、コーパスの汚さと音質、との関係性を評価
A COMPARISON OF RECENT WAVEFORM GENERATION AND ACOUSTIC MODELING
METHODS FOR NEURAL-NETWORK-BASED SPEECH SYNTHESIS
近年のNNベースの音声合成手法(WaveNet含む)を比較
ON THE USE OF WAVENET AS A STATISTICAL VOCODER 異なる特徴量・学習データコーパス量でWaveNet vocoderの品質を評価
品質・
計算コスト
改善
AN INVESTIGATION OF SUBBAND WAVENET VOCODER COVERING ENTIRE
AUDIBLE FREQUENCY RANGE WITH LIMITED ACOUSTIC FEATURES
複数の帯域信号に分割し、それぞれをWaveNetによって予測。並列化可
能
AN INVESTIGATION OF NOISE SHAPING WITH PERCEPTUAL WEIGHTING FOR
WAVENET-BASED SPEECH GENERATION
橘発表分
WaveNetで発生したノイズを、人間の聴覚特性を利用し、聞こえない様に
することで、品質改善
FFTNET: A REAL-TIME SPEAKER-DEPENDENT NEURAL VOCODER 紹介論文 WaveNetの構造にFFTのanalogyを導入することで、大幅な高速化に成
功
応用 NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL
SPECTROGRAM PREDICTIONS 紹介論文
End-to-end 音声合成にWaveNetを導入。肉声とほぼ同等の水準を達成。
STATISTICAL VOICE CONVERSION BASED ON WAVENET 音声to音声、ダイレクトな声質変換をWaveNetでモデル化
WAVENET BASED LOW RATE SPEECH CODING 符号化した情報からWaveNetで音声復元
A WAVENET FOR SPEECH DENOISING WaveNet構造を使って、入力音声のノイズ低減を行う
FFTNET: A REAL-TIME SPEAKER-DEPENDENT NEURAL VOCODER
7
FFTNET: A REAL-TIME SPEAKER-DEPENDENT NEURAL VOCODER
● 貢献
○ FFTのanalogyをWaveNetのアーキテクチャに導入することで、
70倍の高速化に成功し、リアルタイム実行が可能に!
○ WaveNet自体の音質改善にも、取り組む
○ FFTNetで、オリジナルWaveNetを上回る性能を達成!
● アルゴリズム
8
● Dilated convolutionはreverse binary tree構
造と捉えられる
● この構造はwevelet分析に類似している
→ DFTの高速化アルゴリズムColey Turkey
型FFTのanalogyを適用できるのではない
か?
Dilated convolution
自分が聴講した中では、一番盛況だった
補足:Cooley-Turkey型FFTアルゴリズム
● DFT
● 奇数成分、偶数成分に分解
分解数を増やしていき、演算回数を減らす
  → N2
がN*(log2
N)回になる
9
N2
回の演算が必要
2*(N2
/4)回の演算に減少
● 処理概要と計算コスト
FFTNET: A REAL-TIME SPEAKER-DEPENDENT NEURAL VOCODER
10
● FFTアルゴリズムのように、入力を前後2分割
して、それぞれにcon1dを適用後、要素ごとに
加算、さらにconv1d
● 1layer分における1x1 conv1d適用回数
○ FFTNet: ∑^(log2
N)_(i=1) (3/2)*2i
○ WaveNet: ∑^log2
N_(i=1) (2*2+1*2)*i
■ Dilated conv.はkernel=2 conv1dと
して、2回分と換算
● N=1024の場合 i.e. i=10
○ FFTNet : (3/2)*1024 = 1536
○ WaveNet: 6*10 = 60
● 層を重ねていくと、FFTNetの方が計算量が増
加
layer1
layer2
FFTNetのネットーワク構造
● WaveNetと比べ、ネットワークを単純化
11
Input
Output
・・・
Sum
Conv1d
Conv1d
ReLU
ReLU
Div
Softmax
FC
Output
Input
Sum
Conv1d
・・・
・・・
sigmoidtanh
Conv
1d
Conv1d
ReLU
Conv1d
ReLU
Concat
Softmax
WaveNet
FFTNet
Conv
1d
WaveNetへの改善策
● Zero-padding
○ Silence区間だと、ノイズやゼロ系列を出力する傾向があった
■ 補助特徴量より、過去の系列が強く働いていることが要因
   → 入力に時刻0より前に、N個のzeroをpadding
● Conditional sampling
○ 有声区間:WaveNetで推定された確率分布に
係数(>1)を掛けて、よりピーキーにする
12
WaveNetへの改善策
● Injected noise
○ Clicking artifactが発生する場合がある
■ 個人的な知見だが、ゼロに近い系列が続く、無音区間で発生しやすい
■ 学習時の入力にガウスノイズを付与して、artifactに対し頑健にする
● Post-synthesis denoising
○ 上でノイズを付与したので、生成音声がノイジーなってしまう
○ スペクトル減算を適用
やや行き当たりばったりな印象を受ける
13
2,048 samples
● 実験条件
○ 学習データ: 英語1032文 CMU Arctic
○ 評価:WaveNetとFFT Netのvocoder性能を比較 
■ 補助特徴量はground truth
● ネットワーク構造
○ WaveNet
・・・
実験的評価
14
Dilation10Dilation10
・・・・・・
・1x1 conv1dの適用回数
dilation10はN=1024で、
∑^log2
N_(i=1) 6*i = 330
これが2 block stackされて
いるため、3302
= 108,900
FFTNet
block=11
● FFTNet
・1x1 conv1dの適用回数
i=11となり、∑^(log2
N)_(i=1) (3/2)*2i
= 6,141
計算量を削減できている
2,048 samples
実験的評価
● 実験結果
○ 従来のvocoder(mlsa)よりも、客観
評価は悪化するが、主観評価は上回る
○ mlsaは音響パラメータの誤差を最小化
する様に学習するため、歪みは小さい
● サンプル音声
○ http://gfx.cs.princeton.edu/pubs/Jin_2018_FAR/clips/clips.php
15
客観評価
主観評価
手法
MCD、RMSE: 小さい程、良い
NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET
ON MEL SPECTROGRAM PREDICTIONS (Tacotron2)
16
NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL
SPECTROGRAM PREDICTIONS (Tacotron2)
● 貢献
○ 筆者らが提案した end-to-end 音声合成システム(Tacotron)を改善
○ VocoderにWaveNetを用いることで、肉声と遜色ない音質を達成
○ 品質に寄与した要因を分析
● アルゴリズム
○ Step1: テキスト→音響特徴量
seq2seqベース
○ Step2: 音響特徴量→音声波形
WaveNet vocoder
○ Step1と2は繋がっておらず、
別々に学習。生成時はStep1で
推論した結果を、Step2の入力
として、音声波形を生成
17
Step1
Step2
● Tacotronとの差分
○ Encoder-decoderモデルの変更
■ Seq2seq w/ attention [Bahdanau, 2014]
→ Location-sensitive attention [Chorowski, 2015]
● 累積的に時系列を考慮してattention重みを
学習
○ Network architectureの変更
■ Tacotron:
Input text → One hot → Convolution bank → Max pooling → Conv1d →
highway network (3 Conv) → GRU
■ Tacotron2:
Input text → One hot → 3 Conv1d → BLSTM
18
Step1: テキストを音響特徴量に変換 (Encoder)
Encoder
※ 複数のCNNからなるfilter bank (実験では16個)
※
Step1: テキストを音響特徴量に変換 (Decoder)
● Tacotronとの差分
○ 音響特徴量を変更
Spectrogram → Mel spectrogram
■ Mel spectrogram:人間の聴覚特徴を
考慮したスケールに変換したspectrogram
○ Network architectureの変更
■ Tacotron:
→ Pre-Net (FC) → Attention RNN → Decoder RNN → Conv. bank →
Conv1d → highway network → GRU
■ Tacotron2:
→ Pre-Net (FC) → BLSTM → FC → Post-Net (5 Conv) →
19
Decoder
Step2: 音響特徴量を音声波形に変換
● WaveNet vocoderを利用
○ 30層からなる dilated convolution
20
Step2
Dilation10Dilation10Dilation10
256 ms
・・・
・・・
・・・
Step2: 音響特徴量を音声波形に変換
● 混合離散化ロジスティック分布を導入
○ 16bit 24 kHzでの合成が可能に。
21
cf.) https://www.slideshare.net/NU_I_TODALAB/wavenet-86493372
評価実験
● 学習データ
○ 英語女性 24.6 hours
● 評価方法
○ Amazon’s Mechanical Turkで
試聴評価 (1-5を0.5刻みの9段階評価)
● 評価結果
○ Ground truthとほぼ変わらない性能
● サンプル音声
○ https://google.github.io/tacotron/publications/tacotron2/
22
要因分析
● 予測音響特徴量 vs. Ground Truth
○ Tacotron2で予測性能を評価
○ 入力と出力が異なると性能が劣化
● システム比較
○ Tacotronの合成方式(Linear-G-L)とTacotron2(Mel-WaveNet)を組み合わせて
評価
23
まとめ
● 数年前に出て来たend-to-endシステムが進化
○ 品質ではground truthと遜色ない
● WaveNetの関連研究が増加
○ 計算量についてもリアルタイム可能な手法も出てきた
○ TTSだけでなく、他の音声分野にも波及
24
参考文献
[van den Oord+; ’16] Van Den Oord, Aaron, et al. "Wavenet: A generative model for
raw audio." arXiv preprint arXiv:1609.03499 (2016).
[Rethage+; ‘18] Dario Rethage, et al. “A WAVENET FOR SPEECH DENOISING” in Proc
ICASSP (2018).
25

More Related Content

What's hot

音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3Naoya Takahashi
 
saito2017asj_tts
saito2017asj_ttssaito2017asj_tts
saito2017asj_ttsYuki Saito
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向Yuma Koizumi
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentationYuki Saito
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成Shinnosuke Takamichi
 
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII
 
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATIONTEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATIONRyoAIHARA1
 
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムShinnosuke Takamichi
 
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出Tomoki Hayashi
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~Yui Sudo
 
ICASSP2019論文読み会_PHASEBOOK
ICASSP2019論文読み会_PHASEBOOKICASSP2019論文読み会_PHASEBOOK
ICASSP2019論文読み会_PHASEBOOKAtsushi_Ando
 
SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習SSII
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Yuki Okamoto
 
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用Shinnosuke Takamichi
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Shinnosuke Takamichi
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Keisuke Imoto
 
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会S_aiueo32
 

What's hot (20)

音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
 
Saito17asjA
Saito17asjASaito17asjA
Saito17asjA
 
saito2017asj_tts
saito2017asj_ttssaito2017asj_tts
saito2017asj_tts
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
 
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
 
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATIONTEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
 
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
 
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
 
Saito18asj_s
Saito18asj_sSaito18asj_s
Saito18asj_s
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
 
ICASSP2019論文読み会_PHASEBOOK
ICASSP2019論文読み会_PHASEBOOKICASSP2019論文読み会_PHASEBOOK
ICASSP2019論文読み会_PHASEBOOK
 
SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
 
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
 
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
 

Similar to Icassp2018 発表参加報告 FFTNet, Tactron2紹介

サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価Shinnosuke Takamichi
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告Shinnosuke Takamichi
 
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)Hiroki Nakahara
 
国際DVTS転送におけるネットワーク技術の使い方 -日伊間双方向DVTS送信を通じて-
国際DVTS転送におけるネットワーク技術の使い方 -日伊間双方向DVTS送信を通じて-国際DVTS転送におけるネットワーク技術の使い方 -日伊間双方向DVTS送信を通じて-
国際DVTS転送におけるネットワーク技術の使い方 -日伊間双方向DVTS送信を通じて-Shinsuke SUZUKI
 
[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders
[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders
[DL輪読会]Monaural Audio Source Separationusing Variational AutoencodersDeep Learning JP
 

Similar to Icassp2018 発表参加報告 FFTNet, Tactron2紹介 (7)

hosokawa m
hosokawa mhosokawa m
hosokawa m
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
 
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
 
国際DVTS転送におけるネットワーク技術の使い方 -日伊間双方向DVTS送信を通じて-
国際DVTS転送におけるネットワーク技術の使い方 -日伊間双方向DVTS送信を通じて-国際DVTS転送におけるネットワーク技術の使い方 -日伊間双方向DVTS送信を通じて-
国際DVTS転送におけるネットワーク技術の使い方 -日伊間双方向DVTS送信を通じて-
 
RNN-based Translation Models (Japanese)
RNN-based Translation Models (Japanese)RNN-based Translation Models (Japanese)
RNN-based Translation Models (Japanese)
 
[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders
[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders
[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders
 

Icassp2018 発表参加報告 FFTNet, Tactron2紹介

  • 1. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. ICASSP2018発表参加 報告 紹介論文: FFTNet、Tacotron2 橘 健太郎 1
  • 2. ICASSP2018 概要 ● International Conference on Acoustic, Speech and Signal Processing (ICASSP) ○ 音声信号処理のトップカンファレンス ○ 分野は、音声や音楽の認識・生成・分離、音声対話、音声・動画像符号化など ● 会場:カナダ カルガリー ○ 当初ソウルであったが、北の政治不安の影響で、 急遽変更。 ● 計数 ○ 発表件数: 1406件 (採択率: 49.7%) ○ 最大8パラレルセッション、5日間開催 ○ 音声合成・声質変換が中心の文献:26件 ■ 8/26件がWaveNet関連、 他のセッションでも2件の発表 2
  • 3. アジェンダ ● 導入 ○ 音声合成概要 ○ WaveNet概要 ● WaveNet関連論文紹介 (10件分をざっと) ● 紹介論文 2件 1. FFTNET: A REAL-TIME SPEAKER-DEPENDENT NEURAL VOCODER 2. NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS (Tacotron2) 3
  • 5. ● 離散記号系列の確率分布を自己回帰モデルで、非常に高精度に表現 ○ 入力xは過去のサンプルと補助特徴量に依存 ● 特徴 ○ 階層的なdilated convolutionで、時系列データを効率的に表現 ○ 活性化関数(sigmaとtanh)で、recurrent的に時系列データを考慮 ○ 音声波形を直接、cross-entropy基準で予測 導入:WaveNet [van den Oord+; ’16] 概要 5 補助特徴量(音響特徴量、言語特徴量) 図は[Rethage+; ‘18]参照
  • 6. WaveNet関連研究(ICASSP2018分) 6 性能分析 ON THE ANALYSIS OF TRAINING DATA FOR WAVENET-BASED SPEECH SYNTHESIS 学習データコーパス量と音質、コーパスの汚さと音質、との関係性を評価 A COMPARISON OF RECENT WAVEFORM GENERATION AND ACOUSTIC MODELING METHODS FOR NEURAL-NETWORK-BASED SPEECH SYNTHESIS 近年のNNベースの音声合成手法(WaveNet含む)を比較 ON THE USE OF WAVENET AS A STATISTICAL VOCODER 異なる特徴量・学習データコーパス量でWaveNet vocoderの品質を評価 品質・ 計算コスト 改善 AN INVESTIGATION OF SUBBAND WAVENET VOCODER COVERING ENTIRE AUDIBLE FREQUENCY RANGE WITH LIMITED ACOUSTIC FEATURES 複数の帯域信号に分割し、それぞれをWaveNetによって予測。並列化可 能 AN INVESTIGATION OF NOISE SHAPING WITH PERCEPTUAL WEIGHTING FOR WAVENET-BASED SPEECH GENERATION 橘発表分 WaveNetで発生したノイズを、人間の聴覚特性を利用し、聞こえない様に することで、品質改善 FFTNET: A REAL-TIME SPEAKER-DEPENDENT NEURAL VOCODER 紹介論文 WaveNetの構造にFFTのanalogyを導入することで、大幅な高速化に成 功 応用 NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS 紹介論文 End-to-end 音声合成にWaveNetを導入。肉声とほぼ同等の水準を達成。 STATISTICAL VOICE CONVERSION BASED ON WAVENET 音声to音声、ダイレクトな声質変換をWaveNetでモデル化 WAVENET BASED LOW RATE SPEECH CODING 符号化した情報からWaveNetで音声復元 A WAVENET FOR SPEECH DENOISING WaveNet構造を使って、入力音声のノイズ低減を行う
  • 7. FFTNET: A REAL-TIME SPEAKER-DEPENDENT NEURAL VOCODER 7
  • 8. FFTNET: A REAL-TIME SPEAKER-DEPENDENT NEURAL VOCODER ● 貢献 ○ FFTのanalogyをWaveNetのアーキテクチャに導入することで、 70倍の高速化に成功し、リアルタイム実行が可能に! ○ WaveNet自体の音質改善にも、取り組む ○ FFTNetで、オリジナルWaveNetを上回る性能を達成! ● アルゴリズム 8 ● Dilated convolutionはreverse binary tree構 造と捉えられる ● この構造はwevelet分析に類似している → DFTの高速化アルゴリズムColey Turkey 型FFTのanalogyを適用できるのではない か? Dilated convolution 自分が聴講した中では、一番盛況だった
  • 10. ● 処理概要と計算コスト FFTNET: A REAL-TIME SPEAKER-DEPENDENT NEURAL VOCODER 10 ● FFTアルゴリズムのように、入力を前後2分割 して、それぞれにcon1dを適用後、要素ごとに 加算、さらにconv1d ● 1layer分における1x1 conv1d適用回数 ○ FFTNet: ∑^(log2 N)_(i=1) (3/2)*2i ○ WaveNet: ∑^log2 N_(i=1) (2*2+1*2)*i ■ Dilated conv.はkernel=2 conv1dと して、2回分と換算 ● N=1024の場合 i.e. i=10 ○ FFTNet : (3/2)*1024 = 1536 ○ WaveNet: 6*10 = 60 ● 層を重ねていくと、FFTNetの方が計算量が増 加 layer1 layer2
  • 12. WaveNetへの改善策 ● Zero-padding ○ Silence区間だと、ノイズやゼロ系列を出力する傾向があった ■ 補助特徴量より、過去の系列が強く働いていることが要因    → 入力に時刻0より前に、N個のzeroをpadding ● Conditional sampling ○ 有声区間:WaveNetで推定された確率分布に 係数(>1)を掛けて、よりピーキーにする 12
  • 13. WaveNetへの改善策 ● Injected noise ○ Clicking artifactが発生する場合がある ■ 個人的な知見だが、ゼロに近い系列が続く、無音区間で発生しやすい ■ 学習時の入力にガウスノイズを付与して、artifactに対し頑健にする ● Post-synthesis denoising ○ 上でノイズを付与したので、生成音声がノイジーなってしまう ○ スペクトル減算を適用 やや行き当たりばったりな印象を受ける 13
  • 14. 2,048 samples ● 実験条件 ○ 学習データ: 英語1032文 CMU Arctic ○ 評価:WaveNetとFFT Netのvocoder性能を比較  ■ 補助特徴量はground truth ● ネットワーク構造 ○ WaveNet ・・・ 実験的評価 14 Dilation10Dilation10 ・・・・・・ ・1x1 conv1dの適用回数 dilation10はN=1024で、 ∑^log2 N_(i=1) 6*i = 330 これが2 block stackされて いるため、3302 = 108,900 FFTNet block=11 ● FFTNet ・1x1 conv1dの適用回数 i=11となり、∑^(log2 N)_(i=1) (3/2)*2i = 6,141 計算量を削減できている 2,048 samples
  • 15. 実験的評価 ● 実験結果 ○ 従来のvocoder(mlsa)よりも、客観 評価は悪化するが、主観評価は上回る ○ mlsaは音響パラメータの誤差を最小化 する様に学習するため、歪みは小さい ● サンプル音声 ○ http://gfx.cs.princeton.edu/pubs/Jin_2018_FAR/clips/clips.php 15 客観評価 主観評価 手法 MCD、RMSE: 小さい程、良い
  • 16. NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS (Tacotron2) 16
  • 17. NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS (Tacotron2) ● 貢献 ○ 筆者らが提案した end-to-end 音声合成システム(Tacotron)を改善 ○ VocoderにWaveNetを用いることで、肉声と遜色ない音質を達成 ○ 品質に寄与した要因を分析 ● アルゴリズム ○ Step1: テキスト→音響特徴量 seq2seqベース ○ Step2: 音響特徴量→音声波形 WaveNet vocoder ○ Step1と2は繋がっておらず、 別々に学習。生成時はStep1で 推論した結果を、Step2の入力 として、音声波形を生成 17 Step1 Step2
  • 18. ● Tacotronとの差分 ○ Encoder-decoderモデルの変更 ■ Seq2seq w/ attention [Bahdanau, 2014] → Location-sensitive attention [Chorowski, 2015] ● 累積的に時系列を考慮してattention重みを 学習 ○ Network architectureの変更 ■ Tacotron: Input text → One hot → Convolution bank → Max pooling → Conv1d → highway network (3 Conv) → GRU ■ Tacotron2: Input text → One hot → 3 Conv1d → BLSTM 18 Step1: テキストを音響特徴量に変換 (Encoder) Encoder ※ 複数のCNNからなるfilter bank (実験では16個) ※
  • 19. Step1: テキストを音響特徴量に変換 (Decoder) ● Tacotronとの差分 ○ 音響特徴量を変更 Spectrogram → Mel spectrogram ■ Mel spectrogram:人間の聴覚特徴を 考慮したスケールに変換したspectrogram ○ Network architectureの変更 ■ Tacotron: → Pre-Net (FC) → Attention RNN → Decoder RNN → Conv. bank → Conv1d → highway network → GRU ■ Tacotron2: → Pre-Net (FC) → BLSTM → FC → Post-Net (5 Conv) → 19 Decoder
  • 20. Step2: 音響特徴量を音声波形に変換 ● WaveNet vocoderを利用 ○ 30層からなる dilated convolution 20 Step2 Dilation10Dilation10Dilation10 256 ms ・・・ ・・・ ・・・
  • 21. Step2: 音響特徴量を音声波形に変換 ● 混合離散化ロジスティック分布を導入 ○ 16bit 24 kHzでの合成が可能に。 21 cf.) https://www.slideshare.net/NU_I_TODALAB/wavenet-86493372
  • 22. 評価実験 ● 学習データ ○ 英語女性 24.6 hours ● 評価方法 ○ Amazon’s Mechanical Turkで 試聴評価 (1-5を0.5刻みの9段階評価) ● 評価結果 ○ Ground truthとほぼ変わらない性能 ● サンプル音声 ○ https://google.github.io/tacotron/publications/tacotron2/ 22
  • 23. 要因分析 ● 予測音響特徴量 vs. Ground Truth ○ Tacotron2で予測性能を評価 ○ 入力と出力が異なると性能が劣化 ● システム比較 ○ Tacotronの合成方式(Linear-G-L)とTacotron2(Mel-WaveNet)を組み合わせて 評価 23
  • 24. まとめ ● 数年前に出て来たend-to-endシステムが進化 ○ 品質ではground truthと遜色ない ● WaveNetの関連研究が増加 ○ 計算量についてもリアルタイム可能な手法も出てきた ○ TTSだけでなく、他の音声分野にも波及 24
  • 25. 参考文献 [van den Oord+; ’16] Van Den Oord, Aaron, et al. "Wavenet: A generative model for raw audio." arXiv preprint arXiv:1609.03499 (2016). [Rethage+; ‘18] Dario Rethage, et al. “A WAVENET FOR SPEECH DENOISING” in Proc ICASSP (2018). 25