WaveNet

WaveNetとは？
DeepMindが開発したDNNを使った
音響データ生成モデル
https://arxiv.org/pdf/1609.03499.pdf

WaveNetの驚きポイント
• 従来の手法よりも自然な音声を生成
• 特徴抽出やvocoderがいらない．入力も出力も音響波．
• 同じアーキテクチャで音声だけでなく音楽も生成可能
• RNNではなくCNNを使っている

音響波の同時確率
• 音響波形は過去の履歴に依存する
• 音響波は過去に取ったすべての値の
条件付き確率の同時確率で表せる

causal convolution
• causal convolutionでは予測は未来の値に依存しない
• 条件付き確率分布はレイヤーの積み重ねで表現される
• 出力層は入力層と同じ次元tをもつ
• ソフトマックス層で２５６の値に分類される

dilated convolution
• dilated convolutionは入力を何ステップかスキップする
• dilated convolutionは少ない層数で大きな受容野をもつことを可能にする
• 受容野とは神経細胞の中で入力を受け取る部分
• 実験では受容野の大きさはおよそ300ミリ秒で、２３音素分に相当
受容野

CNNのメリット/デメリット
• 再帰的コネクションを持っていないため、RNNよ
りも学習が速い
• 受容野を広げるためにたくさんの層や巨大なフィル
ターが必要

条件付きWaveNet
• 音響データ以外に入力を与えることもできる
• 入力変数で条件付けすることで、特定の特徴をもった音
響波を出力することができる
• 条件にはグローバル条件（e.g. 話者）と時系列のローカ
ル条件（e.g. 言語学的情報）がある

複数話者音声生成
• 109話者44時間のデータを学習
• 話者IDで条件付け
• テキストでは条件付けしていない
• →人の声のように聞こえるが、意味のない発言
• →１つのモデルですべての話者を再現可能
• →呼吸、口の動き、録音環境も再現される
https://deepmind.com/blog/wavenet-generative-model-raw-audio/

TTS
• １話者、24時間のデータを学習
• 入力テキストの言語学的情報で条件付け
• 他のモデルで予測したF0と音素継続長も補助情報
として条件付け
• →ユニットセレクションやHMM/LSTM-RNNパラ
メトリック合成よりもよいスコア

音楽生成
• ジャンルや楽器などでタグ付けされた２００時間の
音楽/６０時間のYoutubeにあるピアノ音楽を学習
• →無条件でも和音で構成された聞き心地のよい音楽
を生成
• →数秒の受容野をもってしても長期間の整合性は維
持できない（秒単位でジャンルや楽器が変わってし
まう）

感想
• 現実的に情報量が多く汎用性の高い強力なモデルを
作ることが可能なところがすごい
• F0や音素継続長など長期依存性をもつものは従来
の手法を使わなければならないのが残念
• 受容野の拡大に期待
• tensorﬂow/magentaで実装公開に期待

WaveNet

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (8)

More from TanUkkii

More from TanUkkii (16)

Recently uploaded

Recently uploaded (12)

WaveNet