ICASSP2019 音声＆音響読み会テーマ発表音声生成

ICASSP’19音声＆音響読み会 
ICASSP’19概要・テーマ発表：音声生成 
Sat. 08, 2019 
橘健太郎 
DeNA Co., Ltd.

アジェンダ 
● ICASSP’19の概要 
● テキスト音声合成 
○ テキスト音声合成とは？ 
○ ICASSPでの最新動向 
● 声質変換 
○ 声質変換とは？ 
○ ICASSPでの最新動向 
● まとめ 
 
2

ICASSP ‘19 概要（1/3） 
● International Conference on Acoustic, Speech and Signal Processing
（ICASSP） 
● 特に音声に強い信号処理のトップカンファレンス 
● キーワード：音声認識・生成・分離・検知・対話、音声・動画像符号化など 
○ 会期：2019/05/12-17 
● 会場：Brighton, UK 
3
•Brighton: UKの南海岸沿い 
•会場前には海岸が広がる

● 会場内
● スポンサー
4
メイン会場  ポスター会場ﾁｮｯﾄｾﾏｶｯﾀ 
GAFA中心で、日本始めアジアIT企業も

● 計数 
○ Acceptance率 49.1 % （1,725 / 3,510 件） 
○ 24 topics 
 
● 特に音声に係るtopic 
○ Audio and Acoustic Signal Processing（AASP）： 205件 
○ Spoken Language processing（SLP）：313件 
■ 音声認識・合成、声質変換、話者認証・認識など 
 
● AASP＋SLPの発表状況 
○ 国別 
1.United States 146件 
2.China 72件 
3.Japan 65件 
  5
所属別 
1. Google 19件 
2. Microsoft 15件 
2. NTT 15件 
4. Johns Hopkins Univ. 13件 
5. Tencent 12件

テキスト音声合成（text-to-speech; TTS）のモジュール構成 
● Text-to-speech: テキストを音声に変化するシステム
6
https://www.slideshare.net/f2forest/nips2017-speech-audio-86474213

Vocoderの仕組み 
● 人間の発声メカニズムをモデル化 
7
図は https://ahcweb01.naist.jp/lecture/2017/sp/material/lecture3.pdf より引用

8
音響特徴量

● 有声音と無声音から音源信号を生成 
9
図は https://ahcweb01.naist.jp/lecture/2017/sp/material/lecture3.pdf より一部引用
= 包絡 = 包絡
３つパラメータから音声を生成することが出来る

音声分析 
10
フレーム

Vocoderの進化 
● 従来のvocoder
○ Harmonic plus noise model [Stylianous, 96]
○ STRAIGHT [Kawahara+, 99]
○ WORLD [Morise+, 16]
● Neural vocoderの登場 
○ vocoderをneural netsで表現 
■ WaveNet [Oord+, 16]
■ SampleRNN [Mehri+, 17]
■ WaveRNN [Kalchbrenner+, 18]
11
● 分析エラーによる品質劣化 
● 品質面が不十分な点がある 
● 非常に高品質 
● 計算コストが非常に掛かる

音声合成の最新動向 
● TTS関連発表: 24件 
○ End-to-end TTS 
■ 音素長さを調整などの可制御性、声質の制御などの多様性に言
及した 
○ Neural vocoder 
■ トピックは処理コスト削減が注目されており、実用化に向かっている 
■ LPCNet [Valin+, 19] : original WaveNetの1/10の計算量
https://people.xiph.org/~jm/demo/lpcnet/  
■ WaveGlow [Prenger+, 19] : WNの約4,700倍高速（520/0.11 kHz） 🤔 
https://nv-adlr.github.io/WaveGlow  
Parallel WaveNetは500 kHZ  
■ NSF model [Wang+, ‘19] : WNの100倍高速 https://nii-yamagishilab.github.io/samples-nsf/nsf-v1.html  
■ 学習が難しい、時間がかかる（4GPUx1ヶ月）など、問題はまだある 
○ 音声合成で生成した音声を音声認識のdata augmentationとして用いる手法も出てきてお
り、新たな用途も広がっている 
12

最近のneural vocoder
13https://www.slideshare.net/jyamagis/
● 高速化の手段
1. 簡単なAR
2. segmentの単位で同時生成

最近のneural vocoder
14https://www.slideshare.net/jyamagis/ より引用
・モデル学習が難しい
・Flow系よりは低速
・一気にサンプル生成できるが
モデル学習が難しい
・品質が他の手法と比べると少
し劣る
・学習しやすいモデル構造
・frame単位で生成が可能

サンプル音声 
● WaveGlow
https://nv-adlr.github.io/WaveGlow
● LPCNet
https://people.xiph.org/~jm/demo/lpcnet/
● NSF model
https://nii-yamagishilab.github.io/samples-nsf/nsf-v1.html
15

続いて、声質変換 
16

一般的な声質変換手順（one-to-one） 
17
音声分析 
声質
（スペクトル包絡）
声の高さ
（F0）
かすれ具合
（非周期性指標）
パラメータ 
変換 
音声生成 
目標話者 元話者

18
音声分析 
声質
声の高さ
（F0）
かすれ具合
パラメータ 
変換 
音声生成 
目標話者 元話者 
「こんにちは」 
「今日はいい天気ですね」  
「お疲れ様です」 
・ 
・ 
・ 
・ 
・ 
・ 
・ 
・ 
・
スペクトル包絡のみ対応関係を
パラレルデータにより学習
イントネーションや息継ぎの位置も
合わせると高精度に変換出来やす
い
学習時

19
音声分析 
声質
声の高さ
（F0）
かすれ具合
パラメータ 
変換 
音声生成 
目標話者 元話者 
変換時
スペクトル包絡
F0
非周期性指標
スペクトル包絡
F0
非周期性指標
線形変換
声質だけを変換する

声質変換のタスクと代表手法 
20
one-to-one
many-to-one
many-to-many
パラレルデータノンパラレルデータ
おはよう
こんにちは
こんばんは
元気ですか？
お疲れ様
いい天気ですね
暑いです
寒いです
代表手法：NN手法だと見当たらない  
 
代表的な手法：NN手法だと見当たら
ない 
代表的な手法：DNNに基づく手法
[Desai+, ‘14] 
 
代表的な手法：Cycle-GANに基づく手法
[Kaneko+, ‘16] 
 
代表的な手法：ppgに基づく手法 [Sun+, ‘16]  
 
代表的な手法：VAEに基づく手法 [Saito+,
‘18]、StarGAN-VC [Kameoka+, 18]  
代表手法はNNベースの手法を中心に挙げています .
音素事後確率（ppg）を用いること
で、元話者の発話内容だけを抽
出し、誰でも目的話者になれる
学習データ 元話者と目標話者の関係性

Many-to-one声質変換：音素事後確率（ppg）に基づく手法 [Sun+, ‘16] 
21
複数話者
コーパス
音素認識学習
音素認識
モデル
音声特徴量
抽出
音素認識
マッピング学習
PPG
スペクトル包
絡
話者に寄らない
話者性を除去
Training stage Conversion stage
目標話者
コーパス
マッピング
モデル
スペクトル予測
音素認識
音声生成
音声特徴量
抽出
元話者
コーパス
F0
非周期性指標
スペクトル
包絡
PPG
スペクトル包絡へのマッ
ピングを学習
元話者の話者性は
除去

声質変換のタスクと代表手法 
22
one-to-one
many-to-one
many-to-many
パラレルデータノンパラレルデータ
おはよう
こんにちは
こんばんは
元気ですか？
お疲れ様
いい天気ですね
暑いです
寒いです
代表的な手法：NN手法だと見当たらな
い 
 
代表的な手法：NN手法だと見当たら
ない 
 
代表的な手法：DNNに基づく手法
[Desai+, ‘14] 
 
代表的な手法：Cycle-GANに基づく手法
[Kaneko+, ‘16] 
 
代表的な手法：ppgに基づく手法 [Sun+, ‘16]  
 
代表的な手法：VAEに基づく手法 [Saito+,
‘18]、StarGAN-VC [Kameoka+, ‘18]  
代表手法はNNベースの手法を中心に挙げています .
学習データ 元話者と目標話者の関係性 
Autoencoderを用いるものが多
く、発話内容・話者情報を分離し
て制御することで、どんな声でも
作り出せる

Many-to-many 声質変換：VAEに基づく手法 [Saito+, ‘18]
23図は https://www.slideshare.net/YukiSaito8/saito18sp03 から引用
音素情報を表現 
話者情報を表現 
音素以外の共有
情報を表現

声質変換の最新動向 
● VC関連発表：13件 
○ VocoderにWaveNet vocoderが導入され、全体品質が上がっている
[Polyak+ ‘19] [Tobing+, ‘19]など 
○ Seq2seqアルゴリズムを用いた手法で、one-to-one声質変換で品質
向上が進んでいる [Tanaka+, ‘19], [Zhang+, ‘19] 
■ 盛り上がっている印象 
24
こちらの課題について取り上げる

従来の課題：特徴量のアライメントエラー 
DTWエラーをモデル学習で修正できない！
モデル側ではアライメントエラーによる品質劣化が防げない！ 25
音声
分析 
元話者 
目標話者 
おはよう
おはよう
音
声
特
徴
量
音
声
特
徴
量
音
声
特
徴
量
音
声
特
徴
量
音
声
特
徴
量
音
声
特
徴
量
音
声
特
徴
量
音
声
特
徴
量
音
声
特
徴
量
Dynamic Time Warping 
（DTW）を用いて対応づけ 
音
声
特
徴
量
音
声
特
徴
量
音
声
特
徴
量
音
声
特
徴
量
音
声
特
徴
量
音
声
特
徴
量
時刻 DTW後の系列に対して、
マッピングをモデル学習
t1 t2 t3 t4 t5 t6
t1 t2 t3 t4 t5 t6 t8 t9t7
長さが異なる！

特徴量のアライメントエラーの解決法 
26
・ 
・ 
 
事前にアライメントするから、モデル学習時にはアライメントエラーは防
げない
アライメントも学習するようにしたろ！
Seq2seqアルゴリズムを用いて音素同士のアライメントを学習
[Miyoshi+, ‘17]
・音声長も目的話者のものに変換される！  
・音素事後確率（ppg）を経由して、変換する  
ppg
ppgを経由する → 音声認識モデルが必要
音声認識モデルために、大量の学習データが
必要
元話者と目標話者のみのデータから学習する
アルゴリズムが提案
（ICASSPで2件発表 [Tanaka+, ‘19], [Zhang+, ‘19]）

サンプル音声 
● ATTS2S-VC: SEQUENCE-TO-SEQUENCE VOICE CONVERSION WITH
ATTENTION AND CONTEXT PRESERVATION MECHANISMS [Tanaka+ ‘19]
○ http://www.kecl.ntt.co.jp/people/tanaka.ko/projects/atts2svc/index.html
● IMPROVING SEQUENCE-TO-SEQUENCE VOICE CONVERSION BY ADDING
TEXT-SUPERVISION [Zhang+ ‘19]
○ https://jxzhanggg.github.io/Text-supervised-Seq2SeqVC/
● ともにパラレルデータ1,000文
27

まとめ 
● ICASSP’19から音声合成・声質変換の最新動向を説明
● 音声合成
○ End-to-end TTSでの多様性向上、neural vocoderの実用化に向け
ての研究が盛ん
● 声質変換
○ WaveNet導入により全体的な品質が上がってきている
○ One-to-oneで、高品質なモデルが出てきた
28

参考文献
[Stylianous, ‘96] Y. Stylianous, “Harmonic plus noise models for speech, combined with statistical methods,
for speech and speaker modification,” Ph.D thesis, Ecole Nationale Superieure des Telecommunications,
1996.
[Kawahara+, ‘99] H. Kawahara et al., “Restructuring speech representations using a pitch-adaptive
time–frequency smoothing and an instantaneous-frequency-based F0 extraction: Possible role of a
repetitive structure in sounds,” Speech communication, 27(3-4), 187-207.
[Morise+, ‘16] M. Morise et al., “WORLD: a vocoder-based high-quality speech synthesis system for
real-time applications, IEICE transactions on information and systems,” vol. E99-D, no. 7, pp. 1877-1884,
2016.
[Oord+, ‘16] A. van den Oord et al., “WAVENET: A GENERATIVE MODEL FOR RAW AUDIO,” arXiv
preprint, arXiv:1609.03499, 2016.
[Mehri+, ‘17] S. Mehri et al., “SampleRNN: An Unconditional End-to-End Neural Audio Generation Model,”
in Proc. ICLR, 2017.
[Kalchbrenner+, ‘18] N. Kalchbrenner et al., “Efficient Neural Audio Synthesis”, in Proc. ICML, 2018.
[Valin+, ‘19] Valin et al, “LPCNET: IMPROVING NEURAL SPEECH SYNTHESIS THROUGH LINEAR
PREDICTION,” in Proc. ICASSP 2019.
[Prenger+, ‘19] R. Prenger et al., “WAVEGLOW: A FLOW-BASED GENERATIVE NETWORK FOR
SPEECH SYNTHESIS” in Proc. ICASSP 2019.
[Wang+ ‘19] S. Wang et al., “NEURAL SOURCE-FILTER-BASEDWAVEFORM MODEL FOR STATISTICAL
PARAMETRIC SPEECH SYNTHESIS,” in Proc. ICASSP 2019.
29

参考文献
[Desai+, ‘10] S. Desai et al., “Spectral mapping using artificial neural networks for voice conversion. IEEE
Transactions on Audio, Speech, and Language Processing,” 18(5), 954-964, 2010.
[Sun+, ‘16] L. Sun et al., “Phonetic posteriorgrams for many-to-one voice conversion without parallel data
training,” in Proc ICME, 2016.
[Kaneko+, ‘16] T. Kaneko et al., “CycleGAN-VC Parallel-Data-Free Voice Conversion Using
Cycle-Consistent Adversarial Networks,” in Proc. EUSIPCO 2016.
[Saito+, ‘18] Y. Saito et al., “Non-parallel voice conversion using variational autoencoders conditioned by
phonetic posteriorgrams and d-vectors,” in Proc. ICASSP, 2018.
[Kameoka+, ‘18] H. Kameoka et al., “StarGAN-VC Non-parallel many-to-many voice conversion with star
generatiave adversarial networks,” arXiv preprint, arXiv:1806.02169,, 2018.
[Miyoshi+, ‘17] H. Miyoshi et al., “Voice Conversion Using Sequence-to-Sequence Learning of Context
Posterior Probabilities,” in Proc INTERSPEECH 2017.
[Polyak+ ‘19] A. Polyak et al., “Attention-Based WaveNet Autoencoder for Universal Voice Conversion”, in
Proc. ICASSP, 2019.
[Tobing+, ‘19] P. Lumban Tobing, “VOICE CONVERSION WITH CYCLIC RECURRENT NEURAL
NETWORK AND FINE-TUNED WAVENET VOCODER,” in Proc. ICASSP, 2019.
[Tanaka+, ‘19] K. Tanaka et al., “ATTS2S-VC: SEQUENCE-TO-SEQUENCE VOICE CONVERSION WITH
ATTENTION AND CONTEXT PRESERVATION MECHANISMS, ” in Proc. ICASSP, 2019.
[Zhang+, ‘19] J. Zhang et al., “IMPROVING SEQUENCE-TO-SEQUENCE VOICE CONVERSION BY
ADDING TEXT-SUPERVISION,” in Proc. ICASSP, 2019.
30

ICASSP2019 音声＆音響読み会テーマ発表音声生成

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to ICASSP2019 音声＆音響読み会テーマ発表音声生成

Similar to ICASSP2019 音声＆音響読み会テーマ発表音声生成 (9)