SlideShare a Scribd company logo
1 of 30
Download to read offline
ICASSP’19音声&音響読み会

ICASSP’19概要・テーマ発表:音声生成

Sat. 08, 2019

橘健太郎

DeNA Co., Ltd.

アジェンダ

● ICASSP’19の概要

● テキスト音声合成

○ テキスト音声合成とは?

○ ICASSPでの最新動向

● 声質変換

○ 声質変換とは?

○ ICASSPでの最新動向

● まとめ



2
ICASSP ‘19 概要(1/3)

● International Conference on Acoustic, Speech and Signal Processing
(ICASSP)

● 特に音声に強い信号処理のトップカンファレンス

● キーワード:音声認識・生成・分離・検知・対話、音声・動画像符号化など

○ 会期:2019/05/12-17

● 会場:Brighton, UK

3
•Brighton: UKの南海岸沿い

•会場前には海岸が広がる

ICASSP ‘19 概要(2/3)

● 会場内
● スポンサー
4
メイン会場
 ポスター会場 チョットセマカッタ

GAFA中心で、日本始めアジアIT企業も

ICASSP ‘19 概要(3/3)

● 計数

○ Acceptance率 49.1 % (1,725 / 3,510 件)

○ 24 topics



● 特に音声に係るtopic

○ Audio and Acoustic Signal Processing(AASP): 205件

○ Spoken Language processing(SLP):313件

■ 音声認識・合成、声質変換、話者認証・認識など



● AASP+SLPの発表状況

○ 国別

1.United States 146件

2.China 72件

3.Japan 65件


 5
所属別

1. Google 19件

2. Microsoft 15件

2. NTT 15件

4. Johns Hopkins Univ. 13件

5. Tencent 12件

テキスト音声合成(text-to-speech; TTS)のモジュール構成

● Text-to-speech: テキストを音声に変化するシステム
6
https://www.slideshare.net/f2forest/nips2017-speech-audio-86474213
Vocoderの仕組み

● 人間の発声メカニズムをモデル化

7
図は https://ahcweb01.naist.jp/lecture/2017/sp/material/lecture3.pdf より引用
Vocoderの仕組み

8
音響特徴量
図は https://ahcweb01.naist.jp/lecture/2017/sp/material/lecture3.pdf より引用
Vocoderの仕組み

● 有声音と無声音から音源信号を生成

9
図は https://ahcweb01.naist.jp/lecture/2017/sp/material/lecture3.pdf より一部引用
= 包絡
= 包絡
3つパラメータから音声を生成することが出来る
音声分析

10
図は https://ahcweb01.naist.jp/lecture/2017/sp/material/lecture3.pdf より引用
フレーム
Vocoderの進化

● 従来のvocoder
○ Harmonic plus noise model [Stylianous, 96]
○ STRAIGHT [Kawahara+, 99]
○ WORLD [Morise+, 16]
● Neural vocoderの登場

○ vocoderをneural netsで表現

■ WaveNet [Oord+, 16]
■ SampleRNN [Mehri+, 17]
■ WaveRNN [Kalchbrenner+, 18]
11
● 分析エラーによる品質劣化

● 品質面が不十分な点がある

● 非常に高品質

● 計算コストが非常に掛かる

音声合成の最新動向

● TTS関連発表: 24件

○ End-to-end TTS

■ 音素長さを調整などの可制御性、声質の制御などの多様性に言
及した

○ Neural vocoder

■ トピックは処理コスト削減が注目されており、実用化に向かっている

■ LPCNet [Valin+, 19] : original WaveNetの1/10の計算量
https://people.xiph.org/~jm/demo/lpcnet/ 

■ WaveGlow [Prenger+, 19] : WNの約4,700倍高速(520/0.11 kHz) 🤔

https://nv-adlr.github.io/WaveGlow 

Parallel WaveNetは500 kHZ 

■ NSF model [Wang+, ‘19] : WNの100倍高速 https://nii-yamagishilab.github.io/samples-nsf/nsf-v1.html 

■ 学習が難しい、時間がかかる(4GPUx1ヶ月)など、問題はまだある

○ 音声合成で生成した音声を音声認識のdata augmentationとして用いる手法も出てきてお
り、新たな用途も広がっている

12
最近のneural vocoder
13https://www.slideshare.net/jyamagis/
● 高速化の手段
1. 簡単なAR
2. segmentの単位で同時生成
最近のneural vocoder
14https://www.slideshare.net/jyamagis/ より引用
・モデル学習が難しい
・Flow系よりは低速
・一気にサンプル生成できるが
モデル学習が難しい
・品質が他の手法と比べると少
し劣る
・学習しやすいモデル構造
・frame単位で生成が可能
サンプル音声

● WaveGlow
https://nv-adlr.github.io/WaveGlow
● LPCNet
https://people.xiph.org/~jm/demo/lpcnet/
● NSF model
https://nii-yamagishilab.github.io/samples-nsf/nsf-v1.html
15
続いて、声質変換

16
一般的な声質変換手順(one-to-one)

17
音声分析

声質
(スペクトル包絡)
声の高さ
(F0)
かすれ具合
(非周期性指標)
パラメータ

変換

音声生成

目標話者
元話者

一般的な声質変換手順(one-to-one)

18
音声分析

声質
(スペクトル包絡)
声の高さ
(F0)
かすれ具合
(非周期性指標)
パラメータ

変換

音声生成

目標話者
元話者

「こんにちは」

「今日はいい天気ですね」 

「お疲れ様です」

・

・

・

「こんにちは」

「今日はいい天気ですね」 

「お疲れ様です」

・

・

・

・

・

・
スペクトル包絡のみ対応関係を
パラレルデータにより学習
イントネーションや息継ぎの位置も
合わせると高精度に変換出来やす
い
学習時
一般的な声質変換手順(one-to-one)

19
音声分析

声質
(スペクトル包絡)
声の高さ
(F0)
かすれ具合
(非周期性指標)
パラメータ

変換

音声生成

目標話者
元話者

変換時
スペクトル包絡
F0
非周期性指標
スペクトル包絡
F0
非周期性指標
線形変換
声質だけを変換する
声質変換のタスクと代表手法

20
one-to-one
many-to-one
many-to-many
パラレルデータ ノンパラレルデータ
おはよう
こんにちは
こんばんは
元気ですか?
お疲れ様
いい天気ですね
暑いです
寒いです
代表手法:NN手法だと見当たらない 



代表的な手法:NN手法だと見当たら
ない

代表的な手法:DNNに基づく手法
[Desai+, ‘14]



代表的な手法:Cycle-GANに基づく手法
[Kaneko+, ‘16]



代表的な手法:ppgに基づく手法 [Sun+, ‘16] 



代表的な手法:VAEに基づく手法 [Saito+,
‘18]、StarGAN-VC [Kameoka+, 18] 

代表手法はNNベースの手法を中心に挙げています .
音素事後確率(ppg)を用いること
で、元話者の発話内容だけを抽
出し、誰でも目的話者になれる
学習データ
元話者と目標話者の関係性

Many-to-one声質変換:音素事後確率(ppg)に基づく手法 [Sun+, ‘16]

21
複数話者
コーパス
音素認識学習
音素認識
モデル
音声特徴量
抽出
音素認識
マッピング学習
PPG
スペクトル包
絡
話者に寄らない
話者性を除去
Training stage Conversion stage
目標話者
コーパス
マッピング
モデル
スペクトル予測
音素認識
音声生成
音声特徴量
抽出
元話者
コーパス
F0
非周期性指標
スペクトル
包絡
PPG
スペクトル包絡へのマッ
ピングを学習
元話者の話者性は
除去
声質変換のタスクと代表手法

22
one-to-one
many-to-one
many-to-many
パラレルデータ ノンパラレルデータ
おはよう
こんにちは
こんばんは
元気ですか?
お疲れ様
いい天気ですね
暑いです
寒いです
代表的な手法:NN手法だと見当たらな
い



代表的な手法:NN手法だと見当たら
ない



代表的な手法:DNNに基づく手法
[Desai+, ‘14]



代表的な手法:Cycle-GANに基づく手法
[Kaneko+, ‘16]



代表的な手法:ppgに基づく手法 [Sun+, ‘16] 



代表的な手法:VAEに基づく手法 [Saito+,
‘18]、StarGAN-VC [Kameoka+, ‘18] 

代表手法はNNベースの手法を中心に挙げています .
学習データ
元話者と目標話者の関係性

Autoencoderを用いるものが多
く、発話内容・話者情報を分離し
て制御することで、どんな声でも
作り出せる

Many-to-many 声質変換:VAEに基づく手法 [Saito+, ‘18]
23図は https://www.slideshare.net/YukiSaito8/saito18sp03 から引用
音素情報を表現

話者情報を表現

音素以外の共有
情報を表現

声質変換の最新動向

● VC関連発表:13件

○ VocoderにWaveNet vocoderが導入され、全体品質が上がっている
[Polyak+ ‘19] [Tobing+, ‘19]など

○ Seq2seqアルゴリズムを用いた手法で、one-to-one声質変換で品質
向上が進んでいる [Tanaka+, ‘19], [Zhang+, ‘19]

■ 盛り上がっている印象

24
こちらの課題について取り上げる
従来の課題:特徴量のアライメントエラー

DTWエラーをモデル学習で修正できない!
モデル側ではアライメントエラーによる品質劣化が防げない! 25
音声
分析

元話者

目標話者

おはよう
おはよう
音
声
特
徴
量
音
声
特
徴
量
音
声
特
徴
量
音
声
特
徴
量
音
声
特
徴
量
音
声
特
徴
量
音
声
特
徴
量
音
声
特
徴
量
音
声
特
徴
量
Dynamic Time Warping

(DTW)を用いて対応づけ

音
声
特
徴
量
音
声
特
徴
量
音
声
特
徴
量
音
声
特
徴
量
音
声
特
徴
量
音
声
特
徴
量
時刻 DTW後の系列に対して、
マッピングをモデル学習
t1 t2 t3 t4 t5 t6
t1 t2 t3 t4 t5 t6 t8 t9t7
長さが異なる!
特徴量のアライメントエラーの解決法

26
「こんにちは」

「今日はいい天気ですね」 

「お疲れ様です」

・

・



「こんにちは」

「今日はいい天気ですね」 

「お疲れ様です」

事前にアライメントするから、モデル学習時にはアライメントエラーは防
げない
アライメントも学習するようにしたろ!
Seq2seqアルゴリズムを用いて音素同士のアライメントを学習
[Miyoshi+, ‘17]
・音声長も目的話者のものに変換される! 

・音素事後確率(ppg)を経由して、変換する 

ppg
ppgを経由する → 音声認識モデルが必要
音声認識モデルために、大量の学習データが
必要
元話者と目標話者のみのデータから学習する
アルゴリズムが提案
(ICASSPで2件発表 [Tanaka+, ‘19], [Zhang+, ‘19])
サンプル音声

● ATTS2S-VC: SEQUENCE-TO-SEQUENCE VOICE CONVERSION WITH
ATTENTION AND CONTEXT PRESERVATION MECHANISMS [Tanaka+ ‘19]
○ http://www.kecl.ntt.co.jp/people/tanaka.ko/projects/atts2svc/index.html
● IMPROVING SEQUENCE-TO-SEQUENCE VOICE CONVERSION BY ADDING
TEXT-SUPERVISION [Zhang+ ‘19]
○ https://jxzhanggg.github.io/Text-supervised-Seq2SeqVC/
● ともにパラレルデータ1,000文
27
まとめ

● ICASSP’19から音声合成・声質変換の最新動向を説明
● 音声合成
○ End-to-end TTSでの多様性向上、neural vocoderの実用化に向け
ての研究が盛ん
● 声質変換
○ WaveNet導入により全体的な品質が上がってきている
○ One-to-oneで、高品質なモデルが出てきた
28
参考文献
[Stylianous, ‘96] Y. Stylianous, “Harmonic plus noise models for speech, combined with statistical methods,
for speech and speaker modification,” Ph.D thesis, Ecole Nationale Superieure des Telecommunications,
1996.
[Kawahara+, ‘99] H. Kawahara et al., “Restructuring speech representations using a pitch-adaptive
time–frequency smoothing and an instantaneous-frequency-based F0 extraction: Possible role of a
repetitive structure in sounds,” Speech communication, 27(3-4), 187-207.
[Morise+, ‘16] M. Morise et al., “WORLD: a vocoder-based high-quality speech synthesis system for
real-time applications, IEICE transactions on information and systems,” vol. E99-D, no. 7, pp. 1877-1884,
2016.
[Oord+, ‘16] A. van den Oord et al., “WAVENET: A GENERATIVE MODEL FOR RAW AUDIO,” arXiv
preprint, arXiv:1609.03499, 2016.
[Mehri+, ‘17] S. Mehri et al., “SampleRNN: An Unconditional End-to-End Neural Audio Generation Model,”
in Proc. ICLR, 2017.
[Kalchbrenner+, ‘18] N. Kalchbrenner et al., “Efficient Neural Audio Synthesis”, in Proc. ICML, 2018.
[Valin+, ‘19] Valin et al, “LPCNET: IMPROVING NEURAL SPEECH SYNTHESIS THROUGH LINEAR
PREDICTION,” in Proc. ICASSP 2019.
[Prenger+, ‘19] R. Prenger et al., “WAVEGLOW: A FLOW-BASED GENERATIVE NETWORK FOR
SPEECH SYNTHESIS” in Proc. ICASSP 2019.
[Wang+ ‘19] S. Wang et al., “NEURAL SOURCE-FILTER-BASEDWAVEFORM MODEL FOR STATISTICAL
PARAMETRIC SPEECH SYNTHESIS,” in Proc. ICASSP 2019.
29
参考文献
[Desai+, ‘10] S. Desai et al., “Spectral mapping using artificial neural networks for voice conversion. IEEE
Transactions on Audio, Speech, and Language Processing,” 18(5), 954-964, 2010.
[Sun+, ‘16] L. Sun et al., “Phonetic posteriorgrams for many-to-one voice conversion without parallel data
training,” in Proc ICME, 2016.
[Kaneko+, ‘16] T. Kaneko et al., “CycleGAN-VC Parallel-Data-Free Voice Conversion Using
Cycle-Consistent Adversarial Networks,” in Proc. EUSIPCO 2016.
[Saito+, ‘18] Y. Saito et al., “Non-parallel voice conversion using variational autoencoders conditioned by
phonetic posteriorgrams and d-vectors,” in Proc. ICASSP, 2018.
[Kameoka+, ‘18] H. Kameoka et al., “StarGAN-VC Non-parallel many-to-many voice conversion with star
generatiave adversarial networks,” arXiv preprint, arXiv:1806.02169,, 2018.
[Miyoshi+, ‘17] H. Miyoshi et al., “Voice Conversion Using Sequence-to-Sequence Learning of Context
Posterior Probabilities,” in Proc INTERSPEECH 2017.
[Polyak+ ‘19] A. Polyak et al., “Attention-Based WaveNet Autoencoder for Universal Voice Conversion”, in
Proc. ICASSP, 2019.
[Tobing+, ‘19] P. Lumban Tobing, “VOICE CONVERSION WITH CYCLIC RECURRENT NEURAL
NETWORK AND FINE-TUNED WAVENET VOCODER,” in Proc. ICASSP, 2019.
[Tanaka+, ‘19] K. Tanaka et al., “ATTS2S-VC: SEQUENCE-TO-SEQUENCE VOICE CONVERSION WITH
ATTENTION AND CONTEXT PRESERVATION MECHANISMS, ” in Proc. ICASSP, 2019.
[Zhang+, ‘19] J. Zhang et al., “IMPROVING SEQUENCE-TO-SEQUENCE VOICE CONVERSION BY
ADDING TEXT-SUPERVISION,” in Proc. ICASSP, 2019.
30

More Related Content

What's hot

音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3Naoya Takahashi
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
 
saito2017asj_tts
saito2017asj_ttssaito2017asj_tts
saito2017asj_ttsYuki Saito
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentationYuki Saito
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向Yuma Koizumi
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成Shinnosuke Takamichi
 
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII
 
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムShinnosuke Takamichi
 
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATIONTEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATIONRyoAIHARA1
 
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出Tomoki Hayashi
 
SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習SSII
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Shinnosuke Takamichi
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~Yui Sudo
 
ICASSP2019論文読み会_PHASEBOOK
ICASSP2019論文読み会_PHASEBOOKICASSP2019論文読み会_PHASEBOOK
ICASSP2019論文読み会_PHASEBOOKAtsushi_Ando
 
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用Shinnosuke Takamichi
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Yuki Okamoto
 
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会S_aiueo32
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成Yoshitaka Ushiku
 

What's hot (20)

音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
 
Saito17asjA
Saito17asjASaito17asjA
Saito17asjA
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
saito2017asj_tts
saito2017asj_ttssaito2017asj_tts
saito2017asj_tts
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
 
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
 
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
 
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATIONTEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
 
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
 
Saito18asj_s
Saito18asj_sSaito18asj_s
Saito18asj_s
 
SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
 
ICASSP2019論文読み会_PHASEBOOK
ICASSP2019論文読み会_PHASEBOOKICASSP2019論文読み会_PHASEBOOK
ICASSP2019論文読み会_PHASEBOOK
 
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
 
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成
 

Similar to ICASSP2019 音声&音響読み会 テーマ発表音声生成

深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術NU_I_TODALAB
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告Shinnosuke Takamichi
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用NU_I_TODALAB
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離NU_I_TODALAB
 
[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...
[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...
[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...Deep Learning JP
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNAYuki Saito
 
音声合成の今昔と深層学習を用いた音声合成
音声合成の今昔と深層学習を用いた音声合成音声合成の今昔と深層学習を用いた音声合成
音声合成の今昔と深層学習を用いた音声合成Genki Ishibashi
 
ICST 2017の歩き方 -歴史、開催概要、聴きどころ、Who's Who ・・ -
ICST 2017の歩き方 -歴史、開催概要、聴きどころ、Who's Who ・・ -ICST 2017の歩き方 -歴史、開催概要、聴きどころ、Who's Who ・・ -
ICST 2017の歩き方 -歴史、開催概要、聴きどころ、Who's Who ・・ -Keizo Tatsumi
 

Similar to ICASSP2019 音声&音響読み会 テーマ発表音声生成 (9)

深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
 
[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...
[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...
[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
 
Saito18sp03
Saito18sp03Saito18sp03
Saito18sp03
 
音声合成の今昔と深層学習を用いた音声合成
音声合成の今昔と深層学習を用いた音声合成音声合成の今昔と深層学習を用いた音声合成
音声合成の今昔と深層学習を用いた音声合成
 
ICST 2017の歩き方 -歴史、開催概要、聴きどころ、Who's Who ・・ -
ICST 2017の歩き方 -歴史、開催概要、聴きどころ、Who's Who ・・ -ICST 2017の歩き方 -歴史、開催概要、聴きどころ、Who's Who ・・ -
ICST 2017の歩き方 -歴史、開催概要、聴きどころ、Who's Who ・・ -
 

ICASSP2019 音声&音響読み会 テーマ発表音声生成