SlideShare a Scribd company logo
1 of 13
Download to read offline
09/03/2019©Shinnosuke Takamichi,
The University of Tokyo
音声合成・変換の国際コンペティションへの
参加を振り返って
高道 慎之介
(東京大学 大学院情報理工学系研究科)
FIT2019 企画セッション「コンペの覇者」招待講演
/13
自己紹介
 名前
– 高道 慎之介 (たかみち しんのすけ)
 経歴
– 2009年 熊本電波高専 電子工学科 卒業 … 半導体など
– 2011年 長岡技科大 工学部 卒業 … 立体音響など
– 2016年 奈良先端大 博士課程 修了 … 音声合成など
– 2016年~ 東京大学 助教 (2018年まで特任助教)
 専門
– 統計的音声合成・変換など
2
/13
私が参加した国際コンペ
(学生時代の仕事ですが…)
3
テキスト音声合成の国際コンペ
Blizzard Challenge 2015
合成音声の自然性に関して世界最高スコア
音声変換の国際コンペ
Voice Conversion Challenge 2016
合成音声の話者再現度に関して世界最高スコア
正確には品質を競う「コンペ」ではなく
同じ学習データで作られたシステムを比較する「ワークショップ」
[Takamichi15]
[Kobayashi16]
/13
私の研究グループの目標
4
音声変換
音声合成
全ての人間・計算機が
身体・文化・時間を超えて
音声でコミュニケーション
できる社会を目指して
/13
DNN-based real-time voice conversion
5
https://www.youtube.com/watch?v=P9rGqoYnfCg
[Arakawa19]
リアルタイム (0.05sec) で特定の他者になれるボイスチェンジャ
更に… https://www.youtube.com/watch?v=vFSHxn_G2iQ
/13
Blizzard Challenge 2015 のタスク
6
https://www.synsig.org/index.php/Blizzard_Challenge_2015
インド6言語の音声合成.合成音声を提出して評価.
/13
Voice Conversion Challenge 2016 のタスク
7
http://vc-challenge.org/vcc2016/index.html
英語音声の変換.5×5話者の変換音声を提出して評価.
/13
変調スペクトル:両コンペで使用した手法
8
人間のような「声のゆらぎ」を再現すればいいんじゃね?
必ず同じ音を出そうとする
同じ音を出すのは無理(=声はゆらぐ!)
あーー
あーー
音声特徴量時系列のパワースペクトル
(=変調スペクトル)を補償すればよい!
[Takamichi16]
/13
音声サンプル
9
Language w/o MS w/ MS
Bengali
Hindi
Malayalam
Marathi
Tamil
Telugu
/13
感想
 良い点①:自分の実力を国際的に示すことができた
– D2~D3頃の成果だったので,就活やアカデミック活動に役立った
– 自分の国際的な位置を確かめられる
 良い点②:仮に上位になれなかったとしても失うものは無い
– 学生の特権.社会人になると(若干)参加しづらくなる
 大変だった点①:インドの言語が分からない
– 1週間くらい,wikipedia や辞書とにらめっこ
 大変だった点②:タスク選びは慎重に
– データ量とDNNでゴリ押しすれば勝ててしまうタスクもある
– 得られるものがあるかを事前に確かめて
10
/13
あの著者らは今 (当時は全員,奈良先端大)
11
高道 慎之介 (東京大学) 小林 和弘 (TARVO)
田中 宏 (NTT CS研) 戸田 智基 (名古屋大学)
http://www.kecl.ntt.co.jp/people/tanaka.ko/ https://sites.google.com/site/tomokitoda/ https://tarvo.co.jp
発声障害補助・音声信号処理の
研究に従事
音声合成変換・コミュニケー
ション拡張の研究に従事
音声・音楽・音環境情報処理の
研究に従事
リアルタイム変換に基づく
事業を展開
*VCC論文の
第一著者
*BC論文の
第一著者
/13
今すぐ始める音声合成・変換
 ツール:ESPnet
– End-to-End型音声処理のためのツールキット
– 最先端ニューラルネット (WaveNetなど) もある
 音声合成用データ:JSUTコーパス [Sonobe17]
– 単一話者による10時間日本語読み上げ音声
• WaveNet (2016) のデータ量に比肩
– End-to-end型音声合成でも動く [Ueno19]
– 60か国以上からダウンロード実績あり
 音声変換用データ:JVSコーパス [Takamichi19]
– 100名のプロ話者による100発話など
– 読み上げ音声・ささやき声・裏声
12
研究用の大規模・
高品質データを
誰でも利用可能
/13
まとめ
 音声合成・変換コンペの参加報告
 この数年で,音声研究への参入の壁がぐっと低くなった
– 私の参加した2015, 2016年頃は,音声工学的アプローチで勝てた
– 近年は,深層学習的アプローチが必須
 特に,学生さんのコンペ参加をお勧めします!
– ただし,タスク選びと色んなバランスは大事に…
13

More Related Content

What's hot

SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用Shinnosuke Takamichi
 
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?NU_I_TODALAB
 
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習Shinnosuke Takamichi
 
第6回理系Ao入試フォーラムスライド(竹松)
第6回理系Ao入試フォーラムスライド(竹松)第6回理系Ao入試フォーラムスライド(竹松)
第6回理系Ao入試フォーラムスライド(竹松)Kazutomo Takematsu
 
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”Shinnosuke Takamichi
 
Statistical Machine Translation Overview
Statistical Machine Translation OverviewStatistical Machine Translation Overview
Statistical Machine Translation OverviewHiroki Kawano
 
文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会Tomoyuki Kajiwara
 
eポートフォリオと電子バッジが問う“発信力”の定義 −プロジェクト発信型英語プログラム、9年間の試みから見えるもの−
eポートフォリオと電子バッジが問う“発信力”の定義 −プロジェクト発信型英語プログラム、9年間の試みから見えるもの−eポートフォリオと電子バッジが問う“発信力”の定義 −プロジェクト発信型英語プログラム、9年間の試みから見えるもの−
eポートフォリオと電子バッジが問う“発信力”の定義 −プロジェクト発信型英語プログラム、9年間の試みから見えるもの−Syuhei KIMURA
 
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”Shinnosuke Takamichi
 
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embeddingShinnosuke Takamichi
 
Acoustic Modeling using Deep Belief Networks
Acoustic Modeling using Deep Belief NetworksAcoustic Modeling using Deep Belief Networks
Acoustic Modeling using Deep Belief NetworksJunya Saito
 
コンピュータに「最長しりとり」「最短距離でのJR線全線乗り尽くし」を解いてもらった方法
コンピュータに「最長しりとり」「最短距離でのJR線全線乗り尽くし」を解いてもらった方法コンピュータに「最長しりとり」「最短距離でのJR線全線乗り尽くし」を解いてもらった方法
コンピュータに「最長しりとり」「最短距離でのJR線全線乗り尽くし」を解いてもらった方法Hiro H.
 
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)Kosuke Sugai
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調Yuma Koizumi
 
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...KoueiYamaoka
 
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...Akira Tamamori
 
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムShinnosuke Takamichi
 
Translation system Ernie
Translation system ErnieTranslation system Ernie
Translation system Ernieenkarz
 

What's hot (20)

SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
 
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?
 
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
 
第6回理系Ao入試フォーラムスライド(竹松)
第6回理系Ao入試フォーラムスライド(竹松)第6回理系Ao入試フォーラムスライド(竹松)
第6回理系Ao入試フォーラムスライド(竹松)
 
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
 
Statistical Machine Translation Overview
Statistical Machine Translation OverviewStatistical Machine Translation Overview
Statistical Machine Translation Overview
 
文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会
 
eポートフォリオと電子バッジが問う“発信力”の定義 −プロジェクト発信型英語プログラム、9年間の試みから見えるもの−
eポートフォリオと電子バッジが問う“発信力”の定義 −プロジェクト発信型英語プログラム、9年間の試みから見えるもの−eポートフォリオと電子バッジが問う“発信力”の定義 −プロジェクト発信型英語プログラム、9年間の試みから見えるもの−
eポートフォリオと電子バッジが問う“発信力”の定義 −プロジェクト発信型英語プログラム、9年間の試みから見えるもの−
 
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
 
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
 
Wikibana20100612
Wikibana20100612Wikibana20100612
Wikibana20100612
 
Acoustic Modeling using Deep Belief Networks
Acoustic Modeling using Deep Belief NetworksAcoustic Modeling using Deep Belief Networks
Acoustic Modeling using Deep Belief Networks
 
Sakai 20120414
Sakai 20120414Sakai 20120414
Sakai 20120414
 
コンピュータに「最長しりとり」「最短距離でのJR線全線乗り尽くし」を解いてもらった方法
コンピュータに「最長しりとり」「最短距離でのJR線全線乗り尽くし」を解いてもらった方法コンピュータに「最長しりとり」「最短距離でのJR線全線乗り尽くし」を解いてもらった方法
コンピュータに「最長しりとり」「最短距離でのJR線全線乗り尽くし」を解いてもらった方法
 
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
 
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
 
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
 
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
 
Translation system Ernie
Translation system ErnieTranslation system Ernie
Translation system Ernie
 

Similar to 音声合成・変換の国際コンペティションへの 参加を振り返って

高専カンファレンスについて @kosenconf-012hachinohe
高専カンファレンスについて @kosenconf-012hachinohe高専カンファレンスについて @kosenconf-012hachinohe
高専カンファレンスについて @kosenconf-012hachinoheKuniaki Igarashi
 
私がビギナーの頃を振り返って ~20代の代表として~
私がビギナーの頃を振り返って~20代の代表として~私がビギナーの頃を振り返って~20代の代表として~
私がビギナーの頃を振り返って ~20代の代表として~Shinnosuke Takamichi
 
サウンドとリフレーミング - 車輪の再発明からいつか音楽と呼ばれるものへ -
サウンドとリフレーミング  - 車輪の再発明からいつか音楽と呼ばれるものへ -サウンドとリフレーミング  - 車輪の再発明からいつか音楽と呼ばれるものへ -
サウンドとリフレーミング - 車輪の再発明からいつか音楽と呼ばれるものへ -jojporg
 
好きな活動から始めるイノベーションの種
好きな活動から始めるイノベーションの種好きな活動から始めるイノベーションの種
好きな活動から始めるイノベーションの種Junichi Akita
 
お茶の水女子大学附属高校「新教養基礎」での講演
お茶の水女子大学附属高校「新教養基礎」での講演お茶の水女子大学附属高校「新教養基礎」での講演
お茶の水女子大学附属高校「新教養基礎」での講演Takayuki Itoh
 
くらしの足からMaaSを捉えなおす イントロダクション
くらしの足からMaaSを捉えなおす イントロダクションくらしの足からMaaSを捉えなおす イントロダクション
くらしの足からMaaSを捉えなおす イントロダクションMasaki Ito
 
インターンシップ2012_10N1062_下田悠貴_RFC発表データ
インターンシップ2012_10N1062_下田悠貴_RFC発表データインターンシップ2012_10N1062_下田悠貴_RFC発表データ
インターンシップ2012_10N1062_下田悠貴_RFC発表データ10n1062
 
マイクロジオデータで見る東日本大震災被災地の変遷と将来への備え
マイクロジオデータで見る東日本大震災被災地の変遷と将来への備え マイクロジオデータで見る東日本大震災被災地の変遷と将来への備え
マイクロジオデータで見る東日本大震災被災地の変遷と将来への備え Yuki Akiyama
 
土屋先生の還暦を祝う会
土屋先生の還暦を祝う会土屋先生の還暦を祝う会
土屋先生の還暦を祝う会NPO CCC-TIES
 
111112 国の研修機関におけるqgis
111112 国の研修機関におけるqgis111112 国の研修機関におけるqgis
111112 国の研修機関におけるqgisgeo80k
 
Imagine Cupに参加しよう!
Imagine Cupに参加しよう!Imagine Cupに参加しよう!
Imagine Cupに参加しよう!MasakiTakeuchi6
 
研究大学の展望 地域イノベーションと大学の役割 三重大学における事例と考察
研究大学の展望 地域イノベーションと大学の役割 三重大学における事例と考察研究大学の展望 地域イノベーションと大学の役割 三重大学における事例と考察
研究大学の展望 地域イノベーションと大学の役割 三重大学における事例と考察scirexcenter
 

Similar to 音声合成・変換の国際コンペティションへの 参加を振り返って (13)

高専カンファレンスについて @kosenconf-012hachinohe
高専カンファレンスについて @kosenconf-012hachinohe高専カンファレンスについて @kosenconf-012hachinohe
高専カンファレンスについて @kosenconf-012hachinohe
 
私がビギナーの頃を振り返って ~20代の代表として~
私がビギナーの頃を振り返って~20代の代表として~私がビギナーの頃を振り返って~20代の代表として~
私がビギナーの頃を振り返って ~20代の代表として~
 
サウンドとリフレーミング - 車輪の再発明からいつか音楽と呼ばれるものへ -
サウンドとリフレーミング  - 車輪の再発明からいつか音楽と呼ばれるものへ -サウンドとリフレーミング  - 車輪の再発明からいつか音楽と呼ばれるものへ -
サウンドとリフレーミング - 車輪の再発明からいつか音楽と呼ばれるものへ -
 
好きな活動から始めるイノベーションの種
好きな活動から始めるイノベーションの種好きな活動から始めるイノベーションの種
好きな活動から始めるイノベーションの種
 
お茶の水女子大学附属高校「新教養基礎」での講演
お茶の水女子大学附属高校「新教養基礎」での講演お茶の水女子大学附属高校「新教養基礎」での講演
お茶の水女子大学附属高校「新教養基礎」での講演
 
くらしの足からMaaSを捉えなおす イントロダクション
くらしの足からMaaSを捉えなおす イントロダクションくらしの足からMaaSを捉えなおす イントロダクション
くらしの足からMaaSを捉えなおす イントロダクション
 
インターンシップ2012_10N1062_下田悠貴_RFC発表データ
インターンシップ2012_10N1062_下田悠貴_RFC発表データインターンシップ2012_10N1062_下田悠貴_RFC発表データ
インターンシップ2012_10N1062_下田悠貴_RFC発表データ
 
マイクロジオデータで見る東日本大震災被災地の変遷と将来への備え
マイクロジオデータで見る東日本大震災被災地の変遷と将来への備え マイクロジオデータで見る東日本大震災被災地の変遷と将来への備え
マイクロジオデータで見る東日本大震災被災地の変遷と将来への備え
 
01 yamashita
01 yamashita01 yamashita
01 yamashita
 
土屋先生の還暦を祝う会
土屋先生の還暦を祝う会土屋先生の還暦を祝う会
土屋先生の還暦を祝う会
 
111112 国の研修機関におけるqgis
111112 国の研修機関におけるqgis111112 国の研修機関におけるqgis
111112 国の研修機関におけるqgis
 
Imagine Cupに参加しよう!
Imagine Cupに参加しよう!Imagine Cupに参加しよう!
Imagine Cupに参加しよう!
 
研究大学の展望 地域イノベーションと大学の役割 三重大学における事例と考察
研究大学の展望 地域イノベーションと大学の役割 三重大学における事例と考察研究大学の展望 地域イノベーションと大学の役割 三重大学における事例と考察
研究大学の展望 地域イノベーションと大学の役割 三重大学における事例と考察
 

More from Shinnosuke Takamichi

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパスShinnosuke Takamichi
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろうShinnosuke Takamichi
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスShinnosuke Takamichi
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討Shinnosuke Takamichi
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法Shinnosuke Takamichi
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告Shinnosuke Takamichi
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...Shinnosuke Takamichi
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価Shinnosuke Takamichi
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスShinnosuke Takamichi
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価Shinnosuke Takamichi
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamformingShinnosuke Takamichi
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech CorpusShinnosuke Takamichi
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource LanguagesShinnosuke Takamichi
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価Shinnosuke Takamichi
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定Shinnosuke Takamichi
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingShinnosuke Takamichi
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割Shinnosuke Takamichi
 
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調Shinnosuke Takamichi
 
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習Shinnosuke Takamichi
 
外国人留学生日本語の音声合成における 話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における 話者性を保持した韻律補正Shinnosuke Takamichi
 

More from Shinnosuke Takamichi (20)

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
 
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
 
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
 
外国人留学生日本語の音声合成における 話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における 話者性を保持した韻律補正
 

音声合成・変換の国際コンペティションへの 参加を振り返って