Submit Search
Upload
音声合成のコーパスをつくろう
•
3 likes
•
9,659 views
Shinnosuke Takamichi
Follow
Tokyo BISH Bash #05
Read less
Read more
Technology
Slideshow view
Report
Share
Slideshow view
Report
Share
1 of 20
Download now
Download to read offline
Recommended
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
YosukeKashiwagi1
音声認識と深層学習
音声認識と深層学習
Preferred Networks
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
Deep Learning JP
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方
Shinagawa Seitaro
Recommended
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
YosukeKashiwagi1
音声認識と深層学習
音声認識と深層学習
Preferred Networks
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
Deep Learning JP
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方
Shinagawa Seitaro
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
NU_I_TODALAB
研究発表のためのプレゼンテーション技術
研究発表のためのプレゼンテーション技術
Shinnosuke Takamichi
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
Deep Learning JP
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
Satoshi Hara
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森
Masashi Komori
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
GAN(と強化学習との関係)
GAN(と強化学習との関係)
Masahiro Suzuki
[チュートリアル講演] 音声波形直接生成モデル「ニューラルボコーダ」の比較
[チュートリアル講演] 音声波形直接生成モデル「ニューラルボコーダ」の比較
Takuma_OKAMOTO
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm
モデル高速化百選
モデル高速化百選
Yusuke Uchida
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
生成モデルの Deep Learning
生成モデルの Deep Learning
Seiya Tokui
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
More Related Content
What's hot
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
NU_I_TODALAB
研究発表のためのプレゼンテーション技術
研究発表のためのプレゼンテーション技術
Shinnosuke Takamichi
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
Deep Learning JP
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
Satoshi Hara
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森
Masashi Komori
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
GAN(と強化学習との関係)
GAN(と強化学習との関係)
Masahiro Suzuki
[チュートリアル講演] 音声波形直接生成モデル「ニューラルボコーダ」の比較
[チュートリアル講演] 音声波形直接生成モデル「ニューラルボコーダ」の比較
Takuma_OKAMOTO
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm
モデル高速化百選
モデル高速化百選
Yusuke Uchida
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
生成モデルの Deep Learning
生成モデルの Deep Learning
Seiya Tokui
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki
What's hot
(20)
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
研究発表のためのプレゼンテーション技術
研究発表のためのプレゼンテーション技術
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
全力解説!Transformer
全力解説!Transformer
社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
GAN(と強化学習との関係)
GAN(と強化学習との関係)
[チュートリアル講演] 音声波形直接生成モデル「ニューラルボコーダ」の比較
[チュートリアル講演] 音声波形直接生成モデル「ニューラルボコーダ」の比較
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
モデル高速化百選
モデル高速化百選
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
生成モデルの Deep Learning
生成モデルの Deep Learning
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
深層生成モデルと世界モデル
深層生成モデルと世界モデル
More from Shinnosuke Takamichi
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
Shinnosuke Takamichi
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
Shinnosuke Takamichi
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
Shinnosuke Takamichi
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
Shinnosuke Takamichi
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
Shinnosuke Takamichi
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
Shinnosuke Takamichi
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
Shinnosuke Takamichi
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
Shinnosuke Takamichi
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Shinnosuke Takamichi
More from Shinnosuke Takamichi
(20)
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Recently uploaded
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
Recently uploaded
(9)
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
音声合成のコーパスをつくろう
1.
AVATAR SYMBIOTIC SOCIETY 音声合成のコーパスをつくろう 高道 慎之介
(東京大学) Tokyo BISH Bash #05
2.
AVATAR SYMBIOTIC SOCIETY 自己紹介 • 名前 •
高道 慎之介 (たかみち しんのすけ) • • 現職 • 東京大学 助教 • • 経歴 • 熊本高専 → 長岡技大 → NAIST • • 専門 • 音声{信号,情報}処理 2
3.
AVATAR SYMBIOTIC SOCIETY 最近は,人間と音声合成技術の融合が好き 自然に間違う音声・歌声合成 [Tamaru20] “自分で聞く自分の声
”をキャラに変えると そのキャラの演技がうまくなる [Kurata21] 人間を騙して学習される “人間GAN” [Ueda21] リアルタイムなりきり ボイスチェンジャー [Arakawa19] * 演出の都合上,意図的に遅延させています. 最新版[Saeki21]は48kHz, 20msec遅延で変換 3
4.
AVATAR SYMBIOTIC SOCIETY 色んなコーパスを作って公開してきました (コーパス =
音声データベース) JSUT (音声合成) JSUT-song (歌声合成) JVS (多話者 音声変換) JVS-MuSiC (多歌唱者 歌声合成) PJS (音声歌声 変換) JSSS (多タスク 音声合成) 北岡 他: “フォトリアルCGエー ジェントとの マルチモーダル対 話システムの構築,” 音響学会 春, 2021. (事前学習に利用) https://twitter.com/SHA CHI_NEUTRINO/status /127207370729745203 2?s=20 https://twitter.com/hiho_karuta /status/122826647470951219 4?s=20 https://github.com/espnet/espnet 2017 2018 2019 2020 音声処理オープンソース ESPnet CGエージェント SAYA 歌声合成エンジン NEUTRINO ボイスチェンジャー Seiren Voice 4
5.
AVATAR SYMBIOTIC SOCIETY コーパスを作って公開する理由(表) • 新規勢の参入障壁を下げる •
新規勢の増えない文化は衰退して巨大勢力に淘汰される • • 歴史を残す • 音声は歴史のスナップショット • • 研究と産業の両方に貢献できる • コーパスを売って新しいコーパスを作る • • 次の音声合成の種になるために • 転移学習など 5
6.
AVATAR SYMBIOTIC SOCIETY コーパスを作って公開する理由(裏) • 研究グループの知名度を上げたかった •
D修了1年目(当時)で,グループは教員1人+学生1人だけだった • • 研究予算ほしい • アカポス着任1年目あるある • • 深層学習競争めんどい • 優秀な人がなんとかしてくれる.若者はいつも優秀. • • 収録たのしい! • あとで収録エッセンスを少し共有します 6
7.
AVATAR SYMBIOTIC SOCIETY 世界と日本のコーパス事情 7
8.
AVATAR SYMBIOTIC SOCIETY 世界のコーパス事情: 人類の共有資源としての音声コーパスへ https://commonvoice.mozilla.org/ja http://festvox.org/cmu_wilderness/map.html Common
Voice 誰でも使えるように声を寄贈 CMU Wilderness Corpus 世界700言語の音声コーパス 8
9.
AVATAR SYMBIOTIC SOCIETY 世界の音声合成コーパス事情: 最近の国際会議では 9 コーパス名 言語
サイズ[時間] LibriTTS [Zen19] 英語 585 (多話者) Hi-Fi TTS [Bakhturina21] 英語 292 (多話者) CSMSC [China17] 中国語 12 DiDiSpeech [Guo21] 中国語 800 (多話者) RUSLAN [Gabdrakhmanov19] ロシア語 31 IndicSpeech [Srivastava20] ベンガル語など 22 KSS dataset [Park20] 韓国語 12 この2~3年で,主要言語の音声合成コーパスがだいぶ整備されてきた
10.
AVATAR SYMBIOTIC SOCIETY 日本のコーパス事情: キャラボイス関連 つくよみちゃんさんら有志による キャラボイス読み上げ https://tyc.rei-yumesaki.net/material/corpus/ 明治大学 森勢先生らによる 歌声合成と歌声コーパスの民主化 https://www.dtmstation.com/archives/34636.html 10
11.
AVATAR SYMBIOTIC SOCIETY 日本のコーパス事情 最近の国内会議では 11 コーパス名 ドメイン
サイズ[時間] JSUT [Sonobe17] 話声 10 JVS [Takamichi19] 話声 30 (多話者) ITA [Koguchi21] 話声 0.5 JSUT-song [Takamichi18] 歌声 0.5 LJSong [Fujimura21] 歌声 5 PJS [Koguchi20] 歌声 0.5 国内だと,東京大学,東北大学,明治大学あたりが頑張っている
12.
AVATAR SYMBIOTIC SOCIETY 自前のコーパスをつくりたい! 12
13.
AVATAR SYMBIOTIC SOCIETY 音声コーパスを作ろう • タスクによってコーパスの条件が違う
(将来的には共通になる) • 音声認識 … 少人数より多人数,クリーン環境より実環境 • 音声合成 … 多人数より少人数,実環境よりクリーン環境 • • 必要な役割 • 前準備:設計者 • 音声収録:話者,音響エンジニア,音響監督 • 後処理:アノテータ • • 音声収録は,基本的にプロに依頼したほうが良いです • プロはすごい.自分でやると質の悪さに絶望する. • 音声収録の基本技術は本を参考にして下さい • アナウンス教本やPA技術書など 13
14.
AVATAR SYMBIOTIC SOCIETY 朗読内容を決めよう • 設計者として •
誰がどんなスタイルで読む? • ある意味で一番大事 • 一昔前より,話者の声色と音声技術の相性問題はだいぶ緩和 • • 何のテキストをどれくらい読む? • 10分前後 … ちょっと少なめ (すごい転移学習が必要) • 1時間 … いい感じ (ふつうの転移学習が必要) • 10時間 … すごい (転移学習なしでもイケる) • • 既存のテキスト (多いほど良い) • 声優統計コーパス100文 … 15分前後 • ITAコーパス330文 … 30分前後 • JSUTコーパス basic5000 … 6時間 ● 参考:日本語の話速はひらがな 5~7文字/秒 ● JSUTコーパスなどでモデルを事前学習する前提 14
15.
AVATAR SYMBIOTIC SOCIETY 録音しよう • 話者として •
求められている内容に即して発話することが大事 • リップノイズ,ポップノイズ,椅子の音などを避ける • • 音響エンジニアとして • コンデンサマイク (1~3万円で十分),オーディオインターフェース • 騒音源の除去,遮音材の設置 • 動作させると騒音源になるものもあるので注意 (PCとか) • • 音響監督として • 発音やアクセントは正しい? • NHKアクセント新辞典は必需品 • 1日4時間収録,1時間に10分休憩,録れ高は収録時間の⅛ ~ ¼前後 • 例: JSUT (素人10時間) を週2.5日ペースで収録すると8週間 15
16.
AVATAR SYMBIOTIC SOCIETY 宣伝 (これが初出) 16
17.
AVATAR SYMBIOTIC SOCIETY 本が出ます Pythonで学ぶ 音声合成 山本 龍一
(LINE) 高道 慎之介 (東大) Coming soon... https://www.amazon.co.jp/dp/B0 94WX3BKW https://www.amazon.co.jp/dp/B0 8GLDRSYR 17 近々発売される(はず)
18.
AVATAR SYMBIOTIC SOCIETY コーパスも出ます 18 JMD (多方言 音声合成) J-KAC (オーディオ ブック) Coming soon JSSS (多タスク 音声合成) 〜2020 Coming soon Coming soon 2021/06 2021/07 2021/06
2021/08? 2021/10? 研究者のみ 研究者のみ (同梱内容の都合で) 一般公開 (随時追加予定) 一般公開 一般公開 熊本弁:なっだけスマートフォン いっちょで身ん回りば全部 かじめようとしとっとだろ 大阪弁:できるだけスマートフォン ひとつで身の回りのことみんな 片付けようとしてるみたいやで. 画像 宮沢 賢治・茂田井 武 福音館書店 セロひきのゴーシュ 音声 構造化文章
19.
AVATAR SYMBIOTIC SOCIETY まとめ 19
20.
AVATAR SYMBIOTIC SOCIETY まとめ • 音声コーパス作りは楽しい! •
作るのも楽しい • 公開して他人が使っているのを見るのも楽しい • • どんどん公開しよう! • 個人情報保護法と著作権法に気をつけて. 20
Download now