音声合成のコーパスをつくろう

AVATAR SYMBIOTIC
SOCIETY
音声合成のコーパスをつくろう
高道慎之介 (東京大学)
Tokyo BISH Bash #05

AVATAR SYMBIOTIC
SOCIETY
自己紹介
• 名前
• 高道慎之介 (たかみちしんのすけ)
•
• 現職
• 東京大学助教
• 　
• 経歴
• 熊本高専 → 長岡技大 → NAIST
•
• 専門
• 音声{信号，情報}処理
2

AVATAR SYMBIOTIC
SOCIETY
最近は，人間と音声合成技術の融合が好き
自然に間違う音声・歌声合成 [Tamaru20]
“自分で聞く自分の声 ”をキャラに変えると
そのキャラの演技がうまくなる [Kurata21]
人間を騙して学習される “人間GAN” [Ueda21]
リアルタイムなりきり
ボイスチェンジャー [Arakawa19]
* 演出の都合上，意図的に遅延させています．
最新版[Saeki21]は48kHz, 20msec遅延で変換
3

AVATAR SYMBIOTIC
SOCIETY
色んなコーパスを作って公開してきました
（コーパス＝音声データベース）
JSUT
(音声合成)
JSUT-song
(歌声合成)
JVS
(多話者
音声変換)
JVS-MuSiC
(多歌唱者
歌声合成)
PJS
(音声歌声
変換)
JSSS
(多タスク
音声合成)
北岡他： “フォトリアルCGエー
ジェントとのマルチモーダル対
話システムの構築,” 音響学会
春, 2021.
(事前学習に利用)
https://twitter.com/SHA
CHI_NEUTRINO/status
/127207370729745203
2?s=20
https://twitter.com/hiho_karuta
/status/122826647470951219
4?s=20
https://github.com/espnet/espnet
2017 2018 2019 2020
音声処理オープンソース
ESPnet
CGエージェント
SAYA
歌声合成エンジン
NEUTRINO
ボイスチェンジャー
Seiren Voice
4

AVATAR SYMBIOTIC
SOCIETY
コーパスを作って公開する理由（表）
• 新規勢の参入障壁を下げる
• 新規勢の増えない文化は衰退して巨大勢力に淘汰される
• 　
• 歴史を残す
• 音声は歴史のスナップショット
• 　　
• 研究と産業の両方に貢献できる
• コーパスを売って新しいコーパスを作る
• 　
• 次の音声合成の種になるために
• 転移学習など
5

AVATAR SYMBIOTIC
SOCIETY
コーパスを作って公開する理由（裏）
• 研究グループの知名度を上げたかった
• D修了1年目(当時)で，グループは教員1人＋学生１人だけだった
• 　
• 研究予算ほしい
• アカポス着任1年目あるある
•
• 深層学習競争めんどい
• 優秀な人がなんとかしてくれる．若者はいつも優秀．
• 　
• 収録たのしい！
• あとで収録エッセンスを少し共有します
6

AVATAR SYMBIOTIC
SOCIETY
世界と日本のコーパス事情
7

AVATAR SYMBIOTIC
SOCIETY
世界のコーパス事情：
人類の共有資源としての音声コーパスへ
https://commonvoice.mozilla.org/ja http://festvox.org/cmu_wilderness/map.html
Common Voice
誰でも使えるように声を寄贈
CMU Wilderness Corpus
世界700言語の音声コーパス
8

AVATAR SYMBIOTIC
SOCIETY
世界の音声合成コーパス事情：
最近の国際会議では
9
コーパス名言語サイズ[時間]
LibriTTS [Zen19] 英語 585 (多話者)
Hi-Fi TTS [Bakhturina21] 英語 292 (多話者)
CSMSC [China17] 中国語 12
DiDiSpeech [Guo21] 中国語 800 (多話者)
RUSLAN [Gabdrakhmanov19] ロシア語 31
IndicSpeech [Srivastava20] ベンガル語など 22
KSS dataset [Park20] 韓国語 12
この2~3年で，主要言語の音声合成コーパスがだいぶ整備されてきた

AVATAR SYMBIOTIC
SOCIETY
日本のコーパス事情：
キャラボイス関連
つくよみちゃんさんら有志による
キャラボイス読み上げ
https://tyc.rei-yumesaki.net/material/corpus/
明治大学森勢先生らによる
歌声合成と歌声コーパスの民主化
https://www.dtmstation.com/archives/34636.html
10

AVATAR SYMBIOTIC
SOCIETY
日本のコーパス事情
最近の国内会議では
11
コーパス名ドメインサイズ[時間]
JSUT [Sonobe17] 話声 10
JVS [Takamichi19] 話声 30 (多話者)
ITA [Koguchi21] 話声 0.5
JSUT-song [Takamichi18] 歌声 0.5
LJSong [Fujimura21] 歌声 5
PJS [Koguchi20] 歌声 0.5
国内だと，東京大学，東北大学，明治大学あたりが頑張っている

AVATAR SYMBIOTIC
SOCIETY
自前のコーパスをつくりたい！
12

AVATAR SYMBIOTIC
SOCIETY
音声コーパスを作ろう
• タスクによってコーパスの条件が違う (将来的には共通になる)
• 音声認識 … 少人数より多人数，クリーン環境より実環境
• 音声合成 … 多人数より少人数，実環境よりクリーン環境
•
• 必要な役割
• 前準備：設計者
• 音声収録：話者，音響エンジニア，音響監督
• 後処理：アノテータ
•
• 音声収録は，基本的にプロに依頼したほうが良いです
• プロはすごい．自分でやると質の悪さに絶望する．
• 音声収録の基本技術は本を参考にして下さい
• アナウンス教本やPA技術書など
13

AVATAR SYMBIOTIC
SOCIETY
朗読内容を決めよう
• 設計者として
• 誰がどんなスタイルで読む？
• ある意味で一番大事
• 一昔前より，話者の声色と音声技術の相性問題はだいぶ緩和
• 　
• 何のテキストをどれくらい読む？
• 10分前後 … ちょっと少なめ (すごい転移学習が必要)
• 1時間 … いい感じ (ふつうの転移学習が必要)
• 10時間 … すごい (転移学習なしでもイケる)
•
• 既存のテキスト (多いほど良い)
• 声優統計コーパス100文 … 15分前後
• ITAコーパス330文 … 30分前後
• JSUTコーパス basic5000 … 6時間
● 参考：日本語の話速はひらがな 5~7文字／秒
● JSUTコーパスなどでモデルを事前学習する前提
14

AVATAR SYMBIOTIC
SOCIETY
録音しよう
• 話者として
• 求められている内容に即して発話することが大事
• リップノイズ，ポップノイズ，椅子の音などを避ける
• 　
• 音響エンジニアとして
• コンデンサマイク (1~3万円で十分)，オーディオインターフェース
• 騒音源の除去，遮音材の設置
• 動作させると騒音源になるものもあるので注意 (PCとか)
• 　
• 音響監督として
• 発音やアクセントは正しい？
• NHKアクセント新辞典は必需品
• 1日4時間収録，1時間に10分休憩，録れ高は収録時間の⅛ ~ ¼前後
• 例： JSUT (素人10時間) を週2.5日ペースで収録すると8週間
15

AVATAR SYMBIOTIC
SOCIETY
宣伝 (これが初出)
16

AVATAR SYMBIOTIC
SOCIETY
本が出ます
Pythonで学ぶ
音声合成
山本龍一 (LINE)
高道慎之介 (東大)
Coming soon...
https://www.amazon.co.jp/dp/B0
94WX3BKW
https://www.amazon.co.jp/dp/B0
8GLDRSYR
17
近々発売される(はず)

AVATAR SYMBIOTIC
SOCIETY
コーパスも出ます
18
JMD
(多方言
音声合成)
J-KAC
(オーディオ
ブック)
Coming
soon
JSSS
(多タスク
音声合成)
〜2020
Coming
soon
Coming
soon
2021/06 2021/07
2021/06 2021/08? 2021/10?
研究者のみ
研究者のみ (同梱内容の都合で)
一般公開 (随時追加予定)
一般公開一般公開
熊本弁：なっだけスマートフォン
いっちょで身ん回りば全部
かじめようとしとっとだろ
大阪弁：できるだけスマートフォン
ひとつで身の回りのことみんな
片付けようとしてるみたいやで．
画像
宮沢賢治・茂田井武
福音館書店セロひきのゴーシュ
音声
構造化文章

AVATAR SYMBIOTIC
SOCIETY
まとめ
19

AVATAR SYMBIOTIC
SOCIETY
まとめ
• 音声コーパス作りは楽しい！
• 作るのも楽しい
• 公開して他人が使っているのを見るのも楽しい
• 　
• どんどん公開しよう！
• 個人情報保護法と著作権法に気をつけて．
20

音声合成のコーパスをつくろう

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Shinnosuke Takamichi

More from Shinnosuke Takamichi (20)

Recently uploaded

Recently uploaded (9)

音声合成のコーパスをつくろう