More Related Content
More from Shinnosuke Takamichi
More from Shinnosuke Takamichi (20)
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
- 1. 日本語オーディオブック・
紙芝居朗読音声コーパス
(東京大学 高道慎之介)
概要
● 音声合成の難タスクを整備
● 感情豊かなコーパスを作成
● 無償で公開中
内容物
● 小説25作品・紙芝居17作品
● 声優による音声9時間
● 刊行物の挿絵・平絵画像
評価
● 音声合成モデルを学習
● 文章構造を利用して音質改善
展望
● 言語理解に基づく音声合成
● 画像理解に基づく音声合成
● 音声理解に基づく画像合成
概要
● 高難易度な音声合成タスクとコーパスを整備したい
○ 普通の短文読み上げ音声は十分に高品質化した
○ タスクを定め,誰でも使えるコーパスを提供したい
○
● オーディオブック音声合成
○ 多様な感情,キャラクタ,情景
○ 短文読み上げよりも深い言語理解が必要
○
● J-KAC (Japanese Kamishibai and audiobook corpus)
○ 小説25作品,紙芝居17作品
○ 章・節・段落などに構造化されたテキスト
○ 男性声優1名による9時間の音声
■ オーディオブック音声合成の国際コンペの量と同程度
○ 刊行物の挿絵・平絵
○ 無償で公開中 (リンクは論文を参照)
- 2. 日本語オーディオブック・
紙芝居朗読音声コーパス
(東京大学 高道慎之介)
概要
● 音声合成の難タスクを整備
● 感情豊かなコーパスを作成
● 無償で公開中
内容物
● 小説25作品・紙芝居17作品
● 声優による音声9時間
● 刊行物の挿絵・平絵画像
評価
● 音声合成モデルを学習
● 文章構造を利用して音質改善
展望
● 言語理解に基づく音声合成
● 画像理解に基づく音声合成
● 音声理解に基づく画像合成
内容物
● 作品の選定 (抜粋)
○ 文と絵の著作権が消滅した小説
(左表) … 青空文庫など
○ 著作権の存続している紙芝居(右表) … 著者の許諾を得て利用
● 音声収録と後処理
○ 文章を章・段落などに構造化
○ 再帰CTCセグメンテーションで文
アライメントを獲得
● 挿絵・平絵
○ キャラクタや情景の画像
○ 著者と出版社の許諾のもとで
スキャンしてディジタル化
著者 (文・絵) タイトル
田中六大 むしにごようじん
大島妙子 おばけいぬの おハナちゃん
ようふゆか ありくんとかえるくん
著者 (文) タイトル
新美南吉 ごん狐
楠山正雄 花咲かじじい
太宰治 桜桃
chapt000: # 章
parag000: # 段落
style000: # 文種
sent: ある日の事でございます。
time: [0.96, 3.32] # 開始終了時刻
[蜘蛛の糸.yaml (芥川龍之介)] 宮沢 賢治(作)
茂田井 武(絵)
福音館書店(刊)
“セロひきのゴーシュ”
終盤の演奏場面
- 3. 日本語オーディオブック・
紙芝居朗読音声コーパス
(東京大学 高道慎之介)
概要
● 音声合成の難タスクを整備
● 感情豊かなコーパスを作成
● 無償で公開中
内容物
● 小説25作品・紙芝居17作品
● 声優による音声9時間
● 刊行物の挿絵・平絵画像
評価
● 音声合成モデルを学習
● 文章構造を利用して音質改善
展望
● 言語理解に基づく音声合成
● 画像理解に基づく音声合成
● 音声理解に基づく画像合成
評価
● コーパスで音声合成モデルを学習して評価
○ 構造化テキストで得られる隣接文は,音声合成に有効か?
○ 言語モデルBERT [Devlin19] &音声合成モデルTacotron2 [Shen18]
■ 詳細は既発表原稿[中田21] と本原稿参照
当該文だけを使って音声合成 隣接文も使って音声合成
0.302 vs 0.698
(朗読としての適切さに関するプリファレンス ABテスト.40名が参加)
- 4. 日本語オーディオブック・
紙芝居朗読音声コーパス
(東京大学 高道慎之介)
概要
● 音声合成の難タスクを整備
● 感情豊かなコーパスを作成
● 無償で公開中
内容物
● 小説25作品・紙芝居17作品
● 声優による音声9時間
● 刊行物の挿絵・平絵画像
評価
● 音声合成モデルを学習
● 文章構造を利用して音質改善
展望
● 言語理解に基づく音声合成
● 画像理解に基づく音声合成
● 音声理解に基づく画像合成
展望
● 言語理解に基づく音声合成
○ 物語の文脈を理解して音声に反映?
○ 文章からキャラクタ,感情,情景を推定
○
● 画像理解に基づく音声合成
○ 画像で人物や情景情報を補助?
○ 例:“セロひきのゴーシュ”の演奏会の画像を見ると
我々は観客の規模と声援を想像できる
○
● 音声言語理解に基づく画像合成
○ 合成音声に同期して絵を動かす?
○ 例:演奏シーンに同期して,画像のゴーシュ
(演奏者)を動かす?