J-KAC：日本語オーディオブック・紙芝居朗読音声コーパス

•

0 likes•759 views

Shinnosuke Takamichi

音学シンポジウム2021

Technology

日本語オーディオブック・
紙芝居朗読音声コーパス
(東京大学高道慎之介)
概要
● 音声合成の難タスクを整備
● 感情豊かなコーパスを作成
● 無償で公開中
内容物
● 小説25作品・紙芝居17作品
● 声優による音声9時間
● 刊行物の挿絵・平絵画像
評価
● 音声合成モデルを学習
● 文章構造を利用して音質改善
展望
● 言語理解に基づく音声合成
● 画像理解に基づく音声合成
● 音声理解に基づく画像合成
概要
● 高難易度な音声合成タスクとコーパスを整備したい
○ 普通の短文読み上げ音声は十分に高品質化した
○ タスクを定め，誰でも使えるコーパスを提供したい
○ 　
● オーディオブック音声合成
○ 多様な感情，キャラクタ，情景
○ 短文読み上げよりも深い言語理解が必要
○ 　
● J-KAC (Japanese Kamishibai and audiobook corpus)
○ 小説25作品，紙芝居17作品
○ 章・節・段落などに構造化されたテキスト
○ 男性声優1名による9時間の音声
■ オーディオブック音声合成の国際コンペの量と同程度
○ 刊行物の挿絵・平絵
○ 無償で公開中 (リンクは論文を参照)

What's hot

音声感情認識の分野動向と実用化に向けたNTTの取り組みAtsushi_Ando

深層学習を利用した音声強調Yuma Koizumi

雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習Shinnosuke Takamichi

複数話者WaveNetボコーダに関する調査Tomoki Hayashi

時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元NU_I_TODALAB

[DL輪読会]Inverse Constrained Reinforcement LearningDeep Learning JP

非負値行列因子分解を用いた被り音の抑圧Kitamura Laboratory

環境音の特徴を活用した音響イベント検出・シーン分類Keisuke Imoto

Noisy Labels と戦う深層学習Plot Hong

音声合成のコーパスをつくろうShinnosuke Takamichi

独立低ランク行列分析に基づく音源分離とその発展（Audio source separation based on independent low-rank...Daichi Kitamura

実環境音響信号処理における収音技術Yuma Koizumi

基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)Daichi Kitamura

GAN-based statistical speech synthesis (in Japanese)Yuki Saito

論文紹介 wav2vec: Unsupervised Pre-training for Speech RecognitionYosukeKashiwagi1

深層学習を用いた音源定位、音源分離、クラス分類の統合～環境音セグメンテーション手法の紹介～Yui Sudo

[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...Deep Learning JP

Moment matching networkを用いた音声パラメータのランダム生成の検討Shinnosuke Takamichi

【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)Deep Learning JP

z変換をやさしく教えて下さい（音響学入門ペディア）Shinnosuke Takamichi

What's hot (20)

音声感情認識の分野動向と実用化に向けたNTTの取り組み

深層学習を利用した音声強調

雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習

複数話者WaveNetボコーダに関する調査

時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元

[DL輪読会]Inverse Constrained Reinforcement Learning

非負値行列因子分解を用いた被り音の抑圧

環境音の特徴を活用した音響イベント検出・シーン分類

Noisy Labels と戦う深層学習

音声合成のコーパスをつくろう

独立低ランク行列分析に基づく音源分離とその発展（Audio source separation based on independent low-rank...

実環境音響信号処理における収音技術

基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)

GAN-based statistical speech synthesis (in Japanese)

論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition

深層学習を用いた音源定位、音源分離、クラス分類の統合～環境音セグメンテーション手法の紹介～

[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...

Moment matching networkを用いた音声パラメータのランダム生成の検討

【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)

z変換をやさしく教えて下さい（音響学入門ペディア）

Recently uploaded

LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.

論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.

Observabilityは従来型の監視と何が違うのか（キンドリルジャパン社内勉強会：2022年10月27日発表）Hiroshi Tomioka

Amazon SES を勉強してみるその３2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.

NewSQLの可用性構成パターン（OCHaCafe Season 8 #4 発表資料）NTT DATA Technology & Innovation

Amazon SES を勉強してみるその２2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.

業務で生成AIを活用したい人のための生成AI入門講座（社外公開版：キンドリルジャパン社内勉強会：2024年4月発表）Hiroshi Tomioka

新人研修　後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.

論文紹介：Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki

論文紹介：Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki

Recently uploaded (11)

LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル

論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス

Observabilityは従来型の監視と何が違うのか（キンドリルジャパン社内勉強会：2022年10月27日発表）

Amazon SES を勉強してみるその３2024/04/26の勉強会で発表されたものです。

NewSQLの可用性構成パターン（OCHaCafe Season 8 #4 発表資料）

Amazon SES を勉強してみるその２2024/04/26の勉強会で発表されたものです。

業務で生成AIを活用したい人のための生成AI入門講座（社外公開版：キンドリルジャパン社内勉強会：2024年4月発表）

新人研修　後半 2024/04/26の勉強会で発表されたものです。

論文紹介：Selective Structured State-Spaces for Long-Form Video Understanding

論文紹介：Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...

J-KAC：日本語オーディオブック・紙芝居朗読音声コーパス

1. 日本語オーディオブック・紙芝居朗読音声コーパス (東京大学高道慎之介) 概要 ● 音声合成の難タスクを整備 ● 感情豊かなコーパスを作成 ● 無償で公開中内容物 ● 小説25作品・紙芝居17作品 ● 声優による音声9時間 ● 刊行物の挿絵・平絵画像評価 ● 音声合成モデルを学習 ● 文章構造を利用して音質改善展望 ● 言語理解に基づく音声合成 ● 画像理解に基づく音声合成 ● 音声理解に基づく画像合成概要 ● 高難易度な音声合成タスクとコーパスを整備したい ○ 普通の短文読み上げ音声は十分に高品質化した ○ タスクを定め，誰でも使えるコーパスを提供したい ○ 　 ● オーディオブック音声合成 ○ 多様な感情，キャラクタ，情景 ○ 短文読み上げよりも深い言語理解が必要 ○ 　 ● J-KAC (Japanese Kamishibai and audiobook corpus) ○ 小説25作品，紙芝居17作品 ○ 章・節・段落などに構造化されたテキスト ○ 男性声優1名による9時間の音声 ■ オーディオブック音声合成の国際コンペの量と同程度 ○ 刊行物の挿絵・平絵 ○ 無償で公開中 (リンクは論文を参照)

2. 日本語オーディオブック・紙芝居朗読音声コーパス (東京大学高道慎之介) 概要 ● 音声合成の難タスクを整備 ● 感情豊かなコーパスを作成 ● 無償で公開中内容物 ● 小説25作品・紙芝居17作品 ● 声優による音声9時間 ● 刊行物の挿絵・平絵画像評価 ● 音声合成モデルを学習 ● 文章構造を利用して音質改善展望 ● 言語理解に基づく音声合成 ● 画像理解に基づく音声合成 ● 音声理解に基づく画像合成内容物 ● 作品の選定 (抜粋) ○ 文と絵の著作権が消滅した小説 (左表) … 青空文庫など ○ 著作権の存続している紙芝居(右表) … 著者の許諾を得て利用 ● 音声収録と後処理 ○ 文章を章・段落などに構造化 ○ 再帰CTCセグメンテーションで文アライメントを獲得 ● 挿絵・平絵 ○ キャラクタや情景の画像 ○ 著者と出版社の許諾のもとでスキャンしてディジタル化著者 (文・絵) タイトル田中六大むしにごようじん大島妙子おばけいぬのおハナちゃんようふゆかありくんとかえるくん著者 (文) タイトル新美南吉ごん狐楠山正雄花咲かじじい太宰治桜桃 chapt000: # 章　parag000: # 段落　　style000: # 文種　　　sent: ある日の事でございます。　　　　time: [0.96, 3.32] # 開始終了時刻 [蜘蛛の糸.yaml (芥川龍之介)] 宮沢賢治(作) 茂田井武(絵) 福音館書店(刊) “セロひきのゴーシュ” 終盤の演奏場面

3. 日本語オーディオブック・紙芝居朗読音声コーパス (東京大学高道慎之介) 概要 ● 音声合成の難タスクを整備 ● 感情豊かなコーパスを作成 ● 無償で公開中内容物 ● 小説25作品・紙芝居17作品 ● 声優による音声9時間 ● 刊行物の挿絵・平絵画像評価 ● 音声合成モデルを学習 ● 文章構造を利用して音質改善展望 ● 言語理解に基づく音声合成 ● 画像理解に基づく音声合成 ● 音声理解に基づく画像合成評価 ● コーパスで音声合成モデルを学習して評価 ○ 構造化テキストで得られる隣接文は，音声合成に有効か？ ○ 言語モデルBERT [Devlin19] ＆音声合成モデルTacotron2 [Shen18] ■ 詳細は既発表原稿[中田21] と本原稿参照当該文だけを使って音声合成隣接文も使って音声合成 0.302 vs 0.698 (朗読としての適切さに関するプリファレンス ABテスト．40名が参加)

4. 日本語オーディオブック・紙芝居朗読音声コーパス (東京大学高道慎之介) 概要 ● 音声合成の難タスクを整備 ● 感情豊かなコーパスを作成 ● 無償で公開中内容物 ● 小説25作品・紙芝居17作品 ● 声優による音声9時間 ● 刊行物の挿絵・平絵画像評価 ● 音声合成モデルを学習 ● 文章構造を利用して音質改善展望 ● 言語理解に基づく音声合成 ● 画像理解に基づく音声合成 ● 音声理解に基づく画像合成展望 ● 言語理解に基づく音声合成 ○ 物語の文脈を理解して音声に反映？ ○ 文章からキャラクタ，感情，情景を推定 ○ 　 ● 画像理解に基づく音声合成 ○ 画像で人物や情景情報を補助？ ○ 例：“セロひきのゴーシュ”の演奏会の画像を見ると我々は観客の規模と声援を想像できる ○ 　 ● 音声言語理解に基づく画像合成 ○ 合成音声に同期して絵を動かす？ ○ 例：演奏シーンに同期して，画像のゴーシュ (演奏者)を動かす？

J-KAC：日本語オーディオブック・紙芝居朗読音声コーパス

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Shinnosuke Takamichi

More from Shinnosuke Takamichi (20)

Recently uploaded

Recently uploaded (11)

J-KAC：日本語オーディオブック・紙芝居朗読音声コーパス