Submit Search
Upload
人間を利用する音声言語処理の試み(NL研究会 招待講演)
•
3 likes
•
1,306 views
Shinnosuke Takamichi
Follow
第242回自然言語処理研究会 https://nl-ipsj.or.jp/2019/09/02/nl242-cfp/
Read less
Read more
Technology
Report
Share
Report
Share
1 of 30
Download now
Download to read offline
Recommended
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
Recommended
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
Shinnosuke Takamichi
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
Shinnosuke Takamichi
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
Shinnosuke Takamichi
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
Shinnosuke Takamichi
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
Shinnosuke Takamichi
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
Shinnosuke Takamichi
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
Shinnosuke Takamichi
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
Shinnosuke Takamichi
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Shinnosuke Takamichi
統計的ボイチェン研究事情
統計的ボイチェン研究事情
Shinnosuke Takamichi
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
Shinnosuke Takamichi
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
Shinnosuke Takamichi
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
Shinnosuke Takamichi
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
Shinnosuke Takamichi
外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正
Shinnosuke Takamichi
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Hiroshi Tomioka
More Related Content
More from Shinnosuke Takamichi
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
Shinnosuke Takamichi
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
Shinnosuke Takamichi
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
Shinnosuke Takamichi
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
Shinnosuke Takamichi
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
Shinnosuke Takamichi
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
Shinnosuke Takamichi
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
Shinnosuke Takamichi
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
Shinnosuke Takamichi
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Shinnosuke Takamichi
統計的ボイチェン研究事情
統計的ボイチェン研究事情
Shinnosuke Takamichi
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
Shinnosuke Takamichi
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
Shinnosuke Takamichi
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
Shinnosuke Takamichi
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
Shinnosuke Takamichi
外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正
Shinnosuke Takamichi
More from Shinnosuke Takamichi
(20)
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
統計的ボイチェン研究事情
統計的ボイチェン研究事情
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正
Recently uploaded
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Hiroshi Tomioka
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
Toru Tamaki
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
atsushi061452
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
CRI Japan, Inc.
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
Toru Tamaki
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
CRI Japan, Inc.
Recently uploaded
(11)
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
人間を利用する音声言語処理の試み(NL研究会 招待講演)
1.
10/25/2019©Shinnosuke Takamichi, The University
of Tokyo 人間を利用する音声言語処理の試み 高道 慎之介 (@forthshinji) 第242回自然言語処理研究会 招待講演 (2019/10/25)
2.
/30 自己紹介 経歴 – 2009年
熊本電波高専 電子工学科 卒業 – 2011年 長岡技科大 工学部 卒業 – 2016年 奈良先端大 博士課程 修了 (中村研) • NAIST中村先生・松本先生,CMU グラム先生…がD論審査委員 – 2016年~ 東京大学 猿渡・小山研 助教 (2018年まで特任助教) • IPSJ関連だと推薦博士論文(2016)・山下記念賞(2020)など 専門 – 音声情報処理・統計的音声合成変換など 2
3.
/30 猿渡・小山研究室 3 猿渡 洋(教授) 専門分野 音メディアシステム 教師無し最適化 統計・機械学習論的 信号処理 協力教員
郡山 知樹先生 中村 友彦先生 研究員 高宗さん 秘書 丹治さん 専門分野 音響信号処理 音場再生・伝送 (音響ホログラフ) スパース信号処理 小山 翔一(講師) 高道 慎之介(助教) 専門分野 音声信号処理 統計的音声合成 声質変換 深層学習 (DNN) 北村 大地(客員研究員) 専門分野 音メディア信号処理 統計・機械学習論的 信号処理 音楽信号処理 博士課程学生4名 修士課程学生6+7名 柏野研学生1名 香川高専
4.
/30 私の研究グループの目標 4 音声変換 音声合成 全ての人間・計算機が 身体・文化・時間を超えて 音声でコミュニケーション できる社会を目指して
5.
/30 2019年に発表した技術 5 DNN音源モデルの音源分離[IEEE19] ボコーダフリー音声合成[CSL19] 中国語訛り日本語音声合成[IEICE19] 音声による認知症検出[GerMed19] 受聴者の信頼度[AST19] ランダム性を持つ音声合成[SSW19] 音声合成のための言語単位[SSW19] リアルタイムDNN声質変換[SSW19] マスク型声質変換デバイス[UIST19] 主観的話者埋め込み[SSW19] 話者V2S攻撃[SSW19] EEG音質予測[Interspeech19] ニューラルダブルトラック[ICASSP19] 高齢者見守り音声合成[IWSDS19] DNN短タップフィルタ学習[ASJ19] 環境音合成[ASJ19]DNN位相推定[ASJ19] 人間GAN [IBIS19] 音源分離・雑音抑圧 言語教育・スクリーニング セキュリティ インタラクション 音声合成基礎 ヒューマンコンピュテーション AAFテンション補償[CHI19] 低ミュージカルノイズ雑音抑圧[ASJ19] 歌声情報処理 深層学習による信号処理最適化 多言語化・多様化
6.
/30 講演のテーマ 6 計算資源と人的資源を利用した音声言語処理 ~人間を利用したDNN埋め込みと敵対的学習を例にして~
7.
その前にデモ ~NL研に関係するものを中心に~ 7
8.
/30 本人より流暢な英語音声合成 8 Conventional Ours Japanese-accented English uttered by
a Japanese undergraduate “I can see that knife now.” Text Text-to-speech Voice building Make the voice fluent. [Oshima15][Sekizawa19]
9.
/30 クラウドソーシング対訳方言コーパスと 方言音声合成 9 Iyo, Aawa, Tosa Iwaki,
Saitama Izumo, Hiroshima, Okayama Fukuoka, Miyazaki, Morokata Kanazawa, Fukui, Osaka, Nara, Kyoto, Kyo-kotoba Hokkaido, Tsugaru, Akita Common language 合成音声 (話者は東京方言話者) 自然音声 (宮崎弁ネイティブ話者) [Takamichi18][Akiyama18]
10.
/30 リアルタイムDNN音声変換 10 https://www.youtube.com/watch?v=P9rGqoYnfCg [Arakawa19] 音声合成・変換コンペ (2015, 2016)
で品質世界一になった技術を応用. 普通の laptop PC で50msレイテンシで動作. 更に… https://www.youtube.com/watch?v=vFSHxn_G2iQ
11.
計算資源と人的資源を利用した 音声言語処理 11
12.
/30 背景 研究における資源 – 計算資源:CPU
,GPU,TPU,(量子コンピュータ) … – 人的資源:クラウドソーシング 音声研究における人的資源の活用 – 聴覚・経験・環境などで変化する音声の感性評定 – 人間に尋ねないと分からないことが多々ある → 大量のデータではなく,大量の人間で解決できる問題 本発表では,音声研究における我々の試みを紹介 – 話者埋め込み (speaker embedding) の学習 – 敵対的生成ネットワーク (GAN) の学習 12
13.
話者埋め込みにおける利用 [Saito19SSW] 13
14.
/30 話者埋め込み:喋る人を数値表現する技術 14 話者選択 話者作成 クロスリンガル 話者検索 +
= Suzuki-san Katoh-san female, 20s … female, 50s …
15.
/30 話者埋め込み (話者のベクトル表現) 話者の情報をどう数値化する? –
多話者音声合成や話者選択・補間に有効. – Interpretable な表現は可能か? 従来の連続表現:識別型 or 自己符号型 15 Discrete Continuous Discriminative Auto-encoding 話者間の距離を無視 音声特徴量が近い≠知覚的に近い
16.
/30 クラウドソーシングを利用した話者類似度評価 16 4000名超によるスコアリング [Saito19]
17.
/3017 類似度スコアに基づく話者グラフを用いた 話者間類似度の可視化 話者の配置は類似度スコアを用いた多次元尺度構成法で決定 F051 F146B F048 特定の話者に 類似した話者 多数の話者に 類似した話者F093 F127 [Saito19]
18.
/30 話者情報の行列埋め込み 18 𝑺 Matrix representation Kernelized Gram matrix Speaker vector Minimize for DNN
training 𝑲 − 𝑺 𝐹 2 𝑲 話者ベクトル間距離が知覚的距離に一致するようにDNNを学習 → 知覚的距離に相関する話者ベクトルが得られる(はず) [Saito19]
19.
/30 話者空間の距離と知覚的な距離の相関 19 Speaker-vector distance Perceptualdistance Conventional Proposed (vec. embed) Proposed (mat.
embed) Proposed (mat. embed’) Open speakers Closed speakers Far Close DissimilarSimilar オープンな話者に対しても 知覚的距離に相関する話者ベクトルが得られる [Saito19]
20.
/30 考察 簡潔に言えば – 埋め込み空間における距離を,人間の感じる距離に対応させる
「人間は相対差を見つける方が得意」なことを利用 – 音声に関する絶対評価(例えば,かっこよさ・かわいさ)値は, 同一評価者でも安定しにくい – 2つのサンプル間の評価は比較的安定 2つのベクトルを補間しても頑健に動く(人間らしい声になる) 20
21.
敵対的学習における利用 [Fujii19arXiv] (更なる詳細はIBIS2019@名古屋で!) 21
22.
/30 実在データ分布と知覚分布 GAN (敵対的生成ネットワーク)
[Goodfellow14] – 複雑な確率分布を表現する深層生成モデル – 実在データ(学習データ)と生成データを識別する識別器を騙して学習 人間が許容できるのは実在データ分布だけか? – 人間はメディアの逸脱に対して許容範囲を持つ • 例:ボイスチェンジャで非実在の音声を作っても,我々はそれに 人格を認めることができる – GANではこの範囲を表現できない – 人間を騙せばよいのでは. 22 人間の許容できるデータの範囲 (=知覚分布) を 表現できるGANは作れるか?
23.
/30 GANと人間GAN 23 Prior distr. Generated data Generator Discriminator Natu- ral Train to
fool computer-based discriminator. GAN Training Distribution of training data Generation Crowdworkers Natu- ral Train to fool crowdworkers (= crowd-based discriminator). HumanGAN (proposed) Training Distribution of human perception Generation [Fujii19]
24.
/30 GAN:DNNで記述される識別器を騙す 24 Natural Generated ⋯ ⋯ ⋯ ⋯ Generator Natural Generated Discri- minator Prior distr. 生成モデルも識別モデルも微分可能なので, backpropagation で学習可能 [Goodfellow14]
25.
/30 人間の知覚する話者性(明るいほど「人間らし い声」と主観的に評価された合成音声) 25 1st dim. of
speech feature 2nddim.ofspeechfeature 実在音声の分布 (GANで表現可能) 知覚分布 (GANで表現不可. 人が評価しないと 分からない) 生成モデルは微分可能だが識別モデル (=人間) は微分不可能. どうやって生成モデルを学習する? [Fujii19]
26.
/30 人間を「事後確率差分を出力するblack-box」と みなし,勾配を近似 26 生成データに微少な摂動を加え,摂動の影響を人間に評価させる. それらの比で勾配を近似して生成モデルを学習 [Fujii19]
27.
/30 人間GAN:人間で記述される識別器を騙す 27 ⋯ ⋯ ⋯ ⋯ Generator Generated Prior distr. Crowdworkers * 学習時にカラーマップを使用しないことに注意 [Fujii19]
28.
/30 考察 学習データは一切登場しない – 識別モデル(人間)は学習済みのため –
(「これまで人間が観測したメディア」が学習データ?) Human-in-the-loop 型機械学習技術 – データの観測だけでは解決できない人間の感性をモデル化できる? スケーラビリティの問題は未解決 – プログラムの for loop で,GPUではなく人間が働く – データ数・次元数による金銭的負担の増大が課題 28
29.
まとめと展望 29
30.
/30 まとめと今後の展望 まとめ:人間を活用した音声研究 – 話者埋め込みにおける利用 –
敵対的生成ネットワークにおける利用 今後の展望 – Human-in-the-loop 深層学習の進化 – 総務省SCOPE「ストレスフリーリアルタイム音声変換」(2019~) • ボイスチェンジ音声をユーザにリアルタイムフィードバックして 「自分の聴く自分の声」を制御,人間の制御へ 30 JVSコーパス 100名の声優・俳優さんによる音声コーパス.テキスト・話者間類似度付き. End-to-end音声処理ツール ESPnet にレシピあり.
Download now