SlideShare a Scribd company logo
1 of 15
Download to read offline
11/24/2019©Shinnosuke Takamichi,
The University of Tokyo
SANTLR: Speech Annotation Toolkit
for Low Resource Languages
高道 慎之介 (東京大学)
Interspeech2019&サテライト読み会
/15
自己紹介
2
高道 慎之介
東京大学 猿渡研 助教 @forthshinji
他の情報はググってください
/15
研究背景:rich resource から low resource へ
 音声言語処理の高精度化
– 音声言語資源の豊富な言語 (rich-resource language) では高精度化
– 世界中のあらゆる言語のカバーへ
• 文化保存,多様性
 希少言語 (low-resource language) に向けたプロジェクト
– UNESCO 2019年を先住民族言語年に [URL]
– DARPA LORELEI [URL] (アメリカ)
– 科研費「日本語諸方言コーパスの構築とコーパスを使った方言研究
の開拓」(国語研 木部先生)
– 科研費「多方言音声合成のための地理情報を利用した音韻・アクセ
ントモデリングに関する研究」(高道)
3
/15
希少言語の音声言語処理に向けた研究
 統計モデルの学習法
– Rich-resource language からの転移学習
– 音声言語規則の教師なし推定
 音声言語資源の収集
– WikiMatrix: 1,620言語の対訳テキスト
– CMU WMSD: 700言語の音声コーパス
 アノテーション技術
– SPICE (2007)
– SANTLR (本発表)
4
SANTLR: Speech Annotation Toolkit
for Low Resource Languages
X. Li (CMU) et al., Interspeech
5
Paper Code (公開予定?) Demo
/15
概要と機能
 概要:
– ウェブベースのアノテーションツール
– (希少)言語の収集・アノテーションを容易に
– “very user-friendly user interface”
 機能1:transcription
– 提供された音声を容易にアノテートできる
 機能2:recording
– 提供されたテキストを容易に収録できる
6
/15
ポスター
7
/15
デモ
8
https://www.dictate.app/
/15
Section 2: User interface (UI)
 ハイライト
– 研究者とアノテータの両方にとって簡単なUIを用意
 全自動の前処理
– HTMLタグや絵文字の自動除去
– 音声区間検出(VAD)により長い発話を自動分割
– 前処理後に共有可能な固有リンクを生成
 研究者・アノテータ間の進捗共有
– 固有リンクを共有すると互いの進捗が分かる
– 複数のアノテータによる処理も可能
9
/15
Section 3: Utterance ranking
 今までのアノノーションツール
– 対象音声を順々にアノテーションするしかなかった
 しかし実際には,音声のアノテーション優先度が存在する
– アノテーションが簡単な音声や,音響モデル(構築)に有効な音声を
優先的にアノテーションすべき
– 雑音の多い音声の優先度は低い
 2つの ranking 機能を搭載 (次ページ)
– Audio ranking (アノテーション時に動作)
– Text ranking (レコーディング時に動作)
10
/15
Audio ranking
 Step 1: sort by duration
– 発話の短い音声ほどアノテーションしやすい
– 発話長でソート (VADが入っているかは不明)
 Step 2: signal-to-noise (SN ratio) calculation
– SN比の高い音声ほどアノテーションしやすい
– Step 1の ranking の結果を,SN比の結果で補正
• アルゴリズムの詳細は不明
 Step 3: ranking by phoneme overlaps
– 大量のテキスト・音声で学習すると似たような発話が入る(英語の
“year,” “no” など)が,これは音響モデルの学習精度を落とす
– 当該発話の音素が他の発話の音素と強く重複する場合,rankを落とす
• 英語の pre-trained 音響モデルでアライメント
11
/15
Text ranking
 Step 1: sort by perplexity
– 希少単語よりも頻用単語の方が発話しやすい
– テキストから言語モデルを構築,文毎のパープレキシティを計算
– パープレキシティの小さい順にソート
• 直感的には,頻用単語の多い順にソート
 Step 2: text overlap calculation
– アノテータに多様な音声を発話させるため
– Audio ranking と同じように,他の発話とテキストが重複している
ものは,ランクを下げる
12
/15
Section 4: Experiments
13
(30min: transcription, 30min: recording)
高い計算機リテラシーを持ったアノテータならもっと早くこなせる.
そうでない場合はユーザガイドが必要.(論文の意訳)
/15
まとめ
 アノテーションツールSANTLR
– 音声収録・アノテーション
– やさしいUI
– アノテーション優先度の計算
 個人的な見解
– 強力なモデル(DNNなど)の登場によって我々のできることは拡大.
– だからこそ高品質・安価・大量のアノテーション法の確立が必須.
– 次の課題は「プロの専門技術をどうやってマイクロ化するか」
• 論文中でも近いことが言及されている
14
/15
その他の関連発表
15
https://www.isca-speech.org/archive/Interspeech_2019/

More Related Content

What's hot

外国人留学生日本語の音声合成における 話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における 話者性を保持した韻律補正Shinnosuke Takamichi
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情Shinnosuke Takamichi
 
読解支援 5 19
読解支援 5 19読解支援 5 19
読解支援 5 19kentshioda
 
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)Kosuke Sugai
 
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価Shinnosuke Takamichi
 

What's hot (7)

外国人留学生日本語の音声合成における 話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における 話者性を保持した韻律補正
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情
 
読解支援 5 19
読解支援 5 19読解支援 5 19
読解支援 5 19
 
公的文書に対する「やさしい日本語」換言辞書作成のための調査
公的文書に対する「やさしい日本語」換言辞書作成のための調査公的文書に対する「やさしい日本語」換言辞書作成のための調査
公的文書に対する「やさしい日本語」換言辞書作成のための調査
 
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
 
「やさしい日本語」のための語彙制限の検討
「やさしい日本語」のための語彙制限の検討「やさしい日本語」のための語彙制限の検討
「やさしい日本語」のための語彙制限の検討
 
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価
 

Similar to 論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages

Compétence plurilingue et apprentissage collaboratif/フランス語学習において複言語能力が発現するとき―...
Compétence plurilingue et apprentissage collaboratif/フランス語学習において複言語能力が発現するとき―...Compétence plurilingue et apprentissage collaboratif/フランス語学習において複言語能力が発現するとき―...
Compétence plurilingue et apprentissage collaboratif/フランス語学習において複言語能力が発現するとき―...Osaka Metropolitan University
 
Sophia University CALL Seminar - CLIL & CALL
Sophia University CALL Seminar - CLIL & CALLSophia University CALL Seminar - CLIL & CALL
Sophia University CALL Seminar - CLIL & CALLRichard Pinner
 
Benefit of bilingualism_session3_jpn_for posting
Benefit of bilingualism_session3_jpn_for postingBenefit of bilingualism_session3_jpn_for posting
Benefit of bilingualism_session3_jpn_for postingMike Yamakawa
 
How to Integrate Content and Language in CLIL Pedagogy Theories and Examples
How to Integrate Content and Language in CLIL Pedagogy Theories and ExamplesHow to Integrate Content and Language in CLIL Pedagogy Theories and Examples
How to Integrate Content and Language in CLIL Pedagogy Theories and ExamplesRichard Pinner
 
反応時間データにおける語彙特性効果から見る語彙の即時的運用能力:語長・頻度・親密度・心像性に着目した予備的検討
反応時間データにおける語彙特性効果から見る語彙の即時的運用能力:語長・頻度・親密度・心像性に着目した予備的検討反応時間データにおける語彙特性効果から見る語彙の即時的運用能力:語長・頻度・親密度・心像性に着目した予備的検討
反応時間データにおける語彙特性効果から見る語彙の即時的運用能力:語長・頻度・親密度・心像性に着目した予備的検討Yusaku Kawaguchi
 
20170818 jfneグローバルに生きるための言語技術
20170818 jfneグローバルに生きるための言語技術 20170818 jfneグローバルに生きるための言語技術
20170818 jfneグローバルに生きるための言語技術 Takako Ozone
 
Jacet2017スライドのコピー
Jacet2017スライドのコピーJacet2017スライドのコピー
Jacet2017スライドのコピーMasaki Nishijo
 
SFC Open Campus 2016 "SFCにおける「学び」と「学び方」"
SFC Open Campus 2016 "SFCにおける「学び」と「学び方」"SFC Open Campus 2016 "SFCにおける「学び」と「学び方」"
SFC Open Campus 2016 "SFCにおける「学び」と「学び方」"Takashi Iba
 
日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三
日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三
日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三博三 太田
 
コーパスに基づく認知意味論研究 20150613.key
コーパスに基づく認知意味論研究 20150613.keyコーパスに基づく認知意味論研究 20150613.key
コーパスに基づく認知意味論研究 20150613.keyYuzo Morishita
 
大学図書館における障害学生支援:障害者差別解消法の施行を受けて 参加報告
大学図書館における障害学生支援:障害者差別解消法の施行を受けて 参加報告大学図書館における障害学生支援:障害者差別解消法の施行を受けて 参加報告
大学図書館における障害学生支援:障害者差別解消法の施行を受けて 参加報告Yayoi Yoshida
 
Introduction to linguaphone 2013 mar
Introduction to linguaphone 2013 marIntroduction to linguaphone 2013 mar
Introduction to linguaphone 2013 marYoko Morisawa
 
NECTJ JHL Annual Conference 2013 Tomoko Ando
NECTJ JHL Annual Conference 2013 Tomoko AndoNECTJ JHL Annual Conference 2013 Tomoko Ando
NECTJ JHL Annual Conference 2013 Tomoko AndoNECTJ
 
文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会Tomoyuki Kajiwara
 
NECTJ JHL Annual Conference Namiai Internatinal Camp
NECTJ JHL Annual Conference Namiai Internatinal CampNECTJ JHL Annual Conference Namiai Internatinal Camp
NECTJ JHL Annual Conference Namiai Internatinal CampNECTJ
 
2014LETシンポジウム 予備的検討
2014LETシンポジウム 予備的検討2014LETシンポジウム 予備的検討
2014LETシンポジウム 予備的検討WritingMaetriX
 

Similar to 論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages (20)

Compétence plurilingue et apprentissage collaboratif/フランス語学習において複言語能力が発現するとき―...
Compétence plurilingue et apprentissage collaboratif/フランス語学習において複言語能力が発現するとき―...Compétence plurilingue et apprentissage collaboratif/フランス語学習において複言語能力が発現するとき―...
Compétence plurilingue et apprentissage collaboratif/フランス語学習において複言語能力が発現するとき―...
 
Sophia University CALL Seminar - CLIL & CALL
Sophia University CALL Seminar - CLIL & CALLSophia University CALL Seminar - CLIL & CALL
Sophia University CALL Seminar - CLIL & CALL
 
Benefit of bilingualism_session3_jpn_for posting
Benefit of bilingualism_session3_jpn_for postingBenefit of bilingualism_session3_jpn_for posting
Benefit of bilingualism_session3_jpn_for posting
 
Clil Symposium
Clil SymposiumClil Symposium
Clil Symposium
 
How to Integrate Content and Language in CLIL Pedagogy Theories and Examples
How to Integrate Content and Language in CLIL Pedagogy Theories and ExamplesHow to Integrate Content and Language in CLIL Pedagogy Theories and Examples
How to Integrate Content and Language in CLIL Pedagogy Theories and Examples
 
反応時間データにおける語彙特性効果から見る語彙の即時的運用能力:語長・頻度・親密度・心像性に着目した予備的検討
反応時間データにおける語彙特性効果から見る語彙の即時的運用能力:語長・頻度・親密度・心像性に着目した予備的検討反応時間データにおける語彙特性効果から見る語彙の即時的運用能力:語長・頻度・親密度・心像性に着目した予備的検討
反応時間データにおける語彙特性効果から見る語彙の即時的運用能力:語長・頻度・親密度・心像性に着目した予備的検討
 
20170818 jfneグローバルに生きるための言語技術
20170818 jfneグローバルに生きるための言語技術 20170818 jfneグローバルに生きるための言語技術
20170818 jfneグローバルに生きるための言語技術
 
Jacet2017スライドのコピー
Jacet2017スライドのコピーJacet2017スライドのコピー
Jacet2017スライドのコピー
 
SFC Open Campus 2016 "SFCにおける「学び」と「学び方」"
SFC Open Campus 2016 "SFCにおける「学び」と「学び方」"SFC Open Campus 2016 "SFCにおける「学び」と「学び方」"
SFC Open Campus 2016 "SFCにおける「学び」と「学び方」"
 
日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三
日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三
日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三
 
コーパスに基づく認知意味論研究 20150613.key
コーパスに基づく認知意味論研究 20150613.keyコーパスに基づく認知意味論研究 20150613.key
コーパスに基づく認知意味論研究 20150613.key
 
大学図書館における障害学生支援:障害者差別解消法の施行を受けて 参加報告
大学図書館における障害学生支援:障害者差別解消法の施行を受けて 参加報告大学図書館における障害学生支援:障害者差別解消法の施行を受けて 参加報告
大学図書館における障害学生支援:障害者差別解消法の施行を受けて 参加報告
 
北海道大学公開講座「地域と大学の連携による遠隔生涯学習の方法」発表資料
北海道大学公開講座「地域と大学の連携による遠隔生涯学習の方法」発表資料北海道大学公開講座「地域と大学の連携による遠隔生涯学習の方法」発表資料
北海道大学公開講座「地域と大学の連携による遠隔生涯学習の方法」発表資料
 
Introduction to linguaphone 2013 mar
Introduction to linguaphone 2013 marIntroduction to linguaphone 2013 mar
Introduction to linguaphone 2013 mar
 
用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察
 
初習言語Clil
初習言語Clil初習言語Clil
初習言語Clil
 
NECTJ JHL Annual Conference 2013 Tomoko Ando
NECTJ JHL Annual Conference 2013 Tomoko AndoNECTJ JHL Annual Conference 2013 Tomoko Ando
NECTJ JHL Annual Conference 2013 Tomoko Ando
 
文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会
 
NECTJ JHL Annual Conference Namiai Internatinal Camp
NECTJ JHL Annual Conference Namiai Internatinal CampNECTJ JHL Annual Conference Namiai Internatinal Camp
NECTJ JHL Annual Conference Namiai Internatinal Camp
 
2014LETシンポジウム 予備的検討
2014LETシンポジウム 予備的検討2014LETシンポジウム 予備的検討
2014LETシンポジウム 予備的検討
 

More from Shinnosuke Takamichi

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパスShinnosuke Takamichi
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろうShinnosuke Takamichi
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討Shinnosuke Takamichi
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法Shinnosuke Takamichi
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)Shinnosuke Takamichi
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告Shinnosuke Takamichi
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...Shinnosuke Takamichi
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価Shinnosuke Takamichi
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスShinnosuke Takamichi
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価Shinnosuke Takamichi
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamformingShinnosuke Takamichi
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価Shinnosuke Takamichi
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定Shinnosuke Takamichi
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返ってShinnosuke Takamichi
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingShinnosuke Takamichi
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割Shinnosuke Takamichi
 
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)Shinnosuke Takamichi
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展Shinnosuke Takamichi
 
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言Shinnosuke Takamichi
 
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調Shinnosuke Takamichi
 

More from Shinnosuke Takamichi (20)

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
 
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
 
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
 

Recently uploaded

TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdfTaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdfMatsushita Laboratory
 
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法ssuser370dd7
 
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦Sadao Tokuyama
 
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~arts yokohama
 
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-LoopへTetsuya Nihonmatsu
 
2024 01 Virtual_Counselor
2024 01 Virtual_Counselor 2024 01 Virtual_Counselor
2024 01 Virtual_Counselor arts yokohama
 
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)ssuser539845
 
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見Shumpei Kishi
 
20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdf20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdfAyachika Kitazaki
 

Recently uploaded (12)

TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdfTaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
 
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
 
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
 
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
 
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
 
2024 01 Virtual_Counselor
2024 01 Virtual_Counselor 2024 01 Virtual_Counselor
2024 01 Virtual_Counselor
 
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
 
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
 
2024 04 minnanoito
2024 04 minnanoito2024 04 minnanoito
2024 04 minnanoito
 
20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdf20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdf
 
What is the world where you can make your own semiconductors?
What is the world where you can make your own semiconductors?What is the world where you can make your own semiconductors?
What is the world where you can make your own semiconductors?
 
2024 03 CTEA
2024 03 CTEA2024 03 CTEA
2024 03 CTEA
 

論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages

  • 1. 11/24/2019©Shinnosuke Takamichi, The University of Tokyo SANTLR: Speech Annotation Toolkit for Low Resource Languages 高道 慎之介 (東京大学) Interspeech2019&サテライト読み会
  • 2. /15 自己紹介 2 高道 慎之介 東京大学 猿渡研 助教 @forthshinji 他の情報はググってください
  • 3. /15 研究背景:rich resource から low resource へ  音声言語処理の高精度化 – 音声言語資源の豊富な言語 (rich-resource language) では高精度化 – 世界中のあらゆる言語のカバーへ • 文化保存,多様性  希少言語 (low-resource language) に向けたプロジェクト – UNESCO 2019年を先住民族言語年に [URL] – DARPA LORELEI [URL] (アメリカ) – 科研費「日本語諸方言コーパスの構築とコーパスを使った方言研究 の開拓」(国語研 木部先生) – 科研費「多方言音声合成のための地理情報を利用した音韻・アクセ ントモデリングに関する研究」(高道) 3
  • 4. /15 希少言語の音声言語処理に向けた研究  統計モデルの学習法 – Rich-resource language からの転移学習 – 音声言語規則の教師なし推定  音声言語資源の収集 – WikiMatrix: 1,620言語の対訳テキスト – CMU WMSD: 700言語の音声コーパス  アノテーション技術 – SPICE (2007) – SANTLR (本発表) 4
  • 5. SANTLR: Speech Annotation Toolkit for Low Resource Languages X. Li (CMU) et al., Interspeech 5 Paper Code (公開予定?) Demo
  • 6. /15 概要と機能  概要: – ウェブベースのアノテーションツール – (希少)言語の収集・アノテーションを容易に – “very user-friendly user interface”  機能1:transcription – 提供された音声を容易にアノテートできる  機能2:recording – 提供されたテキストを容易に収録できる 6
  • 9. /15 Section 2: User interface (UI)  ハイライト – 研究者とアノテータの両方にとって簡単なUIを用意  全自動の前処理 – HTMLタグや絵文字の自動除去 – 音声区間検出(VAD)により長い発話を自動分割 – 前処理後に共有可能な固有リンクを生成  研究者・アノテータ間の進捗共有 – 固有リンクを共有すると互いの進捗が分かる – 複数のアノテータによる処理も可能 9
  • 10. /15 Section 3: Utterance ranking  今までのアノノーションツール – 対象音声を順々にアノテーションするしかなかった  しかし実際には,音声のアノテーション優先度が存在する – アノテーションが簡単な音声や,音響モデル(構築)に有効な音声を 優先的にアノテーションすべき – 雑音の多い音声の優先度は低い  2つの ranking 機能を搭載 (次ページ) – Audio ranking (アノテーション時に動作) – Text ranking (レコーディング時に動作) 10
  • 11. /15 Audio ranking  Step 1: sort by duration – 発話の短い音声ほどアノテーションしやすい – 発話長でソート (VADが入っているかは不明)  Step 2: signal-to-noise (SN ratio) calculation – SN比の高い音声ほどアノテーションしやすい – Step 1の ranking の結果を,SN比の結果で補正 • アルゴリズムの詳細は不明  Step 3: ranking by phoneme overlaps – 大量のテキスト・音声で学習すると似たような発話が入る(英語の “year,” “no” など)が,これは音響モデルの学習精度を落とす – 当該発話の音素が他の発話の音素と強く重複する場合,rankを落とす • 英語の pre-trained 音響モデルでアライメント 11
  • 12. /15 Text ranking  Step 1: sort by perplexity – 希少単語よりも頻用単語の方が発話しやすい – テキストから言語モデルを構築,文毎のパープレキシティを計算 – パープレキシティの小さい順にソート • 直感的には,頻用単語の多い順にソート  Step 2: text overlap calculation – アノテータに多様な音声を発話させるため – Audio ranking と同じように,他の発話とテキストが重複している ものは,ランクを下げる 12
  • 13. /15 Section 4: Experiments 13 (30min: transcription, 30min: recording) 高い計算機リテラシーを持ったアノテータならもっと早くこなせる. そうでない場合はユーザガイドが必要.(論文の意訳)
  • 14. /15 まとめ  アノテーションツールSANTLR – 音声収録・アノテーション – やさしいUI – アノテーション優先度の計算  個人的な見解 – 強力なモデル(DNNなど)の登場によって我々のできることは拡大. – だからこそ高品質・安価・大量のアノテーション法の確立が必須. – 次の課題は「プロの専門技術をどうやってマイクロ化するか」 • 論文中でも近いことが言及されている 14