Submit Search
Upload
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
•
2 likes
•
931 views
Shinnosuke Takamichi
Follow
https://connpass.com/event/152316/
Read less
Read more
Technology
Report
Share
Report
Share
1 of 15
Download Now
Download to read offline
Recommended
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
Shinnosuke Takamichi
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
Shinnosuke Takamichi
日本語の語彙特性について
日本語の語彙特性について
AsakuraYasunobu
20180602 kawamura presentation_final
20180602 kawamura presentation_final
Yoshitake Misaki
小学生の読解支援に向けた語釈文による換言
小学生の読解支援に向けた語釈文による換言
長岡技術科学大学 自然言語処理研究室
江戸時代のバーチャルリアリティ
江戸時代のバーチャルリアリティ
Tsukasa Makino
More Related Content
What's hot
外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正
Shinnosuke Takamichi
統計的ボイチェン研究事情
統計的ボイチェン研究事情
Shinnosuke Takamichi
読解支援 5 19
読解支援 5 19
kentshioda
公的文書に対する「やさしい日本語」換言辞書作成のための調査
公的文書に対する「やさしい日本語」換言辞書作成のための調査
長岡技術科学大学 自然言語処理研究室
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
Kosuke Sugai
「やさしい日本語」のための語彙制限の検討
「やさしい日本語」のための語彙制限の検討
長岡技術科学大学 自然言語処理研究室
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価
Shinnosuke Takamichi
What's hot
(7)
外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正
統計的ボイチェン研究事情
統計的ボイチェン研究事情
読解支援 5 19
読解支援 5 19
公的文書に対する「やさしい日本語」換言辞書作成のための調査
公的文書に対する「やさしい日本語」換言辞書作成のための調査
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
「やさしい日本語」のための語彙制限の検討
「やさしい日本語」のための語彙制限の検討
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価
Similar to 論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
Compétence plurilingue et apprentissage collaboratif/フランス語学習において複言語能力が発現するとき―...
Compétence plurilingue et apprentissage collaboratif/フランス語学習において複言語能力が発現するとき―...
Osaka Metropolitan University
Sophia University CALL Seminar - CLIL & CALL
Sophia University CALL Seminar - CLIL & CALL
Richard Pinner
Benefit of bilingualism_session3_jpn_for posting
Benefit of bilingualism_session3_jpn_for posting
Mike Yamakawa
Clil Symposium
Clil Symposium
Richard Pinner
How to Integrate Content and Language in CLIL Pedagogy Theories and Examples
How to Integrate Content and Language in CLIL Pedagogy Theories and Examples
Richard Pinner
反応時間データにおける語彙特性効果から見る語彙の即時的運用能力:語長・頻度・親密度・心像性に着目した予備的検討
反応時間データにおける語彙特性効果から見る語彙の即時的運用能力:語長・頻度・親密度・心像性に着目した予備的検討
Yusaku Kawaguchi
20170818 jfneグローバルに生きるための言語技術
20170818 jfneグローバルに生きるための言語技術
Takako Ozone
Jacet2017スライドのコピー
Jacet2017スライドのコピー
Masaki Nishijo
SFC Open Campus 2016 "SFCにおける「学び」と「学び方」"
SFC Open Campus 2016 "SFCにおける「学び」と「学び方」"
Takashi Iba
日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三
日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三
博三 太田
コーパスに基づく認知意味論研究 20150613.key
コーパスに基づく認知意味論研究 20150613.key
Yuzo Morishita
大学図書館における障害学生支援:障害者差別解消法の施行を受けて 参加報告
大学図書館における障害学生支援:障害者差別解消法の施行を受けて 参加報告
Yayoi Yoshida
北海道大学公開講座「地域と大学の連携による遠隔生涯学習の方法」発表資料
北海道大学公開講座「地域と大学の連携による遠隔生涯学習の方法」発表資料
Professional University of Information and Management for Innovation (情報経営イノベーション専門職大学)
Introduction to linguaphone 2013 mar
Introduction to linguaphone 2013 mar
Yoko Morisawa
用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察
長岡技術科学大学 自然言語処理研究室
初習言語Clil
初習言語Clil
Richard Pinner
NECTJ JHL Annual Conference 2013 Tomoko Ando
NECTJ JHL Annual Conference 2013 Tomoko Ando
NECTJ
文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会
Tomoyuki Kajiwara
NECTJ JHL Annual Conference Namiai Internatinal Camp
NECTJ JHL Annual Conference Namiai Internatinal Camp
NECTJ
2014LETシンポジウム 予備的検討
2014LETシンポジウム 予備的検討
WritingMaetriX
Similar to 論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
(20)
Compétence plurilingue et apprentissage collaboratif/フランス語学習において複言語能力が発現するとき―...
Compétence plurilingue et apprentissage collaboratif/フランス語学習において複言語能力が発現するとき―...
Sophia University CALL Seminar - CLIL & CALL
Sophia University CALL Seminar - CLIL & CALL
Benefit of bilingualism_session3_jpn_for posting
Benefit of bilingualism_session3_jpn_for posting
Clil Symposium
Clil Symposium
How to Integrate Content and Language in CLIL Pedagogy Theories and Examples
How to Integrate Content and Language in CLIL Pedagogy Theories and Examples
反応時間データにおける語彙特性効果から見る語彙の即時的運用能力:語長・頻度・親密度・心像性に着目した予備的検討
反応時間データにおける語彙特性効果から見る語彙の即時的運用能力:語長・頻度・親密度・心像性に着目した予備的検討
20170818 jfneグローバルに生きるための言語技術
20170818 jfneグローバルに生きるための言語技術
Jacet2017スライドのコピー
Jacet2017スライドのコピー
SFC Open Campus 2016 "SFCにおける「学び」と「学び方」"
SFC Open Campus 2016 "SFCにおける「学び」と「学び方」"
日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三
日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三
コーパスに基づく認知意味論研究 20150613.key
コーパスに基づく認知意味論研究 20150613.key
大学図書館における障害学生支援:障害者差別解消法の施行を受けて 参加報告
大学図書館における障害学生支援:障害者差別解消法の施行を受けて 参加報告
北海道大学公開講座「地域と大学の連携による遠隔生涯学習の方法」発表資料
北海道大学公開講座「地域と大学の連携による遠隔生涯学習の方法」発表資料
Introduction to linguaphone 2013 mar
Introduction to linguaphone 2013 mar
用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察
初習言語Clil
初習言語Clil
NECTJ JHL Annual Conference 2013 Tomoko Ando
NECTJ JHL Annual Conference 2013 Tomoko Ando
文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会
NECTJ JHL Annual Conference Namiai Internatinal Camp
NECTJ JHL Annual Conference Namiai Internatinal Camp
2014LETシンポジウム 予備的検討
2014LETシンポジウム 予備的検討
More from Shinnosuke Takamichi
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
Shinnosuke Takamichi
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
Shinnosuke Takamichi
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
Shinnosuke Takamichi
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
Shinnosuke Takamichi
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
Shinnosuke Takamichi
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Shinnosuke Takamichi
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
Shinnosuke Takamichi
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
Shinnosuke Takamichi
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
Shinnosuke Takamichi
More from Shinnosuke Takamichi
(20)
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
Recently uploaded
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
Matsushita Laboratory
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
ssuser370dd7
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
Sadao Tokuyama
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
arts yokohama
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
Tetsuya Nihonmatsu
2024 01 Virtual_Counselor
2024 01 Virtual_Counselor
arts yokohama
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
ssuser539845
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
Shumpei Kishi
2024 04 minnanoito
2024 04 minnanoito
arts yokohama
20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdf
Ayachika Kitazaki
What is the world where you can make your own semiconductors?
What is the world where you can make your own semiconductors?
Industrial Technology Research Institute (ITRI)(工業技術研究院, 工研院)
2024 03 CTEA
2024 03 CTEA
arts yokohama
Recently uploaded
(12)
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
2024 01 Virtual_Counselor
2024 01 Virtual_Counselor
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
2024 04 minnanoito
2024 04 minnanoito
20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdf
What is the world where you can make your own semiconductors?
What is the world where you can make your own semiconductors?
2024 03 CTEA
2024 03 CTEA
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
1.
11/24/2019©Shinnosuke Takamichi, The University
of Tokyo SANTLR: Speech Annotation Toolkit for Low Resource Languages 高道 慎之介 (東京大学) Interspeech2019&サテライト読み会
2.
/15 自己紹介 2 高道 慎之介 東京大学 猿渡研
助教 @forthshinji 他の情報はググってください
3.
/15 研究背景:rich resource から
low resource へ 音声言語処理の高精度化 – 音声言語資源の豊富な言語 (rich-resource language) では高精度化 – 世界中のあらゆる言語のカバーへ • 文化保存,多様性 希少言語 (low-resource language) に向けたプロジェクト – UNESCO 2019年を先住民族言語年に [URL] – DARPA LORELEI [URL] (アメリカ) – 科研費「日本語諸方言コーパスの構築とコーパスを使った方言研究 の開拓」(国語研 木部先生) – 科研費「多方言音声合成のための地理情報を利用した音韻・アクセ ントモデリングに関する研究」(高道) 3
4.
/15 希少言語の音声言語処理に向けた研究 統計モデルの学習法 – Rich-resource
language からの転移学習 – 音声言語規則の教師なし推定 音声言語資源の収集 – WikiMatrix: 1,620言語の対訳テキスト – CMU WMSD: 700言語の音声コーパス アノテーション技術 – SPICE (2007) – SANTLR (本発表) 4
5.
SANTLR: Speech Annotation
Toolkit for Low Resource Languages X. Li (CMU) et al., Interspeech 5 Paper Code (公開予定?) Demo
6.
/15 概要と機能 概要: – ウェブベースのアノテーションツール –
(希少)言語の収集・アノテーションを容易に – “very user-friendly user interface” 機能1:transcription – 提供された音声を容易にアノテートできる 機能2:recording – 提供されたテキストを容易に収録できる 6
7.
/15 ポスター 7
8.
/15 デモ 8 https://www.dictate.app/
9.
/15 Section 2: User
interface (UI) ハイライト – 研究者とアノテータの両方にとって簡単なUIを用意 全自動の前処理 – HTMLタグや絵文字の自動除去 – 音声区間検出(VAD)により長い発話を自動分割 – 前処理後に共有可能な固有リンクを生成 研究者・アノテータ間の進捗共有 – 固有リンクを共有すると互いの進捗が分かる – 複数のアノテータによる処理も可能 9
10.
/15 Section 3: Utterance
ranking 今までのアノノーションツール – 対象音声を順々にアノテーションするしかなかった しかし実際には,音声のアノテーション優先度が存在する – アノテーションが簡単な音声や,音響モデル(構築)に有効な音声を 優先的にアノテーションすべき – 雑音の多い音声の優先度は低い 2つの ranking 機能を搭載 (次ページ) – Audio ranking (アノテーション時に動作) – Text ranking (レコーディング時に動作) 10
11.
/15 Audio ranking Step
1: sort by duration – 発話の短い音声ほどアノテーションしやすい – 発話長でソート (VADが入っているかは不明) Step 2: signal-to-noise (SN ratio) calculation – SN比の高い音声ほどアノテーションしやすい – Step 1の ranking の結果を,SN比の結果で補正 • アルゴリズムの詳細は不明 Step 3: ranking by phoneme overlaps – 大量のテキスト・音声で学習すると似たような発話が入る(英語の “year,” “no” など)が,これは音響モデルの学習精度を落とす – 当該発話の音素が他の発話の音素と強く重複する場合,rankを落とす • 英語の pre-trained 音響モデルでアライメント 11
12.
/15 Text ranking Step
1: sort by perplexity – 希少単語よりも頻用単語の方が発話しやすい – テキストから言語モデルを構築,文毎のパープレキシティを計算 – パープレキシティの小さい順にソート • 直感的には,頻用単語の多い順にソート Step 2: text overlap calculation – アノテータに多様な音声を発話させるため – Audio ranking と同じように,他の発話とテキストが重複している ものは,ランクを下げる 12
13.
/15 Section 4: Experiments 13 (30min:
transcription, 30min: recording) 高い計算機リテラシーを持ったアノテータならもっと早くこなせる. そうでない場合はユーザガイドが必要.(論文の意訳)
14.
/15 まとめ アノテーションツールSANTLR – 音声収録・アノテーション –
やさしいUI – アノテーション優先度の計算 個人的な見解 – 強力なモデル(DNNなど)の登場によって我々のできることは拡大. – だからこそ高品質・安価・大量のアノテーション法の確立が必須. – 次の課題は「プロの専門技術をどうやってマイクロ化するか」 • 論文中でも近いことが言及されている 14
15.
/15 その他の関連発表 15 https://www.isca-speech.org/archive/Interspeech_2019/
Download Now