論文紹介 Building the Singapore English National Speech Corpus

論文紹介（リソース系１）
Building the Singapore English National Speech Corpus
奈良先端科学技術大学院大学
知能コミュニケーション研究室
博士後期課程２年柳田智也

自己紹介
名前
柳田智也
所属
奈良先端科学技術大学院大学
知能コミュニケーション研究室D2
専門分野
逐次音声合成
2019/11/24
INTERSPEECH2019&サテライト論文読み会
©TOMOYA YANAGITA 2

今回の発表論文
2019/11/24
©TOMOYA YANAGITA 5

論文選択の理由
個人的にシンガポール英語に興味があった
シンガポールの公用語
→英語・マレー語・マンダリン・タミル語
主な民族構成
→マレー系・中華系・インド系
シンがポール英語
→多言語の発音や語彙文法が混同
→通常の認識タスクより困難、コードスイッチの発生（本論文の範囲外）
→収録・アノテーション等どのように行うのか？
2019/11/24
©TOMOYA YANAGITA 6
[Google mapより参照]
[コーパスより参照]
“The ‘Swat team’ members can come from
different institutions in Singapore
both public and private sectors.”

論文要約
シンガポール
→公用語はマレーシアだが、英語も併用(36.9％の家庭会話で使用)
→非ネイティブアクセントを含む大規模コーパス(-1000h)無
大規模コーパスNSC(National Speech Corpus)の構築
①音素バランス読み上げ文(PB,1000h)
②固有表現を含む読み上げ文(LW,1000h)
③会話や自由発話(CS,1000)
活用事例
→シンガポール音声認識用の語彙辞書を作成
→コーパスに含有
2019/11/24
©TOMOYA YANAGITA 7
コーパス名時間
NIECSSE 3.5h
GSSEC 8h
CALL 125h

シンガポール
活用事例
NIECSSE[1] 3.5h
GSSEC[2] 8h
CALL[3] 125h
論文要約
2019/11/24
©TOMOYA YANAGITA 8

読み上げ収録環境
話者について
→総計1379話者、以下の条件
・シンガポール在住(18年間)
・英語の正式な教育(6年間)
・読み書き可
収録環境について
→様々な環境で、３チャンネルで録音
・ヘッドセットマイクorスタンドマイク(48kHz -> 16kHz; 16bit)
・ファーフィールドマイク(48kHz -> 16kHz; 16bits)
・携帯電話(16kHz 16bits)
その他
→各話者PBで800文・LWで896文を録音
→マイクと音質を定期的に確認
→おおよその話者は、別個の二日間で収録
2019/11/24
©TOMOYA YANAGITA 9

読み上げコーパスの分析（1/2）
2019/11/24
©TOMOYA YANAGITA 10
性別
→性別分布はおよそ50%
民族構成の分布
→主要な考慮事項
→マレーシアとインド話者割合を増加
→主要な少数民族のデータ量制限を防止、コーパスの有用性向上
人種目標実構成 PB LW
中国 50.0% 74.3% 60.7% 60.4%
マレー 20.0-25.0% 13.4% 19.3% 19.4%
インド 20.0-25.0% 9.0% 19.3% 19.4%
その他 0.0-5.0% 3.4% 0.7% 0.9%
表1 民族分布ごとの話者の割合

読み上げコーパスの分析（2/2）
2019/11/24
年齢
学歴
学歴 PB LW
大学以上 42.4% 42.2%
短大・ポリテク 41.3% 42.0%
中等学校以下 16.3% 15.8%
表3 学歴ごとの話者の割合
年齢 PB LW
18-30 51.2% 50.0%
31-45 30.0% 30.8%
>46 18.8% 19.2%
表2 年齢ごとの話者の割合

コーパス設計方法
PBについて
→ 音素バランス文となるようwebより選択( 72000文)
→シンガポール英語の音素を表現する文章を選択(200文)
→８回以上の同文の読み上げ(200文)
LCについて
→固有表現認識のため構築
→音声認識の外来語による未知語を防止
→シンガポールでの地名、住所、食べ物、著名人等を含む
2019/11/24

転記とその他情報の付与
2019/11/24
転記について
→ 人手で転記を作成
→正確性は単語単位で決定
→スペル誤りの修正は現在取り組んでいる
その他情報について
→excelファイルとして提供
→話者情報、性別、学歴、収録機器等を包含

シンガポール
活用事例
NIECSSE[1] 3.5h
GSSEC[2] 8h
CALL[3] 125h
論文要約
2019/11/24

音声認識用語彙辞書の作成
語彙数について
→PBは約30000単語
→LWは約22200単語
音声認識用の単語辞書作成
→英語以外の音素転記のため、子音と母音を追加
→PBは、イギリス英語から音素表記を概算
→LWは、自動音素表記後、言語学者が修正
3
シンガポール英語での固有表現の特徴
→発音の多くが、在住民族の言語依存
→標準的発音の発見が困難
→複数の表記を使用
2019/11/24

シンガポール
活用事例
→マレーシア音声認識用の語彙辞書を作成
NIECSSE[1] 3.5h
GSSEC[2] 8h
CALL[3] 125h
論文要約
2019/11/24

会話・自由発話コーパス
コーパス設計
→2h×250組×2条件、総計1000時間
・対面会話(FTF: Face To Face)
・電話録音(Tel.: Telecommunication)
発話の話題
・Spot-the-difference diapix(2つの似た写真から差異部分の発見)
・カードゲーム
・自由発話
収録条件および録音環境
→長時間話せる関係・録音の参加は一度のみ
→一部話者には、異なる民族のパートナ参加を強要
→マイク(48kHz->16kHz;16bits)と電話(8kHz;8bits)で録音
2019/11/24

CSコーパスの分析及び問題
読み上げコーパスと同様の分析（性別・民族・学歴・年齢）
2019/11/24
一度目の書き起こしは終了、下記の件への対応が不十分
→地方特有な表現の標準化、不完全な単語や発音への処理
→コードスイッチング（言語切り替え）への対処
人種 FTF Tel. 全体
中国 58.8% 58.9% 58.8%
マレー 20.0% 20.7% 20.4%
インド 20.6% 18.9% 19.8%
その他 0.6% 1.6% 1.1%
表６民族分布ごとの話者の割合
性別 FTF Tel. 全体
男 52.5% 54.9% 53.7%
女 47.5% 45.1% 46.3%
表５性別ごとの話者の割合
学歴 FTF Tel. 全体
大学以上 49.0% 39.8% 44.4%
短大・ポリテク 31.9% 38.8% 35.3%
中等学校以下 19.1% 21.5% 20.3%
表8 学歴ごとの話者の割合
年齢 FTF Tel. 全体
18-30 49.0% 46.9% 48.0%
31-45 29.4% 32.0% 30.7%
>46 21.6% 21.1% 21.3%
表7 年齢ごとの話者の割合

まとめ
背景
→シンガポール英語の大規模コーパス作成
コーパスの構築
→読み上げコーパスと、対話コーパスの構築
→少数の民族を多めに取得、有用性を拡張
→読み上げコーパスは、書き起こしが完了、語彙辞書も追加
→対話コーパスは、コードスイッチングへの対応が未達成
個人的な見解
→より困難な音声処理タスクへの挑戦（コードスイッチング等）
→困難な問題への取り組みや、コーパス作成がより重要に
2019/11/24

End of Slide
2019/11/24

論文紹介 Building the Singapore English National Speech Corpus

Recommended

Recommended

More Related Content

Similar to 論文紹介 Building the Singapore English National Speech Corpus

Similar to 論文紹介 Building the Singapore English National Speech Corpus (6)

More from Shinnosuke Takamichi

More from Shinnosuke Takamichi (20)

Recently uploaded

Recently uploaded (9)

論文紹介 Building the Singapore English National Speech Corpus