SlideShare a Scribd company logo
1 of 41
Jelinek workshop参加記
2018年 8月22日 全体セミナー
西鳥羽 二郎
自己紹介: 西鳥羽 二郎
• レトリバの取締役副社長及びChief Research Officer
• 自然言語処理、音声認識など
• 研究開発にまつわるetc.
• 最近の目標
• 旅行で全都道府県めぐる
• 旅行で日本の全世界遺産をめぐる
旅行で全都道府県回る
前回セミナー時
全県制覇!
旅行で日本の全世界遺産を回る
長崎と天草地方の潜伏
キリシタン関連遺産
「神宿る島」宗像・沖ノ島と関連遺産群
ル・コルビュジエの建築作品
-近代建築運動への顕著な貢献-
石見銀山
残り4つ
Wikipediaによると: Jelinek Workshop
ホームページによると
専門家、大学院生、学部生によるドリームチーム
6週間に及ぶ音声、言語、画像における
機械学習の研究ワークショップ
Jelinek Workshopの詳細
• Johns Hopkins University(JHU)で行われているWorkshop
• 自然言語処理、音声処理、画像処理に関するソフトウェアの開発
• 2週間のサマースクール + 6週間の研究開発
• 2018年は6/11~8/3で開催
• 1995年から毎年夏に開催されている
• 95, 96, 97, 2002年 SRILM: 言語モデル
• 2006年 moses: 機械翻訳
• 2009年 Kaldi: 音声認識
Workshopの同じチームの人達
リモート及び部分
参加含めて
30人弱
Johns Hopkins University(JHU)
メリーランド州
ボルチモア
(ワシントンD.C.の
近く)
Johns Hopkins University(JHU)
Workshop会場の近く
毎日作業していた
建物
(Malone Hall)
Closing session及
び講演会場
(Hackerman Hall)
Closing Session及び講演会場
Closing Session
https://www.youtube.com/watch?v=7TUjyWmTm30
今年のテーマ
• Grounded Sequence to Sequence Transduction
• General-Purpose Sentence Representation Learning
• Multilingual End-to-end ASR for Incomplete Data
音声認識におけるデータサイズと精度
エラー率[%]
100
言語に存在する学習データの量(時間)
0
0
学習データのほぼない言語
学習データの不足している言語
50
リソースの多い言語
1000
5 languages in BABEL
• アッサム語
• ラオ語
• タガログ語
• スワヒリ語
• ズールー語
2 major languages
• 英語(Librispeech)
• 日本語 (CSJ)
Imcomplete data
• 他言語の巨大データセット
• 日本語
• 英語
• 対象言語のunpaired data
• テキストのみ
• 音データのみ
• 発音辞書
• ただしこれは量も質も期待できない
Multilingual End-to-end ASR for Incomplete Data
エラー率[%]
100
言語に存在する学習データの量(時間)
0
0
学習データのほぼない言語
学習データの不足している言語
50
リソースの多い言語
1000
エラー削減!
Incomplete data
テキスト
データ
音
データ
Other
languages
Unpaired data Paired data
Lexicon, etc.
(optional)
Extra
Knowl
edge
Multi-lingual
training and
adaptation
Learning
algorithms for
unpaired data
New architecture and
training methods
担当
Exploring Better Units for End-to-end Speech Recognition
08/02/18
Takaaki Hori
(MERL)
Shinji Watanabe
(JHU)
Jaejin Cho (JHU)Jiro Nishitoba
(Retrieva)
• Incorporation of word-based RNN language model (Takaaki)
• Exploring subword-based end-to-end ASR (Jiro)
認識の単位
• 音声認識における認識単位には選択肢がある
…
h’T’
…
x1 x2 x3 x4 x5 x6 x7 x8
… xT
hTh2 h3 h4 h5 h6 h7 h8
h’1 h’2 h’3 h’4
H
_ _ _
y1 y2
z2 z4
…
…
CTC
Shared
Encoder
q0
eossos y1 y2
qL-1
r0 r1
…
…
…
rL
Attention
Decoder
h1
q1
r2
y1 y2
…
Single Deep Network
Character
a _ c a t _ e a t s _ ...
Word
a cat eats ...
A cat eats …
認識単位の性質
文字単位 単語単位
音声と単語の対応の学習
少量のデータでも
学習できる
必要とする
データ量が多い
(単語単位の認識精度を上回るために12
万時間必要な例もある)
未知語がでてしまう
言語的な性質の用いやすさ
系列が長くなりすぎてし
まい難しい
言語モデルと組み合わせ
やすく精度を上げやすい
トレードオフ
subword
• 文字の組み合わせをユニットとして含める
• a cat eats -> a_ ca t_ ea ts_
• どの文字列をユニットとするかは工夫が必要
• 未知語に対しても単語が構成できなければならない
• 数が多すぎてはいけない
• 文字列に比べて系列長が短くならなければいけない
subwordを構築する代表的な手法
• Subword segmentation with unigram language model [Kudo’18]
• 極大部分文字列を求め、subwordの候補とする
• 部分文字列を用いて言語モデルのスコアを算出し、良さに寄与しない
ものを削除する
• Based on data compression technique(Byte Pair Encoding)
[Sennrich+’16]
• 文字をsubwordの初期値とする
• subwordの組み合わせの出現回数を数える
• 出現回数が多いものをsubwordとする
• 求めたいsubwordの個数になるまで上記の処理を繰り返す
実験結果(英語)
6.6
18.3
6.7
19.2
5.2
15.1
5.1
15.6
DEV CLEAN DEV OTHER EVAL CLEAN EVAL OTHER
Librispeech, WER
character 2000 unit
実験結果(日本語)
7.7
5.7
6.2
8.2
5.9
6.5
E1 E2 E3
CSJ, CER
character 5000 unit
subwordまとめ
• subwordによる音声認識の機能を実装
• 英語: 精度向上
• 日本語: パラメータ探索中
• 日本語の文字自身がsubwordのような性質を持っている?
• 多言語(18言語)
学習時間の高速化
• 音声認識の学習データは大きいので必要に応じてディスクから
読み込む事によってメモリ消費を抑えている
学習の計算
学習データの
ロード
学習の計算
学習データの
ロード
学習の計算
学習データの
ロード
プリフェッチによる高速化
• データの読み込みを学習の裏で実行
学習の計算
学習データの
ロード
学習の計算
学習データの
ロード
学習の計算
学習データの
ロード
学習の計算
学習データの
ロード
学習の計算
学習データの
ロード
学習の計算
学習データの
ロード
学習の計算
学習データの
ロード
学習の計算
学習データの
ロード
学習の高速化結果
77
41
学習時間
Librispeech, 学習時間
baseline improved
プリフェッチによる高速化
subwordによる系列長の短縮
(+ディスクキャッシュ)
47%の学習時間短縮
開発状況
• Chainerのmultiprocessiteratorを利用
• そのまま使うとメモリリークするので修正PR中
• ESPnet(後述)のdevブランチにはマージ済み
ESPnet https://github.com/espnet/espnet
30
• Actively developed by
researchers in the world
• 15データセット
• 25言語対応
• Chainer or Pytorch backend
• Kaldi styleを踏襲
Open source (Apache2.0) end-to-end ASR toolkit
その他 チーム発表からの抜粋
※ こちらに全発表があります
https://www.youtube.com/watch?v=7TUjyWmTm30
Multilingual Training
⬜Convolutive Stacked bottle-neck architecture
Convolutive Stacked bottle-neck architectureの結果
• Significant improvement from multilingual
features – 1.6%-5% on 50h (full sets)
• Lower performance degradation (higher
improvement) on lower amount of data.
• No dependence on having target language
as part of feature training data (TokPisin,
Georgian)
Multilingual 音響モデル
• Encoder及びDecoderを共有した学習
• Fine-tuning: 多言語にて学習したあと、認識したい対象言語での学習
をより強く行う
• Language transfer: decoderの最終出力レイヤーを対象言語専用に変
える
Encoder
Decoder
言語
LSTM
Linear
言語
このレイヤーを共通
ではなく言語ごとに
用意する
多言語同時学習の結果
Model Features Swahili
%CER
Amharic
%CER
Tok Pisin
%CER
Georgian
%CER
Monoling FBANK
28.6 45.3 32.2 34.8
Monoling Multiling
26.4 40.4 26.8 33.2
Multiling
(LT-Out)
FBANK
27.4 41.2 27.7 33.6
Multiling (f.
tune)
FBANK
27.8 - 27.5 33.3
Multiling
(f.tune)
Multiling
- - - -
Text-to-Speech
• Conventional TTS system
• E2E-TTS system
Text 音声
ニューラル
ネットワーク
ニューラル
vocoder
Deep Network
特徴
ベクトル
 多数のモジュールを必要とする
 モジュールを個別に最適化する必要がある
 ニューラルネットワーク単体で構成することができる
 モジュール全体を通して最適化できる
テキスト
F0
model
SP-based
Vocoder
特徴抽出
Spectrum
model
Duration
model 音声
前処理
Tacotron2
• Fully neural TTS system with human-level quality
• Generates mel spec. by spectrogram pred. net
• Generates waveform by WaveNet vocoder
ESPnetに搭載
Text-to-Speechの応用: 不完全なデータでの学習
• テキストデータ及び音声データだけでも学習可能
音声 テキスト
音声認識
音声合成
音声 テキスト 音声
音声認識 音声合成
テキスト 音声 テキスト
音声学習 音声認識
一致するように学習
一致するように学習
Text-to-Speechの応用: 音声翻訳
TTS: Tacotron
Encode Decode ASR: ESPNet
Encode Decode
Encode Decode
Major accomplishments (1/2)
(1) Built multi-lingual end-to-end ASR systems for 17 languages
(2) Significant improvement with novel architecture and training
methods (submitted 3 papers to SLT’18)
08/02/18JSALT2018 closing session
40
…
h’T’
…
x1 x2 x3 x4 x5 x6 x7 x8
… xT
hTh2 h3 h4 h5 h6 h7 h8
h’1 h’2 h’3 h’4
H
_ _ _
y1 y2
z2 z4
…
…
CTC
Shared
Encoder
q0
eossos y1 y2
qL-1
r0 r1
…
…
…
rL
Attention
Decoder
h1
q1
r2
y1 y2
…
Major accomplishments (2/2)
08/02/18JSALT2018 closing session
41
(3) Built end-to-end ASR-TTS chain and unpaired data training
X Y
ASR
TTS
speech
ஹம்
text
(4) ESPnet: an open-source end-to-end speech processing toolkit
 Developed for this workshop (github stars increased 196 to 330 during workshop)
 Support state-of-the-art seq-to-seq models and ASR and TTS recipes
 Follow Kaldi-style recipes, that we can port Kaldi experiments easily

More Related Content

Similar to Retrieva seminar jelinek_20180822

opensource and accessibility (Dec2000) Part 1
opensource and accessibility (Dec2000) Part 1opensource and accessibility (Dec2000) Part 1
opensource and accessibility (Dec2000) Part 1
Takuya Nishimoto
 
Language toolを使ってみる
Language toolを使ってみるLanguage toolを使ってみる
Language toolを使ってみる
Takatsugu Nokubi
 
続・Cannaをフォークしてみた
続・Cannaをフォークしてみた続・Cannaをフォークしてみた
続・Cannaをフォークしてみた
Masahiko Hashimoto
 
W3 c日本語組版ノートとepub3
W3 c日本語組版ノートとepub3W3 c日本語組版ノートとepub3
W3 c日本語組版ノートとepub3
Makoto Murata
 

Similar to Retrieva seminar jelinek_20180822 (20)

超変革!2017年LLイベント開催決定!
超変革!2017年LLイベント開催決定!超変革!2017年LLイベント開催決定!
超変革!2017年LLイベント開催決定!
 
2012/03/06 sympo
2012/03/06 sympo2012/03/06 sympo
2012/03/06 sympo
 
opensource and accessibility (Dec2000) Part 1
opensource and accessibility (Dec2000) Part 1opensource and accessibility (Dec2000) Part 1
opensource and accessibility (Dec2000) Part 1
 
【DL輪読会】HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentat...
【DL輪読会】HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentat...【DL輪読会】HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentat...
【DL輪読会】HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentat...
 
[DL Hacks]BERT: Pre-training of Deep Bidirectional Transformers for Language ...
[DL Hacks]BERT: Pre-training of Deep Bidirectional Transformers for Language ...[DL Hacks]BERT: Pre-training of Deep Bidirectional Transformers for Language ...
[DL Hacks]BERT: Pre-training of Deep Bidirectional Transformers for Language ...
 
統一Qtコミュニティー
統一Qtコミュニティー統一Qtコミュニティー
統一Qtコミュニティー
 
Duolingo.pptx
Duolingo.pptxDuolingo.pptx
Duolingo.pptx
 
Osc tokyo20141019
Osc tokyo20141019Osc tokyo20141019
Osc tokyo20141019
 
Tizen & Crosswalk
Tizen & CrosswalkTizen & Crosswalk
Tizen & Crosswalk
 
Jacet2014ykondo_final
Jacet2014ykondo_finalJacet2014ykondo_final
Jacet2014ykondo_final
 
【DL輪読会】Language Conditioned Imitation Learning over Unstructured Data
【DL輪読会】Language Conditioned Imitation Learning over Unstructured Data【DL輪読会】Language Conditioned Imitation Learning over Unstructured Data
【DL輪読会】Language Conditioned Imitation Learning over Unstructured Data
 
Session2:「グローバル化する情報処理」/伊藤敬彦
Session2:「グローバル化する情報処理」/伊藤敬彦Session2:「グローバル化する情報処理」/伊藤敬彦
Session2:「グローバル化する情報処理」/伊藤敬彦
 
Language toolを使ってみる
Language toolを使ってみるLanguage toolを使ってみる
Language toolを使ってみる
 
Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー
Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジーLucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー
Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー
 
続・Cannaをフォークしてみた
続・Cannaをフォークしてみた続・Cannaをフォークしてみた
続・Cannaをフォークしてみた
 
20100828 code4 lib_japan_事業説明(全事業)
20100828 code4 lib_japan_事業説明(全事業)20100828 code4 lib_japan_事業説明(全事業)
20100828 code4 lib_japan_事業説明(全事業)
 
Unix architecture
Unix architectureUnix architecture
Unix architecture
 
W3 c日本語組版ノートとepub3
W3 c日本語組版ノートとepub3W3 c日本語組版ノートとepub3
W3 c日本語組版ノートとepub3
 
海外(ミラノ、ベルリン)での国際カンファレンスに参加して -LibreOffice/Nextcloud/Collabora Onlineの場合-
海外(ミラノ、ベルリン)での国際カンファレンスに参加して -LibreOffice/Nextcloud/Collabora Onlineの場合-海外(ミラノ、ベルリン)での国際カンファレンスに参加して -LibreOffice/Nextcloud/Collabora Onlineの場合-
海外(ミラノ、ベルリン)での国際カンファレンスに参加して -LibreOffice/Nextcloud/Collabora Onlineの場合-
 
UE4のローカライズ機能紹介 (UE4 Localization Deep Dive)
UE4のローカライズ機能紹介 (UE4 Localization Deep Dive)UE4のローカライズ機能紹介 (UE4 Localization Deep Dive)
UE4のローカライズ機能紹介 (UE4 Localization Deep Dive)
 

More from Jiro Nishitoba

More from Jiro Nishitoba (12)

20190509 gnn public
20190509 gnn public20190509 gnn public
20190509 gnn public
 
20180609 chainer meetup_es_pnet
20180609 chainer meetup_es_pnet20180609 chainer meetup_es_pnet
20180609 chainer meetup_es_pnet
 
全体セミナー20180124 final
全体セミナー20180124 final全体セミナー20180124 final
全体セミナー20180124 final
 
深層学習による自然言語処理勉強会2章前半
深層学習による自然言語処理勉強会2章前半深層学習による自然言語処理勉強会2章前半
深層学習による自然言語処理勉強会2章前半
 
深層学習による自然言語処理勉強会3章前半
深層学習による自然言語処理勉強会3章前半深層学習による自然言語処理勉強会3章前半
深層学習による自然言語処理勉強会3章前半
 
全体セミナー20170629
全体セミナー20170629全体セミナー20170629
全体セミナー20170629
 
Hessian free
Hessian freeHessian free
Hessian free
 
ChainerでDeep Learningを試す為に必要なこと
ChainerでDeep Learningを試す為に必要なことChainerでDeep Learningを試す為に必要なこと
ChainerでDeep Learningを試す為に必要なこと
 
Icml読み会 deep speech2
Icml読み会 deep speech2Icml読み会 deep speech2
Icml読み会 deep speech2
 
全体セミナーWfst
全体セミナーWfst全体セミナーWfst
全体セミナーWfst
 
Emnlp読み会資料
Emnlp読み会資料Emnlp読み会資料
Emnlp読み会資料
 
Chainer meetup20151014
Chainer meetup20151014Chainer meetup20151014
Chainer meetup20151014
 

Recently uploaded

Recently uploaded (10)

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 

Retrieva seminar jelinek_20180822