Retrieva seminar jelinek_20180822

Jelinek workshop参加記
2018年 8月22日全体セミナー
西鳥羽二郎

自己紹介: 西鳥羽二郎
• レトリバの取締役副社長及びChief Research Officer
• 自然言語処理、音声認識など
• 研究開発にまつわるetc.
• 最近の目標
• 旅行で全都道府県めぐる
• 旅行で日本の全世界遺産をめぐる

旅行で全都道府県回る
前回セミナー時
全県制覇!

旅行で日本の全世界遺産を回る
長崎と天草地方の潜伏
キリシタン関連遺産
「神宿る島」宗像・沖ノ島と関連遺産群
ル・コルビュジエの建築作品
-近代建築運動への顕著な貢献-
石見銀山
残り4つ

Wikipediaによると: Jelinek Workshop

ホームページによると
専門家、大学院生、学部生によるドリームチーム
6週間に及ぶ音声、言語、画像における
機械学習の研究ワークショップ

Jelinek Workshopの詳細
• Johns Hopkins University(JHU)で行われているWorkshop
• 自然言語処理、音声処理、画像処理に関するソフトウェアの開発
• 2週間のサマースクール + ６週間の研究開発
• 2018年は6/11～8/3で開催
• 1995年から毎年夏に開催されている
• 95, 96, 97, 2002年 SRILM: 言語モデル
• 2006年 moses: 機械翻訳
• 2009年 Kaldi: 音声認識

Workshopの同じチームの人達
リモート及び部分
参加含めて
30人弱

Johns Hopkins University(JHU)
メリーランド州
ボルチモア
(ワシントンD.C.の
近く)

Workshop会場の近く
毎日作業していた
建物
(Malone Hall)
Closing session及
び講演会場
(Hackerman Hall)

Closing Session及び講演会場

Closing Session
https://www.youtube.com/watch?v=7TUjyWmTm30

今年のテーマ
• Grounded Sequence to Sequence Transduction
• General-Purpose Sentence Representation Learning
• Multilingual End-to-end ASR for Incomplete Data

音声認識におけるデータサイズと精度
エラー率[%]
100
言語に存在する学習データの量(時間)
0
0
学習データのほぼない言語
学習データの不足している言語
50
リソースの多い言語
1000
5 languages in BABEL
• アッサム語
• ラオ語
• タガログ語
• スワヒリ語
• ズールー語
2 major languages
• 英語(Librispeech)
• 日本語 (CSJ)

Imcomplete data
• 他言語の巨大データセット
• 日本語
• 英語
• 対象言語のunpaired data
• テキストのみ
• 音データのみ
• 発音辞書
• ただしこれは量も質も期待できない

Multilingual End-to-end ASR for Incomplete Data
エラー率[%]
100
言語に存在する学習データの量(時間)
0
0
学習データのほぼない言語
学習データの不足している言語
50
リソースの多い言語
1000
エラー削減!
Incomplete data
テキスト
データ
音
データ
Other
languages
Unpaired data Paired data
Lexicon, etc.
(optional)
Extra
Knowl
edge
Multi-lingual
training and
adaptation
Learning
algorithms for
unpaired data
New architecture and
training methods
担当

Exploring Better Units for End-to-end Speech Recognition
08/02/18
Takaaki Hori
(MERL)
Shinji Watanabe
(JHU)
Jaejin Cho (JHU)Jiro Nishitoba
(Retrieva)
• Incorporation of word-based RNN language model (Takaaki)
• Exploring subword-based end-to-end ASR (Jiro)

認識の単位
• 音声認識における認識単位には選択肢がある
…
h’T’
…
x1 x2 x3 x4 x5 x6 x7 x8
… xT
hTh2 h3 h4 h5 h6 h7 h8
h’1 h’2 h’3 h’4
H
_ _ _
y1 y2
z2 z4
…
…
CTC
Shared
Encoder
q0
eossos y1 y2
qL-1
r0 r1
…
…
…
rL
Attention
Decoder
h1
q1
r2
y1 y2
…
Single Deep Network
Character
a _ c a t _ e a t s _ ...
Word
a cat eats ...
A cat eats …

認識単位の性質
文字単位単語単位
音声と単語の対応の学習
少量のデータでも
学習できる
必要とする
データ量が多い
(単語単位の認識精度を上回るために12
万時間必要な例もある)
未知語がでてしまう
言語的な性質の用いやすさ
系列が長くなりすぎてし
まい難しい
言語モデルと組み合わせ
やすく精度を上げやすい
トレードオフ

subword
• 文字の組み合わせをユニットとして含める
• a cat eats -> a_ ca t_ ea ts_
• どの文字列をユニットとするかは工夫が必要
• 未知語に対しても単語が構成できなければならない
• 数が多すぎてはいけない
• 文字列に比べて系列長が短くならなければいけない

subwordを構築する代表的な手法
• Subword segmentation with unigram language model [Kudo’18]
• 極大部分文字列を求め、subwordの候補とする
• 部分文字列を用いて言語モデルのスコアを算出し、良さに寄与しない
ものを削除する
• Based on data compression technique(Byte Pair Encoding)
[Sennrich+’16]
• 文字をsubwordの初期値とする
• subwordの組み合わせの出現回数を数える
• 出現回数が多いものをsubwordとする
• 求めたいsubwordの個数になるまで上記の処理を繰り返す

実験結果(英語)
6.6
18.3
6.7
19.2
5.2
15.1
5.1
15.6
DEV CLEAN DEV OTHER EVAL CLEAN EVAL OTHER
Librispeech, WER
character 2000 unit

実験結果(日本語)
7.7
5.7
6.2
8.2
5.9
6.5
E1 E2 E3
CSJ, CER
character 5000 unit

subwordまとめ
• subwordによる音声認識の機能を実装
• 英語: 精度向上
• 日本語: パラメータ探索中
• 日本語の文字自身がsubwordのような性質を持っている?
• 多言語(18言語)

学習時間の高速化
• 音声認識の学習データは大きいので必要に応じてディスクから
読み込む事によってメモリ消費を抑えている
学習の計算
学習データの
ロード
学習の計算
学習データの
ロード
学習の計算
学習データの
ロード

プリフェッチによる高速化
• データの読み込みを学習の裏で実行
学習の計算
学習データの
ロード
学習の計算
学習データの
ロード
学習の計算
学習データの
ロード
学習の計算
学習データの
ロード
学習の計算
学習データの
ロード
学習の計算
学習データの
ロード
学習の計算
学習データの
ロード
学習の計算
学習データの
ロード

学習の高速化結果
77
41
学習時間
Librispeech, 学習時間
baseline improved
プリフェッチによる高速化
subwordによる系列長の短縮
(+ディスクキャッシュ)
47%の学習時間短縮

開発状況
• Chainerのmultiprocessiteratorを利用
• そのまま使うとメモリリークするので修正PR中
• ESPnet(後述)のdevブランチにはマージ済み

ESPnet https://github.com/espnet/espnet
30
• Actively developed by
researchers in the world
• 15データセット
• 25言語対応
• Chainer or Pytorch backend
• Kaldi styleを踏襲
Open source (Apache2.0) end-to-end ASR toolkit

その他チーム発表からの抜粋
※ こちらに全発表があります
https://www.youtube.com/watch?v=7TUjyWmTm30

Multilingual Training
⬜Convolutive Stacked bottle-neck architecture

Convolutive Stacked bottle-neck architectureの結果
• Significant improvement from multilingual
features – 1.6%-5% on 50h (full sets)
• Lower performance degradation (higher
improvement) on lower amount of data.
• No dependence on having target language
as part of feature training data (TokPisin,
Georgian)

Multilingual 音響モデル
• Encoder及びDecoderを共有した学習
• Fine-tuning: 多言語にて学習したあと、認識したい対象言語での学習
をより強く行う
• Language transfer: decoderの最終出力レイヤーを対象言語専用に変
える
Encoder
Decoder
言語
LSTM
Linear
言語
このレイヤーを共通
ではなく言語ごとに
用意する

多言語同時学習の結果
Model Features Swahili
%CER
Amharic
%CER
Tok Pisin
%CER
Georgian
%CER
Monoling FBANK
28.6 45.3 32.2 34.8
Monoling Multiling
26.4 40.4 26.8 33.2
Multiling
(LT-Out)
FBANK
27.4 41.2 27.7 33.6
Multiling (f.
tune)
FBANK
27.8 - 27.5 33.3
Multiling
(f.tune)
Multiling
- - - -

Text-to-Speech
• Conventional TTS system
• E2E-TTS system
Text 音声
ニューラル
ネットワーク
ニューラル
vocoder
Deep Network
特徴
ベクトル
 多数のモジュールを必要とする
 モジュールを個別に最適化する必要がある
 ニューラルネットワーク単体で構成することができる
 モジュール全体を通して最適化できる
テキスト
F0
model
SP-based
Vocoder
特徴抽出
Spectrum
model
Duration
model 音声
前処理

Tacotron2
• Fully neural TTS system with human-level quality
• Generates mel spec. by spectrogram pred. net
• Generates waveform by WaveNet vocoder
ESPnetに搭載

Text-to-Speechの応用: 不完全なデータでの学習
• テキストデータ及び音声データだけでも学習可能
音声テキスト
音声認識
音声合成
音声テキスト音声
音声認識音声合成
テキスト音声テキスト
音声学習音声認識
一致するように学習
一致するように学習

Text-to-Speechの応用: 音声翻訳
TTS: Tacotron
Encode Decode ASR: ESPNet
Encode Decode
Encode Decode

Major accomplishments (1/2)
(1) Built multi-lingual end-to-end ASR systems for 17 languages
(2) Significant improvement with novel architecture and training
methods (submitted 3 papers to SLT’18)
08/02/18JSALT2018 closing session
40
…
h’T’
…
x1 x2 x3 x4 x5 x6 x7 x8
… xT
hTh2 h3 h4 h5 h6 h7 h8
h’1 h’2 h’3 h’4
H
_ _ _
y1 y2
z2 z4
…
…
CTC
Shared
Encoder
q0
eossos y1 y2
qL-1
r0 r1
…
…
…
rL
Attention
Decoder
h1
q1
r2
y1 y2
…

Major accomplishments (2/2)
08/02/18JSALT2018 closing session
41
(3) Built end-to-end ASR-TTS chain and unpaired data training
X Y
ASR
TTS
speech
ஹம்
text
(4) ESPnet: an open-source end-to-end speech processing toolkit
 Developed for this workshop (github stars increased 196 to 330 during workshop)
 Support state-of-the-art seq-to-seq models and ASR and TTS recipes
 Follow Kaldi-style recipes, that we can port Kaldi experiments easily

Retrieva seminar jelinek_20180822

Recommended

Recommended

More Related Content

Similar to Retrieva seminar jelinek_20180822

Similar to Retrieva seminar jelinek_20180822 (20)

More from Jiro Nishitoba

More from Jiro Nishitoba (12)

Recently uploaded

Recently uploaded (10)

Retrieva seminar jelinek_20180822