深層学習による自然言語処理第2章ニューラルネットの基礎

深層学習による自然言語処理
第2章ニューラルネットの基礎
東京大学大学院
情報理工学系研究科 M1
本田志温

自己紹介
• 医学系の研究室でAI創薬をしています
• NLP/CVを自主的に勉強中
• SFと神経科学が好き
• 勉強したことを発信しています！
• @shion_honda (#NowReadingで論文紹介)
• @shionhonda (深層強化学習まとめなど)
• @shionhonda (AlphaGoなど)
• 趣味: 音楽鑑賞, 料理, 旅行, サッカー, 水泳など
2019/1/19 NLP/CV 本田志温 2

概要
• ニューラルネットの共通知識
• RNN
• RNN/双方向RNN
• LSTM/GRU
• Tree-RNN
• 1D-CNN
2019/1/19 NLP/CV 本田志温 3

教師あり学習
• 訓練データの予測と正解から求まる損失関数の
最小化
• 損失関数
• 交差エントロピー損失
𝑙 𝜃 𝒙 𝑛 , 𝑦 𝑛 = −log
exp(𝑓𝜃 𝒙(𝑛), 𝑦(𝑛) )
𝑦∈𝑌 exp(𝑓𝜃 𝒙(𝑛), 𝑦 )
• ソフトマックスで表された確率モデルの負の対数尤度
• ロジスティック回帰で用いられる
• ヒンジ損失
𝑙 𝜃 𝒙 𝑛 , 𝑦 𝑛 = max(0, 1 − 𝑓𝜃 𝒙 𝑛 , 𝑦 𝑛 + max
𝑦∈𝑌∖𝑦 𝑛
𝑓𝜃 𝒙 𝑛 , 𝑦 )
• 正解𝑦 𝑛
と, それを除いてスコアを最大にする𝑦を利用
• SVMで用いられる
• どちらも0-1損失関数の上界
2019/1/19 NLP/CV 本田志温 4

各レイヤでの処理
• 順伝播型ニューラルネット
𝒉(𝑙) = 𝑎 𝑙 𝑾 𝑙 𝒉 𝑙−1 + 𝒃 𝑙
𝒉(0) = 𝒙
• 活性化関数𝑎
2019/1/19 NLP/CV 本田志温 5

重みの更新
• ミニバッチ学習で損失関数𝐿 𝜃 を最小化
𝜃 ← 𝜃 − 𝜂𝜕𝐿 𝜃
𝜕𝐿 𝜃 =
1
|𝐵|
𝑚∈𝐵
𝜕𝑙 𝜃(𝒙 𝑚 , 𝑦(𝑚))
• バッチ学習
• 一度の更新に全データの損失を使う
• データが大きいときに時間がかかる
• 確率的勾配降下法
• ランダムに選んだデータで損失
を計算し重み更新
• 分散が大きいと収束しにくい
• ミニバッチ学習はいいとこ取り
2019/1/19 NLP/CV 本田志温 6

誤差逆伝播
• 各層で重みを更新するため勾配𝜕𝐿 𝜃 を入力層
に向かって伝搬させる必要がある
• 誤差逆伝播
• 計算グラフに従って
勾配を後ろに伝えて
いく
→連鎖律を使う長い
式が不要！
• 連鎖律を使った微分
は教科書を見てくだ
さい
• 層が深くなると勾配が大きく/小さくなりすぎて後
ろに伝わらなくなる(勾配爆発/消失問題)
2019/1/19 NLP/CV 本田志温 7

RNN
• ループ構造を持ち, 可変長の系列入力に対応
• 入力: 前の層の出力と前の時刻の隠れ状態
• 誤差逆伝播は時間方向(BPTT)
2019/1/19 NLP/CV 本田志温 8
http://colah.github.io/posts/2015-08-Understanding-LSTMs/
𝒉 𝑡
(𝑙)
= 𝑎(𝑙) 𝑾(𝑙)
𝒉 𝑡
(𝑙−1)
𝒉 𝑡−1
(𝑙)
+ 𝒃(𝑙)

双方向RNN
• 入力: 前の層の出力と前後の時刻の隠れ状態
2019/1/19 NLP/CV 本田志温 9
2つ合わせて
Bidirectional RNN
𝒉 𝑡
(𝑙)
= 𝑎(𝑙)
𝑾(𝑙)
𝒉 𝑡
(𝑙−1)
𝒉 𝑡
(𝑙−1)
𝒉 𝑡−1
(𝑙)
+ 𝒃(𝑙)

勾配消失・勾配爆発
• ResNet
• 残差ブロックで勾配消失を防ぐ
• 1000層以上の学習を実現！
𝒉(𝑙) = 𝑓(𝑙) 𝒉(𝑙−1) + 𝒉(𝑙−1)
• ゲート付き
• 残差ブロックの重み付き版
𝒉(𝑙) = 𝒈(𝑓)⨀𝑓(𝑙) 𝒉(𝑙−1) + 𝒈(ℎ) ⨀ 𝒉(𝑙−1)
• 重み𝒈もNNで学習する
𝒈(𝒉) = 𝑎 𝑔
(𝑾(𝑔)
𝒉 + 𝒃(𝑔)
)
2019/1/19 NLP/CV 本田志温 10

LSTM
• 隠れ状態と別に記憶セルを定義
• 様々なバリエーションがある
• Peeky
• Attention(第5章)
2019/1/19 NLP/CV 本田志温 11
記憶セルc
隠れ状態h
input gate
output gate
forget gate

GRU
• 記憶セルを使わない
• reset gateで前時刻の隠れ状態を減衰
• update gateで隠れ状態の更新率を調整
• LSTMより計算量・メモリ使用量が小さい
2019/1/19 NLP/CV 本田志温 12
update gatereset gate

Tree-RNN
• recursive neural network
• 分岐数を固定した木構造
• 葉ノードからルートノードに向かって順に隠れ状態
を計算
• 文は構文解析により文法木構造に変換できる
2019/1/19 NLP/CV 本田志温 13

1D-CNN
• 1次元のフィルタを時間方向に畳み込むCNN
• CNNと同様に定義できるもの
• パディング(サイズ調整に必要)
• ストライド
• プーリング
• 特徴マップ
• RNNと違って並列化しやすい
• WaveGANで使われている
2019/1/19 NLP/CV 本田志温 14

まとめ
• RNNはループ構造を持ち, 可変長の系列入力を
扱うことができる
• より長い系列に対応するため, LSTMやGRUな
どのゲート付きRNNが考案されている
• DeepなNLPではLSTMが使われることが多い
• (しかし最近はTransformerが主流)
2019/1/19 NLP/CV 本田志温 15
2層のBiLSTM

参考文献
2019/1/19 NLP/CV 本田志温 16
• 坪井他, 深層学習による自然言語処理, 講談社, 2017.
• http://colah.github.io/posts/2015-08-Understanding-LSTMs/
• 斎藤他, ゼロから作るDeep Learning 2 自然言語処理編, O’Reilly, 2018.
• Devlin et al., “BERT: Pre-training of Deep Bidirectional Transformers
for Language Understanding”, arXiv, 2018.

深層学習による自然言語処理第2章ニューラルネットの基礎

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 深層学習による自然言語処理第2章ニューラルネットの基礎

Similar to 深層学習による自然言語処理第2章ニューラルネットの基礎 (6)

More from Shion Honda

More from Shion Honda (10)