20170618論文読み会伊藤

論文紹介
Learning Important Features
Through Propagating Activation
Differences
東京大学工学系研究科
システム創成学専攻和泉研究室
D1 伊藤友貴

自己紹介
• 東京大学工学系研究科和泉研究室所属
– 金融に関するデータマイニング
– 人工市場によるシミュレーション
• 普段はロイターニュースとかヤフーファイナン
ス掲示板とか触って遊んでます
• 今日紹介する論文、ちょいちょい正確に理解
できていないです…お手柔らかにお願い致し
ます

概要
• 紹介する論文
– Learning Important Features Through Propagating
Activation Differences
(A. Shrikumar et. Al, ICML, 2017)
• 概要
– Neural Network から重要な要素は何かを抽出す
る方法のアプローチ(Deep Lift 法)を提案
– 既存手法より色々良さそう

既存手法
• Perturbation approach
• Back propagation approach
– Gradients
• (Springenberg et. al. 2014) など
– Gradients × Input
• (Shrikumar et. al. 2016) など

問題点1
• 勾配0になると問題が起こる
Fig. 1

問題点2 (ジャンプ)
• ジャンプする(不連続)
Fig. 2

Deep Lift
• 勾配の問題やジャンプの問題を解決する方
法を提案 (Deep Lift )
– 個人的にはどうしてこの発想になったのかわかっ
ていないので多分ちゃんと理解できていない

Deep Lift Philosophy
ある層の値:
出力:
reference activation:
difference-from-reference:
← 基準値みたいなもの（後で定義)
Contribution Scores:
• 各入力値 (xi) の出力値(t) への影
響度(後で定義)
• これをどう計算するかが肝
← 基準値からどれくらい外れるか

Multipliers and the Chain Rule
Multipliers を以下のように定義
CHAIN RULE でを計算 (式(3))

Defining the reference
i1
i2
入力:
出力:
Reference activation:
より以下のように Reference activation を計算

Separating positive and negative
• ポジティブ項とネガティブ項を別々に考える
Linear Rule, Rescale Rule, or Reveal cancel Rule
により計算(後で定義)

Contribution Scores の計算
• 線形な変換 → Linear Rule で計算
– 例: 結合層・たたみ込み層
• 非線形な変換
→ Rescale Rule or Reveal cancel Rule で計算
– 例: tanh, ReLU

The Linear Rule
• 線形な部分 (結合・畳み込み)では以下のよう
にContribution Scores を計算
に対して

The Linear Rule
このとき, 以下が成立

THE RESCALE RULE
• 非線形部分(ReLU, tanh など)では以下のよう
に Contribution Scores を計算
• このとき以下が成立

具体例: Rescale Rule
i1
0 = i2
0 = 0, i1 + i2 > 1 の場合 Rescale Rule だと

具体例: Rescale Rule2
x0 = y0 = 0, x = 10 + ε の場合 Rescale Rule だと
不自然なジャンプ
連続

具体例3
Fig. 3
これについて i1 > i2 , i1
0 = i2
0 = 0 という条件で
とを計算
Rescale Rule を使う場合:
Reveal Cancel Rule
を使う場合:

その他の工夫
• 最終層の活性化後の値に対する入力値の
Contribution Score ではなく活性化前の
Contribution Score を計算
• 最終層が Softmax のときは全体の平均を引
いたスコアで考える

数値実験1
• MNIST
– Ex. 数字を8 から 3 に変える
（一部消す）
– Contribution Score の変化
値が消した部分に対応
するかどうか検証
– (ちゃんと把握できてません)

数値実験2
• DNA 配列の分類に関する実験
• 意図通りに Contribution Score がつくかどう
かを検証
• (すいません、ちゃんと把握できてません。)

比較手法
• 既存手法
– Guided backprop * inp ()
– Gradient * input
– Integrated gradient -5
– Integrated gradient -10
• 提案手法 (Deep LIFT)
– Deep LIFT Rescale
– Deep LIFT Reveal Cancel
– Deep LIFT fc-RC-conv-RS

結果(MNIST)
Deep Lift の方がよい

結果 (DNA)
• Deep Lift の方がよい結果
• Reveal Cancel 入れた方がよい結果

結論
• Deep Liｆｔという重要な要素は何かを抽出する方法
のフレームワーク(Deep Lift 法)を提案
• 既存手法 (gradient や gradient * input で起こるよう
な不自然なジャンプや勾配が0のときに起こる問題
を解決)
• RNNへの適用方法, Maxout, MaxPooling へのベスト
な適用方法などが課題

20170618論文読み会伊藤

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 20170618論文読み会伊藤

Similar to 20170618論文読み会伊藤 (20)