最近(2020/09/13)のarxivの分布外検知の論文を紹介

arxivのツヨ＝スンギな分布外検知の論⽂紹介
ぱんいち＠オンライン 2020/09/13

本⽇紹介する論⽂の概要
n ⼀本⽬: 対照推定使って分布外検知したらツヨ＝スンギな件
n CSI: Novelty Detection via Contrastive Learning on Distributionally Shifted Instances (arxiv)
n よくある分布外検知の問題設定:
n 分布内データ: 様々な種類の画像
n 分布外データ: ⾒たことのない種類の画像
n → CIFAR10でAUROC 0.95!?
n ⼆本⽬: pre-trainモデルの中間表現つかって分布外検知したらツヨ＝スンギな件
n Modeling the Distribution of Normal Data in Pre-Trained Deep Features for Anomaly Detection (arxiv)
n あまりみない分布外検知の問題設定:
n 分布内データ: ある特定のクラスの画像
n 分布外データ: 分布内データと同じクラスの画像だが，微⼩な差異があるもの
n → MVtecでAUROC 0.95!?

CSI: Novelty Detection via Contrastive Learning on
Distributionally Shifted Instances

事前知識: SimCLR(対照推定を使った⾃⼰教師あり学習)
n オーグメンテーションした画像(PS)は近づけて，他の
画像(NS)は離すように学習することで下流タスクが解
けるような良い表現を獲得する⼿法
n PS: positive sample，NS: negative sample

事前知識: SimCLR(対照推定を使った⾃⼰教師あり学習)
n 対照推定のロス
n よくみると負の対数尤度(NLL)の形になっている
n infoNCEといわれている
n zが特徴表現・τは温度パラメタ
n SimCLRで⽤いられるロス
n 上記のロスのバッチバージョン
n ⻘部分がpositive sample(PS)・⾚部分がnegative sample(NS)
𝑇! 𝑇"
𝑥! #𝑥!
!
#𝑥!
(")
𝑥" #𝑥"
!
#𝑥"
"
︙ ︙ ︙
𝑥% #𝑥%
!
#𝑥%
"
︙ ︙ ︙
𝑥& #𝑥&
!
#𝑥&
"
オーグメンテーション
PS
NS

提案⼿法: 分布が異なる変換をnegative sampleとする
n 提案⼿法のアイデア
n オーグメンテーションとして回転のような変換を利⽤すると，SimCLRの性能をさげる
n 回転すると同じ物体でもpositive sampleとみなすことができなくなってしまうためだと考えられる
n → 回転はnegative sampleとして考えると良いのでは?
n 思ったこと: OODの性能をあげるというか，SimCLRの性能をあげているだけでは…
n 回転した場合の⾏を追加する
n Sの要素は例えば0, 90, 180, 270度回転
n このようにすると，他の回転はnegative sampleとして計算される
𝑇! 𝑇"
𝑆'(𝑥!) #𝑥!
!
#𝑥!
(")
𝑆'(𝑥") #𝑥"
!
#𝑥"
"
︙ ︙ ︙
𝑆'(𝑥%) #𝑥%
!
#𝑥%
"
︙ ︙ ︙
𝑆'(𝑥&) #𝑥&
!
#𝑥&
"
𝑆!(𝑥!) #𝑥!
!
#𝑥!
(")
𝑆!(𝑥") #𝑥"
!
#𝑥"
"
︙ ︙ ︙

提案⼿法: 疑似ラベルが予測できるように学習する
n オーグメンテーションしたサンプルの幾何変換をあてるように学習する
n 幾何変換をあてるように学習してOODを検知するという先⾏研究はすでにあるので新規性ではない
n 最終的なロス関数
n 実験では基本的にλ=1としている
n ここまでは学習⽅法．推論時は分布外検知するためのスコアを別に提案している

提案⼿法: スコア関数
n スコア関数: OODかそうでないかの基準
n (1): 訓練サンプルにどれだけ近いか
n 直感的だが，メモリコストが問題になるため，サブセットを使う
n (2): 表現のノルム
n 実験的に差がでるため使っていると考えられる(詳しくは論⽂の付録)
n 最終的なスコア関数 = (1) x (2)
n 上記を回転を⾏ってアンサンブル + 回転をどれだけあてられるか
n さらにオーグメンテーションでアンサンブル
ここまで頑張ったらまあ精度はでるよねという感じ😅

実験: ある特定のクラスを分布内・その他のクラスを分布外とする
⾃分が知ってる限り，最近の論⽂の中では⼀番強い

Modeling the Distribution of Normal Data in Pre-Trained
Deep Features for Anomaly Detection

提案⼿法: おおまかな流れ
n 1. 訓練済みのモデルを⽤意する
n イメージネットで訓練したEfficientNetなど
n 2. 各正常データに関して，中間層の空間成分
を平均プーリングでつぶしてベクトルにする
n テンソルの形になってるので，チャネル⽅向
のみ残す
n 3. 上記ベクトルの平均と分散を推定する
n ここが正常データの分布の学習に相当する
n 4. 推論時にマハラノビス距離を層ごとに計算
し，全て⾜し合わせる
n これを異常スコアとする
n 5. 上記スコアが⼤きいものを異常と判定する

提案⼿法: 細かい話
n 経験共分散を求めるのは次元数が⼤きいとき不安定なので，以下の分散を使う
n 異常スコアとして，マハラノビス距離を使うことで，L2距離や標準ユークリッド距離(SED)
を使うよりも精度がでる
層の深さ
アンサンブル

結果: いろんなpretrained efficientnetを使った結果
n MVTecの異常データの検知精度
n 細かいキズやよごれなどの検知という難しいタスク
n ⾮常に単純な⼿法なのに極めて検知精度が⾼い

考察
n 特徴ベクトルをPCAで次元削減したとき，分散が⼤きいところを残すより，⼩さいところを
残す⽅が精度がでた
n → 異常部位は⼩さいので，異常か正常かを分類するような特徴は特徴ベクトルの細かい部
分に現れている
NPCA: 最も⼩さい固有値を残すPCA

最近(2020/09/13)のarxivの分布外検知の論文を紹介

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from ぱんいちすみもと

More from ぱんいちすみもと (18)