2. 書誌情報: Deep Semi-Supervised Anomaly Detection
n ICLR 2020 accepted (6, 6, 6)
n ⼀⾔でいうと:
n 深層学習を使った1クラス分類を拡張し,少数の分布外データを利⽤して,⾒たことのない分布外
データにたいして汎化するような正則化を導⼊し分布外検知を⾏う
提案⼿法は,
学習に利⽤していない,
他の分布外データの
異常スコアが⾼くなっている
教師ありで学習すると,
⾒たことのない分布外データ
にたいして汎化しない
(分布外データは
それぞれ異なるため)
3. 背景: 分布外検知
n 分布外検知とは,訓練分布と異なるデータを検知するタスクを指す
n ex) 猫・⽝を訓練データとして学習したとき,⿃を検知できるか︖
n 異常検知(異常部位特定)も含まれるが⼿法として異なることが多い
n 分布外検知の難しさ:
n 現実的に,分布外サンプルを⼊⼿することは簡単
n しかし,ある分布外のサンプルを分布外であるとして学習しても,他の分布外のサンプルが分布
外であると推論されるとは限らない (分布外のサンプルはそれぞれ異なるため)
n 提案⼿法のアイデア:
n 分布外のサンプルはそれぞれ異なる(エントロピーが⾼くなる)という正則化を利⽤して学習する
4. 関連研究: unlabelデータを利⽤した分布外検知
unlabelデータを利⽤しない unlabelデータを利⽤する
深層学習を使わ
ない
OCSVM [Schölkopf, 2001]
他多数
SSAD [Görnitz , JAIR 2013]
他少数
深層学習を使う Deep SVDD (Ruff, ICML 2018) Deep SAD (Ruff, ICLR 2020)
n 上は紹介論⽂による分類
n unlabelデータとは,分布外か分布内かわからないデータという意味
n deep な unlabelデータを利⽤した分布外検知がないと主張しているが⾃分調べでは⼀応ある
n Unsupervised OOD detection by MCD (Yu, ICCV 2019)
n 深層学習を使い,unlabelデータを利⽤し,クラスラベルを使わず,分布外サンプルを利⽤すると
いう分布外検知ならDeep SADが初であると思われる
6. 前提知識: 情報理論の観点から
n 教師ありのとき
n 情報ボトルネック原理 [Tishby, 1999][Alemi, 2017]
n Xは⼊⼒変数,Zは潜在変数,Yは出⼒変数
n ラベルYを予測するための最⼩限な表現Zを⼊⼒Xから⾒つける → 情報量最⼩化
n 教師なしのとき
n ICA,クラスタリング,⽣成モデル,オートエンコーダなど
n 表現Zの制約のもとでの情報量最⼤化
n 今回紹介する⼿法の分布外検知は,教師あり設定だとうまく⾏かない(最初の図)ため,教師
なし設定の情報量最⼤化原理を利⽤している
7. 前提知識: Deep SVDDとエントロピー最⼩化の関係
n Deep SVDD [Ruff, 2018]はdeepを使った1クラス分類の⼿法
n xはアンラベルの訓練データ,Wはdeepの重み,φはL層のニューラルネットワーク
n Deep SVDDの⽬的は,予め決めたcを中⼼に潜在空間上の超球に訓練データを押し込むこと
n ここで,潜在空間上のエントロピーを考える
n 潜在変数が等⽅性のガウシアンに従っている場合,
n よって,これは(3)と同じ式(weight decayを無視すれば)なので,Deep SVDDはエントロ
ピー最⼩化とみなせる
8. 前提知識: Deep SVDDと情報量最⼤化の関係
n Deep SVDDはエントロピー最⼩化しているとみなせた
n さらに,Deep SVDDは事前学習として,オートエンコーダの⽬的関数を使っている
n つまり,相互情報量最⼤化を⾏っている (ちょっと無理やり感…)
n よって,相互情報量最⼤化 + 正則化項(エントロピー最⼩化)の枠組みで捉えられる
n 続いて,提案⼿法は,このDeep SVDDを拡張する⼿法であることを⽰す
9. 提案⼿法: Deep SAD
n アイデア:
n 分布内データはエントロピー最⼩化するように学習している
n 分布外データはエントロピー最⼤化するように学習すれば良いのでは︕
n 上式を元にした,Deep SADの⽬的関数
n nはアンラベルの訓練データの数,mは分布内または分布外というラベルがついた訓練データの数
n ラベルは y ∈ {-1, 1} で,-1のとき異常,1のとき正常を意味する
n mが0のとき,Deep SVDDと同じ⽬的関数になる
分布外データ 分布内データ
10. 実験: 設定
n データセット: MNIST,Fashion-MNIST,CIFAR-10
n ⽐較⼿法:
n OC-SVM Raw: deepを使わない分布外検知の半教師ではないモデル
n OC-SVM Hybrid: deepが使えるようにOC-SVMを拡張したモデル
n Deep SVDD: 前提知識で紹介したモデル
n SSAD Raw: deepを使わない半教師の分布外検知モデル
n SSAD Hybrid: deepが使えるようにSSADを拡張したモデル
n Supervised:
n 分布外データはy = -1, 分布内データはy = +1として⼆値分類器を学習する
n アンラベルデータはほとんどが分布内と仮定し,y = +1とする
n DeepSAD: 提案⼿法
11. 実験: シナリオ
n 共通シナリオ: あるデータセットのあるクラスを分布内クラスとし,その他のクラスを全て
分布外クラスとする
n シナリオ1: ラベルありの分布外クラスを⼀つ利⽤し,訓練データとその割合𝛾#を変化させる
n シナリオ2: ラベルありの分布外クラスを⼀つ利⽤し,訓練データとその割合は固定したまま,
訓練データにラベルなしの分布外データが含まれる割合𝛾$を変化させる
n シナリオ3: ラベルありの分布外クラスを複数利⽤し,そのクラスの数𝑘#を変化させる
訓練データ
アンラベルデータ数: n ラベルデータ数: m
分布外データ数: 𝑛' 分布内データ数: 𝑛(
𝛾$ = 𝑛' / (𝑛' + 𝑛()
12. 実験シナリオ1: ラベルデータに分布外データを加える
n 𝛾$ = 0とする.そのため,アンラベルデータはすべて分布内データ
n また,ラベルデータはすべて分布外データとしている
n 𝛾#が⼩さいときは特にSupervisedは他の分布外データに汎化していないことがわかる
14. 実験シナリオ3: ラベルデータに複数クラスの分布外データを加える
n 𝛾# = 0.05,𝛾$ = 0.1に固定し,分布外データとして与えるクラスの数𝑘#を増やす
n ⼀概にどの⼿法が強いとは⾔えないものの,MNIST,CIFAR10においてDeep SADが強い
n 𝑘#が⼩さいときは特にSupervisedは他の分布外データに汎化していないことがわかる
15. 結論・(⾃分の)感想
n 結論:
n 情報理論のフレームワークに基づき,情報量最⼤化を元に深層学習を使った分布外検知を考案した
n 提案⼿法は,⼀般的な半教師の分布外検知の⼿法なので,広く適⽤可能である
n (⾃分の)感想:
n ある分布外データを利⽤することで,他の分布外データに汎化するための⼿法というのは重要
n しかし,
n 提案⼿法の式として,アンラベルデータの扱いとラベルありの分布内データの扱いが同じになっており,結
果としても汚染データに強いとは⾔えないので,アンラベルを利⽤できる半教師として⼿法を推すのは変
n 情報理論との結びつけが若⼲無理やりな気がする
n 分布外データはエントロピー最⼤化するという仮定は良いと思うが,ある分布外データを訓練として使った
ときに,他の分布外データもエントロピーが最⼤化するように汎化するとは限らない気がする