SlideShare a Scribd company logo
1 of 15
Download to read offline
Deep Semi-Supervised Anomaly Detection
ぱんいち@ぱんはうす 2020/02/26
書誌情報: Deep Semi-Supervised Anomaly Detection
n ICLR 2020 accepted (6, 6, 6)
n ⼀⾔でいうと:
n 深層学習を使った1クラス分類を拡張し,少数の分布外データを利⽤して,⾒たことのない分布外
データにたいして汎化するような正則化を導⼊し分布外検知を⾏う
提案⼿法は,
学習に利⽤していない,
他の分布外データの
異常スコアが⾼くなっている
教師ありで学習すると,
⾒たことのない分布外データ
にたいして汎化しない
(分布外データは
それぞれ異なるため)
背景: 分布外検知
n 分布外検知とは,訓練分布と異なるデータを検知するタスクを指す
n ex) 猫・⽝を訓練データとして学習したとき,⿃を検知できるか︖
n 異常検知(異常部位特定)も含まれるが⼿法として異なることが多い
n 分布外検知の難しさ:
n 現実的に,分布外サンプルを⼊⼿することは簡単
n しかし,ある分布外のサンプルを分布外であるとして学習しても,他の分布外のサンプルが分布
外であると推論されるとは限らない (分布外のサンプルはそれぞれ異なるため)
n 提案⼿法のアイデア:
n 分布外のサンプルはそれぞれ異なる(エントロピーが⾼くなる)という正則化を利⽤して学習する
関連研究: unlabelデータを利⽤した分布外検知
unlabelデータを利⽤しない unlabelデータを利⽤する
深層学習を使わ
ない
OCSVM [Schölkopf, 2001]
他多数
SSAD [Görnitz , JAIR 2013]
他少数
深層学習を使う Deep SVDD (Ruff, ICML 2018) Deep SAD (Ruff, ICLR 2020)
n 上は紹介論⽂による分類
n unlabelデータとは,分布外か分布内かわからないデータという意味
n deep な unlabelデータを利⽤した分布外検知がないと主張しているが⾃分調べでは⼀応ある
n Unsupervised OOD detection by MCD (Yu, ICCV 2019)
n 深層学習を使い,unlabelデータを利⽤し,クラスラベルを使わず,分布外サンプルを利⽤すると
いう分布外検知ならDeep SADが初であると思われる
関連研究: 深層学習を使った分布外検知(⾃分調べ)
クラスラベルを利⽤する クラスラベルを利⽤しない
分布外データを
利⽤しない
Baseline (Hendrycks, ICLR 2017)
Learning Confidence (DeVries, 2018)
OOD detection by MCD (Yu, ICCV 2019)
DAGMM (Zong, ICLR 2018)
Geometric (Golan, NIPS 2018)
Deep SVDD (Ruff, ICML 2018)
OCGAN (Perera, CVPR 2019)
Multiple-Hypotheses(Nguyen, ICML 2019)
Likelihood Ratios (Ren, NIPS 2019)
分布外データを
利⽤する
Confidence-calibrated (Lee, ICLR 2018)
ODIN (Liang, ICLR 2018)
Prior Networks (Malinin, NIPS 2018)
Mahalanobis (Lee, NIPS 2018)
Outlier exposure (Hendrycks, ICLR 2019)
Deep SAD (Ruff, ICLR 2020)
よくある
問題設定
異なるデータセットを分布外データにする あるデータセットのクラスを分布内データ,
その他のクラスを分布外データとする
前提知識: 情報理論の観点から
n 教師ありのとき
n 情報ボトルネック原理 [Tishby, 1999][Alemi, 2017]
n Xは⼊⼒変数,Zは潜在変数,Yは出⼒変数
n ラベルYを予測するための最⼩限な表現Zを⼊⼒Xから⾒つける → 情報量最⼩化
n 教師なしのとき
n ICA,クラスタリング,⽣成モデル,オートエンコーダなど
n 表現Zの制約のもとでの情報量最⼤化
n 今回紹介する⼿法の分布外検知は,教師あり設定だとうまく⾏かない(最初の図)ため,教師
なし設定の情報量最⼤化原理を利⽤している
前提知識: Deep SVDDとエントロピー最⼩化の関係
n Deep SVDD [Ruff, 2018]はdeepを使った1クラス分類の⼿法
n xはアンラベルの訓練データ,Wはdeepの重み,φはL層のニューラルネットワーク
n Deep SVDDの⽬的は,予め決めたcを中⼼に潜在空間上の超球に訓練データを押し込むこと
n ここで,潜在空間上のエントロピーを考える
n 潜在変数が等⽅性のガウシアンに従っている場合,
n よって,これは(3)と同じ式(weight decayを無視すれば)なので,Deep SVDDはエントロ
ピー最⼩化とみなせる
前提知識: Deep SVDDと情報量最⼤化の関係
n Deep SVDDはエントロピー最⼩化しているとみなせた
n さらに,Deep SVDDは事前学習として,オートエンコーダの⽬的関数を使っている
n つまり,相互情報量最⼤化を⾏っている (ちょっと無理やり感…)
n よって,相互情報量最⼤化 + 正則化項(エントロピー最⼩化)の枠組みで捉えられる
n 続いて,提案⼿法は,このDeep SVDDを拡張する⼿法であることを⽰す
提案⼿法: Deep SAD
n アイデア:
n 分布内データはエントロピー最⼩化するように学習している
n 分布外データはエントロピー最⼤化するように学習すれば良いのでは︕
n 上式を元にした,Deep SADの⽬的関数
n nはアンラベルの訓練データの数,mは分布内または分布外というラベルがついた訓練データの数
n ラベルは y ∈ {-1, 1} で,-1のとき異常,1のとき正常を意味する
n mが0のとき,Deep SVDDと同じ⽬的関数になる
分布外データ 分布内データ
実験: 設定
n データセット: MNIST,Fashion-MNIST,CIFAR-10
n ⽐較⼿法:
n OC-SVM Raw: deepを使わない分布外検知の半教師ではないモデル
n OC-SVM Hybrid: deepが使えるようにOC-SVMを拡張したモデル
n Deep SVDD: 前提知識で紹介したモデル
n SSAD Raw: deepを使わない半教師の分布外検知モデル
n SSAD Hybrid: deepが使えるようにSSADを拡張したモデル
n Supervised:
n 分布外データはy = -1, 分布内データはy = +1として⼆値分類器を学習する
n アンラベルデータはほとんどが分布内と仮定し,y = +1とする
n DeepSAD: 提案⼿法
実験: シナリオ
n 共通シナリオ: あるデータセットのあるクラスを分布内クラスとし,その他のクラスを全て
分布外クラスとする
n シナリオ1: ラベルありの分布外クラスを⼀つ利⽤し,訓練データとその割合𝛾#を変化させる
n シナリオ2: ラベルありの分布外クラスを⼀つ利⽤し,訓練データとその割合は固定したまま,
訓練データにラベルなしの分布外データが含まれる割合𝛾$を変化させる
n シナリオ3: ラベルありの分布外クラスを複数利⽤し,そのクラスの数𝑘#を変化させる
訓練データ
アンラベルデータ数: n ラベルデータ数: m
分布外データ数: 𝑛' 分布内データ数: 𝑛(
𝛾$ = 𝑛' / (𝑛' + 𝑛()
実験シナリオ1: ラベルデータに分布外データを加える
n 𝛾$ = 0とする.そのため,アンラベルデータはすべて分布内データ
n また,ラベルデータはすべて分布外データとしている
n 𝛾#が⼩さいときは特にSupervisedは他の分布外データに汎化していないことがわかる
実験シナリオ2: アンラベルデータに分布外データを加える
n 𝛾# = 0.05に固定し, 𝛾$の割合を変える
n どの⼿法が強いというのは⼀概には⾔えなそう
実験シナリオ3: ラベルデータに複数クラスの分布外データを加える
n 𝛾# = 0.05,𝛾$ = 0.1に固定し,分布外データとして与えるクラスの数𝑘#を増やす
n ⼀概にどの⼿法が強いとは⾔えないものの,MNIST,CIFAR10においてDeep SADが強い
n 𝑘#が⼩さいときは特にSupervisedは他の分布外データに汎化していないことがわかる
結論・(⾃分の)感想
n 結論:
n 情報理論のフレームワークに基づき,情報量最⼤化を元に深層学習を使った分布外検知を考案した
n 提案⼿法は,⼀般的な半教師の分布外検知の⼿法なので,広く適⽤可能である
n (⾃分の)感想:
n ある分布外データを利⽤することで,他の分布外データに汎化するための⼿法というのは重要
n しかし,
n 提案⼿法の式として,アンラベルデータの扱いとラベルありの分布内データの扱いが同じになっており,結
果としても汚染データに強いとは⾔えないので,アンラベルを利⽤できる半教師として⼿法を推すのは変
n 情報理論との結びつけが若⼲無理やりな気がする
n 分布外データはエントロピー最⼤化するという仮定は良いと思うが,ある分布外データを訓練として使った
ときに,他の分布外データもエントロピーが最⼤化するように汎化するとは限らない気がする

More Related Content

What's hot

What's hot (20)

Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
 
[Ridge-i 論文よみかい] Wasserstein auto encoder
[Ridge-i 論文よみかい] Wasserstein auto encoder[Ridge-i 論文よみかい] Wasserstein auto encoder
[Ridge-i 論文よみかい] Wasserstein auto encoder
 
最新の異常検知手法(NIPS 2018)
最新の異常検知手法(NIPS 2018)最新の異常検知手法(NIPS 2018)
最新の異常検知手法(NIPS 2018)
 
Deeplearning輪読会
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
[DL輪読会]World Models
[DL輪読会]World Models[DL輪読会]World Models
[DL輪読会]World Models
 
[DL輪読会]医用画像解析におけるセグメンテーション
[DL輪読会]医用画像解析におけるセグメンテーション[DL輪読会]医用画像解析におけるセグメンテーション
[DL輪読会]医用画像解析におけるセグメンテーション
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
 
Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 

More from ぱんいち すみもと

More from ぱんいち すみもと (15)

ICLR・ICML読み会2021 by パンハウスゼミ
ICLR・ICML読み会2021 by パンハウスゼミICLR・ICML読み会2021 by パンハウスゼミ
ICLR・ICML読み会2021 by パンハウスゼミ
 
Free lunch for few shot learning distribution calibration
Free lunch for few shot learning distribution calibrationFree lunch for few shot learning distribution calibration
Free lunch for few shot learning distribution calibration
 
最近(2020/09/13)のarxivの分布外検知の論文を紹介
最近(2020/09/13)のarxivの分布外検知の論文を紹介最近(2020/09/13)のarxivの分布外検知の論文を紹介
最近(2020/09/13)のarxivの分布外検知の論文を紹介
 
continual learning survey
continual learning surveycontinual learning survey
continual learning survey
 
Contrastive learning 20200607
Contrastive learning 20200607Contrastive learning 20200607
Contrastive learning 20200607
 
Variational denoising network
Variational denoising networkVariational denoising network
Variational denoising network
 
Anomaly Detection by Latent Regularized Dual Adversarial Networks
Anomaly Detection by Latent Regularized Dual Adversarial NetworksAnomaly Detection by Latent Regularized Dual Adversarial Networks
Anomaly Detection by Latent Regularized Dual Adversarial Networks
 
パンハウスゼミ 異常検知論文紹介 20191005
パンハウスゼミ 異常検知論文紹介  20191005パンハウスゼミ 異常検知論文紹介  20191005
パンハウスゼミ 異常検知論文紹介 20191005
 
Dual dl
Dual dlDual dl
Dual dl
 
Categorical reparameterization with gumbel softmax
Categorical reparameterization with gumbel softmaxCategorical reparameterization with gumbel softmax
Categorical reparameterization with gumbel softmax
 
Domain transfer サーベイ
Domain transfer サーベイDomain transfer サーベイ
Domain transfer サーベイ
 
Intro VAE
Intro VAEIntro VAE
Intro VAE
 
パンでも分かるVariational Autoencoder
パンでも分かるVariational Autoencoderパンでも分かるVariational Autoencoder
パンでも分かるVariational Autoencoder
 
PRML 14章
PRML 14章PRML 14章
PRML 14章
 
PRML 9章
PRML 9章PRML 9章
PRML 9章
 

Deep Semi-Supervised Anomaly Detection

  • 1. Deep Semi-Supervised Anomaly Detection ぱんいち@ぱんはうす 2020/02/26
  • 2. 書誌情報: Deep Semi-Supervised Anomaly Detection n ICLR 2020 accepted (6, 6, 6) n ⼀⾔でいうと: n 深層学習を使った1クラス分類を拡張し,少数の分布外データを利⽤して,⾒たことのない分布外 データにたいして汎化するような正則化を導⼊し分布外検知を⾏う 提案⼿法は, 学習に利⽤していない, 他の分布外データの 異常スコアが⾼くなっている 教師ありで学習すると, ⾒たことのない分布外データ にたいして汎化しない (分布外データは それぞれ異なるため)
  • 3. 背景: 分布外検知 n 分布外検知とは,訓練分布と異なるデータを検知するタスクを指す n ex) 猫・⽝を訓練データとして学習したとき,⿃を検知できるか︖ n 異常検知(異常部位特定)も含まれるが⼿法として異なることが多い n 分布外検知の難しさ: n 現実的に,分布外サンプルを⼊⼿することは簡単 n しかし,ある分布外のサンプルを分布外であるとして学習しても,他の分布外のサンプルが分布 外であると推論されるとは限らない (分布外のサンプルはそれぞれ異なるため) n 提案⼿法のアイデア: n 分布外のサンプルはそれぞれ異なる(エントロピーが⾼くなる)という正則化を利⽤して学習する
  • 4. 関連研究: unlabelデータを利⽤した分布外検知 unlabelデータを利⽤しない unlabelデータを利⽤する 深層学習を使わ ない OCSVM [Schölkopf, 2001] 他多数 SSAD [Görnitz , JAIR 2013] 他少数 深層学習を使う Deep SVDD (Ruff, ICML 2018) Deep SAD (Ruff, ICLR 2020) n 上は紹介論⽂による分類 n unlabelデータとは,分布外か分布内かわからないデータという意味 n deep な unlabelデータを利⽤した分布外検知がないと主張しているが⾃分調べでは⼀応ある n Unsupervised OOD detection by MCD (Yu, ICCV 2019) n 深層学習を使い,unlabelデータを利⽤し,クラスラベルを使わず,分布外サンプルを利⽤すると いう分布外検知ならDeep SADが初であると思われる
  • 5. 関連研究: 深層学習を使った分布外検知(⾃分調べ) クラスラベルを利⽤する クラスラベルを利⽤しない 分布外データを 利⽤しない Baseline (Hendrycks, ICLR 2017) Learning Confidence (DeVries, 2018) OOD detection by MCD (Yu, ICCV 2019) DAGMM (Zong, ICLR 2018) Geometric (Golan, NIPS 2018) Deep SVDD (Ruff, ICML 2018) OCGAN (Perera, CVPR 2019) Multiple-Hypotheses(Nguyen, ICML 2019) Likelihood Ratios (Ren, NIPS 2019) 分布外データを 利⽤する Confidence-calibrated (Lee, ICLR 2018) ODIN (Liang, ICLR 2018) Prior Networks (Malinin, NIPS 2018) Mahalanobis (Lee, NIPS 2018) Outlier exposure (Hendrycks, ICLR 2019) Deep SAD (Ruff, ICLR 2020) よくある 問題設定 異なるデータセットを分布外データにする あるデータセットのクラスを分布内データ, その他のクラスを分布外データとする
  • 6. 前提知識: 情報理論の観点から n 教師ありのとき n 情報ボトルネック原理 [Tishby, 1999][Alemi, 2017] n Xは⼊⼒変数,Zは潜在変数,Yは出⼒変数 n ラベルYを予測するための最⼩限な表現Zを⼊⼒Xから⾒つける → 情報量最⼩化 n 教師なしのとき n ICA,クラスタリング,⽣成モデル,オートエンコーダなど n 表現Zの制約のもとでの情報量最⼤化 n 今回紹介する⼿法の分布外検知は,教師あり設定だとうまく⾏かない(最初の図)ため,教師 なし設定の情報量最⼤化原理を利⽤している
  • 7. 前提知識: Deep SVDDとエントロピー最⼩化の関係 n Deep SVDD [Ruff, 2018]はdeepを使った1クラス分類の⼿法 n xはアンラベルの訓練データ,Wはdeepの重み,φはL層のニューラルネットワーク n Deep SVDDの⽬的は,予め決めたcを中⼼に潜在空間上の超球に訓練データを押し込むこと n ここで,潜在空間上のエントロピーを考える n 潜在変数が等⽅性のガウシアンに従っている場合, n よって,これは(3)と同じ式(weight decayを無視すれば)なので,Deep SVDDはエントロ ピー最⼩化とみなせる
  • 8. 前提知識: Deep SVDDと情報量最⼤化の関係 n Deep SVDDはエントロピー最⼩化しているとみなせた n さらに,Deep SVDDは事前学習として,オートエンコーダの⽬的関数を使っている n つまり,相互情報量最⼤化を⾏っている (ちょっと無理やり感…) n よって,相互情報量最⼤化 + 正則化項(エントロピー最⼩化)の枠組みで捉えられる n 続いて,提案⼿法は,このDeep SVDDを拡張する⼿法であることを⽰す
  • 9. 提案⼿法: Deep SAD n アイデア: n 分布内データはエントロピー最⼩化するように学習している n 分布外データはエントロピー最⼤化するように学習すれば良いのでは︕ n 上式を元にした,Deep SADの⽬的関数 n nはアンラベルの訓練データの数,mは分布内または分布外というラベルがついた訓練データの数 n ラベルは y ∈ {-1, 1} で,-1のとき異常,1のとき正常を意味する n mが0のとき,Deep SVDDと同じ⽬的関数になる 分布外データ 分布内データ
  • 10. 実験: 設定 n データセット: MNIST,Fashion-MNIST,CIFAR-10 n ⽐較⼿法: n OC-SVM Raw: deepを使わない分布外検知の半教師ではないモデル n OC-SVM Hybrid: deepが使えるようにOC-SVMを拡張したモデル n Deep SVDD: 前提知識で紹介したモデル n SSAD Raw: deepを使わない半教師の分布外検知モデル n SSAD Hybrid: deepが使えるようにSSADを拡張したモデル n Supervised: n 分布外データはy = -1, 分布内データはy = +1として⼆値分類器を学習する n アンラベルデータはほとんどが分布内と仮定し,y = +1とする n DeepSAD: 提案⼿法
  • 11. 実験: シナリオ n 共通シナリオ: あるデータセットのあるクラスを分布内クラスとし,その他のクラスを全て 分布外クラスとする n シナリオ1: ラベルありの分布外クラスを⼀つ利⽤し,訓練データとその割合𝛾#を変化させる n シナリオ2: ラベルありの分布外クラスを⼀つ利⽤し,訓練データとその割合は固定したまま, 訓練データにラベルなしの分布外データが含まれる割合𝛾$を変化させる n シナリオ3: ラベルありの分布外クラスを複数利⽤し,そのクラスの数𝑘#を変化させる 訓練データ アンラベルデータ数: n ラベルデータ数: m 分布外データ数: 𝑛' 分布内データ数: 𝑛( 𝛾$ = 𝑛' / (𝑛' + 𝑛()
  • 12. 実験シナリオ1: ラベルデータに分布外データを加える n 𝛾$ = 0とする.そのため,アンラベルデータはすべて分布内データ n また,ラベルデータはすべて分布外データとしている n 𝛾#が⼩さいときは特にSupervisedは他の分布外データに汎化していないことがわかる
  • 13. 実験シナリオ2: アンラベルデータに分布外データを加える n 𝛾# = 0.05に固定し, 𝛾$の割合を変える n どの⼿法が強いというのは⼀概には⾔えなそう
  • 14. 実験シナリオ3: ラベルデータに複数クラスの分布外データを加える n 𝛾# = 0.05,𝛾$ = 0.1に固定し,分布外データとして与えるクラスの数𝑘#を増やす n ⼀概にどの⼿法が強いとは⾔えないものの,MNIST,CIFAR10においてDeep SADが強い n 𝑘#が⼩さいときは特にSupervisedは他の分布外データに汎化していないことがわかる
  • 15. 結論・(⾃分の)感想 n 結論: n 情報理論のフレームワークに基づき,情報量最⼤化を元に深層学習を使った分布外検知を考案した n 提案⼿法は,⼀般的な半教師の分布外検知の⼿法なので,広く適⽤可能である n (⾃分の)感想: n ある分布外データを利⽤することで,他の分布外データに汎化するための⼿法というのは重要 n しかし, n 提案⼿法の式として,アンラベルデータの扱いとラベルありの分布内データの扱いが同じになっており,結 果としても汚染データに強いとは⾔えないので,アンラベルを利⽤できる半教師として⼿法を推すのは変 n 情報理論との結びつけが若⼲無理やりな気がする n 分布外データはエントロピー最⼤化するという仮定は良いと思うが,ある分布外データを訓練として使った ときに,他の分布外データもエントロピーが最⼤化するように汎化するとは限らない気がする