Submit Search
Upload
単純ベイズ法による異常検知 #ml-professional
•
15 likes
•
7,134 views
A
Ai Makabi
Follow
単純ベイズ法による異常検知 #ml-professional
Read less
Read more
Data & Analytics
Report
Share
Report
Share
1 of 92
Download Now
Download to read offline
Recommended
機械学習プロフェッショナルシリーズ輪読会 #5 異常検知と変化検知 Chapter 1 & 2 資料
機械学習プロフェッショナルシリーズ輪読会 #5 異常検知と変化検知 Chapter 1 & 2 資料
at grandpa
異常検知と変化検知 第4章 近傍法による異常検知
異常検知と変化検知 第4章 近傍法による異常検知
Ken'ichi Matsui
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
ohken
統計的学習の基礎6章前半 #カステラ本
統計的学習の基礎6章前半 #カステラ本
Akifumi Eguchi
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
Akira Masuda
マルコフ連鎖モンテカルロ法入門-1
マルコフ連鎖モンテカルロ法入門-1
Nagi Teramo
One Class SVMを用いた異常値検知
One Class SVMを用いた異常値検知
Yuto Mori
はじパタ6章前半
はじパタ6章前半
T T
More Related Content
What's hot
ユーザーサイド情報検索システム
ユーザーサイド情報検索システム
joisino
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
Yoshitake Takebayashi
幾何を使った統計のはなし
幾何を使った統計のはなし
Toru Imai
主成分分析
主成分分析
大貴 末廣
最適化超入門
最適化超入門
Takami Sato
異常検知 - 何を探すかよく分かっていないものを見つける方法
異常検知 - 何を探すかよく分かっていないものを見つける方法
MapR Technologies Japan
20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則
koba cky
3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布
Junya Saito
異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知
hagino 3000
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
Naoki Hayashi
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!
takehikoihayashi
時系列分析による異常検知入門
時系列分析による異常検知入門
Yohei Sato
最適輸送入門
最適輸送入門
joisino
先端技術とメディア表現1 #FTMA15
先端技術とメディア表現1 #FTMA15
Yoichi Ochiai
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
新分野に飛び入って半年で業績を作るには
新分野に飛び入って半年で業績を作るには
Asai Masataro
線形計画法入門
線形計画法入門
Shunji Umetani
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
Ryosuke Tachibana
Stanコードの書き方 中級編
Stanコードの書き方 中級編
Hiroshi Shimizu
Visual Studio CodeでRを使う
Visual Studio CodeでRを使う
Atsushi Hayakawa
What's hot
(20)
ユーザーサイド情報検索システム
ユーザーサイド情報検索システム
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
幾何を使った統計のはなし
幾何を使った統計のはなし
主成分分析
主成分分析
最適化超入門
最適化超入門
異常検知 - 何を探すかよく分かっていないものを見つける方法
異常検知 - 何を探すかよく分かっていないものを見つける方法
20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則
3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布
異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!
時系列分析による異常検知入門
時系列分析による異常検知入門
最適輸送入門
最適輸送入門
先端技術とメディア表現1 #FTMA15
先端技術とメディア表現1 #FTMA15
全力解説!Transformer
全力解説!Transformer
新分野に飛び入って半年で業績を作るには
新分野に飛び入って半年で業績を作るには
線形計画法入門
線形計画法入門
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
Stanコードの書き方 中級編
Stanコードの書き方 中級編
Visual Studio CodeでRを使う
Visual Studio CodeでRを使う
Similar to 単純ベイズ法による異常検知 #ml-professional
異常検知と変化検知で復習するPRML
異常検知と変化検知で復習するPRML
Katsuya Ito
不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
ベイズ統計入門
ベイズ統計入門
Miyoshi Yuya
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
Zansa
データサイエンス概論第一=1-3 平均と分散
データサイエンス概論第一=1-3 平均と分散
Seiichi Uchida
【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 8: Inferring Two Binomial P...
【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 8: Inferring Two Binomial P...
Junki Marui
異常検知と変化検知の1~3章をまとめてみた
異常検知と変化検知の1~3章をまとめてみた
Takahiro Yoshizawa
マルコフ連鎖モンテカルロ法入門-2
マルコフ連鎖モンテカルロ法入門-2
Nagi Teramo
Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3
Toshihiko Iio
基礎からのベイズ統計学 3章(3.1~3.3)
基礎からのベイズ統計学 3章(3.1~3.3)
TeranishiKeisuke
データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=4-2 確率と確率分布
Seiichi Uchida
Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)
正志 坪坂
カステラ本勉強会 第三回
カステラ本勉強会 第三回
ke beck
みどりぼん9章前半
みどりぼん9章前半
Akifumi Eguchi
PRML第3章_3.3-3.4
PRML第3章_3.3-3.4
Takashi Tamura
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
Naoki Hayashi
データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度
Seiichi Uchida
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
hirokazutanaka
パターン認識 第10章 決定木
パターン認識 第10章 決定木
Miyoshi Yuya
6 Info Theory
6 Info Theory
melvincabatuan
Similar to 単純ベイズ法による異常検知 #ml-professional
(20)
異常検知と変化検知で復習するPRML
異常検知と変化検知で復習するPRML
不均衡データのクラス分類
不均衡データのクラス分類
ベイズ統計入門
ベイズ統計入門
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
データサイエンス概論第一=1-3 平均と分散
データサイエンス概論第一=1-3 平均と分散
【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 8: Inferring Two Binomial P...
【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 8: Inferring Two Binomial P...
異常検知と変化検知の1~3章をまとめてみた
異常検知と変化検知の1~3章をまとめてみた
マルコフ連鎖モンテカルロ法入門-2
マルコフ連鎖モンテカルロ法入門-2
Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3
基礎からのベイズ統計学 3章(3.1~3.3)
基礎からのベイズ統計学 3章(3.1~3.3)
データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=4-2 確率と確率分布
Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)
カステラ本勉強会 第三回
カステラ本勉強会 第三回
みどりぼん9章前半
みどりぼん9章前半
PRML第3章_3.3-3.4
PRML第3章_3.3-3.4
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
パターン認識 第10章 決定木
パターン認識 第10章 決定木
6 Info Theory
6 Info Theory
More from Ai Makabi
Ansibleを使ってローカル開発環境を作ろう ( #PyLadiesTokyo Meetup )
Ansibleを使ってローカル開発環境を作ろう ( #PyLadiesTokyo Meetup )
Ai Makabi
Python for Beginners ( #PyLadiesKyoto Meetup )
Python for Beginners ( #PyLadiesKyoto Meetup )
Ai Makabi
Chapter 02 #ml-professional
Chapter 02 #ml-professional
Ai Makabi
Chapter 01 #ml-professional
Chapter 01 #ml-professional
Ai Makabi
ガンダムを見た事のない私が想像だけでガンダムを語る Ver.2
ガンダムを見た事のない私が想像だけでガンダムを語る Ver.2
Ai Makabi
Pyladies tokyo 20150123
Pyladies tokyo 20150123
Ai Makabi
Pycharm 4への誘い
Pycharm 4への誘い
Ai Makabi
PyLadies Tokyo 立ち上げのお知らせ
PyLadies Tokyo 立ち上げのお知らせ
Ai Makabi
Juliaのススメ
Juliaのススメ
Ai Makabi
バンディットアルゴリズム勉強会
バンディットアルゴリズム勉強会
Ai Makabi
More from Ai Makabi
(10)
Ansibleを使ってローカル開発環境を作ろう ( #PyLadiesTokyo Meetup )
Ansibleを使ってローカル開発環境を作ろう ( #PyLadiesTokyo Meetup )
Python for Beginners ( #PyLadiesKyoto Meetup )
Python for Beginners ( #PyLadiesKyoto Meetup )
Chapter 02 #ml-professional
Chapter 02 #ml-professional
Chapter 01 #ml-professional
Chapter 01 #ml-professional
ガンダムを見た事のない私が想像だけでガンダムを語る Ver.2
ガンダムを見た事のない私が想像だけでガンダムを語る Ver.2
Pyladies tokyo 20150123
Pyladies tokyo 20150123
Pycharm 4への誘い
Pycharm 4への誘い
PyLadies Tokyo 立ち上げのお知らせ
PyLadies Tokyo 立ち上げのお知らせ
Juliaのススメ
Juliaのススメ
バンディットアルゴリズム勉強会
バンディットアルゴリズム勉強会
単純ベイズ法による異常検知 #ml-professional
1.
異常検知と変化検知 単純ベイズ法による異常検知 機械学習プロフェッショナルシリーズ輪読会 #6 @a_macbee /
2015-10-07
2.
第三章: 単純ベイズ法による 異常検知 について学んでいきます
3.
3.1 多次元の問題を1次元に 帰着する
4.
この章では多次元の問題について考える
5.
この章では多次元の問題について考える 多次元の異常検知問題の例:スパムメール検知 メール文章中の各単語の 出現頻度情報を利用して スパム (=異常) か判定 {
こんにちは: 1, お得: 0, … } → 普通のメール ( 正常 ) { こんにちは: 0, お得: 10, … } → スパムメール ( 異常 )
6.
この章では多次元の問題について考える 多次元の異常検知問題の例:スパムメール検知 メール文章中の各単語の 出現頻度情報を利用して スパム (=異常) か判定 単語の種類数が次元数に相当する {
こんにちは: 1, お得: 0, … } → 普通のメール ( 正常 ) { こんにちは: 0, お得: 10, … } → スパムメール ( 異常 )
7.
{ こんにちは: 1,
お得: 0, … } → 普通のメール ( 正常 ) { こんにちは: 0, お得: 10, … } → スパムメール ( 異常 )
8.
{ こんにちは: 1,
お得: 0, … } → 普通のメール ( 正常 ) { こんにちは: 0, お得: 10, … } → スパムメール ( 異常 ) x(1) = { x1 (1), x2 (1), … xM (1)} → 0 = y(1) x(2) = { x1 (2), x2 (2), … xM (2)} → 1 = y(2) … x(N) = { x1 (N), x2 (N), … xM (N)} → 0 = y(N) 正常:y = 0 異常:y = 1
9.
{ こんにちは: 1,
お得: 0, … } → 普通のメール ( 正常 ) { こんにちは: 0, お得: 10, … } → スパムメール ( 異常 ) x(1) = { x1 (1), x2 (1), … xM (1)} → 0 = y(1) x(2) = { x1 (2), x2 (2), … xM (2)} → 1 = y(2) … x(N) = { x1 (N), x2 (N), … xM (N)} → 0 = y(N) ( 1.1 ) 正常:y = 0 異常:y = 1 M次元のラベル付き異常値検出問題
10.
何が難しいのか?
11.
{ こんにちは: 1,
お得: 0, … } → 普通のメール ( 正常 ) { こんにちは: 0, お得: 10, … } → スパムメール ( 異常 ) x(1) = { x1 (1), x2 (1), … xM (1)} → 0 = y(1) x(2) = { x1 (2), x2 (2), … xM (2)} → 1 = y(2) … x(N) = { x1 (N), x2 (N), … xM (N)} → 0 = y(N) ( 1.1 ) 正常:y = 0 異常:y = 1 「変数がたくさんあって手に負えない」 = Mの次元数が増えると辛い ( 1.2 )
12.
そんなときの 単純ベイズ法 (a.k.a ナイーブベイズ法)
13.
単純ベイズ法 ベイズの定理に従い事後確率が最大になる y に分類 (
今回の例の場合,y は 0 or 1,x は M次元のベクトル)
14.
単純ベイズ法 ベイズの定理に従い事後確率が最大になる y に分類 (
今回の例の場合,y は 0 or 1,x は M次元のベクトル) ここで,M次元の変数それぞれが独立であると仮定 → ナイーブ 尤度を各パラメータ毎の尤度の積で書ける ( 3.1 )
15.
単純ベイズ法 ベイズの定理に従い事後確率が最大になる y に分類 (
今回の例の場合,y は 0 or 1 ) ここで,M次元の変数それぞれが独立であると仮定 → ナイーブ 尤度を各パラメータ毎の尤度の積で書ける ( 3.1 ) 異常度の計算に使います ( 1.2 )
16.
「統計的に独立」 って何が嬉しいの? 深ぼってみる
17.
尤度を最尤推定の枠組みで考える 1/2 ( 3.1
)
18.
尤度を最尤推定の枠組みで考える 1/2 ( 3.1
) 対数尤度で考える 未知パラメータを含む形で明示的に書く ( 3.2 )
19.
尤度を最尤推定の枠組みで考える 1/2 ( 3.1
) 対数尤度で考える 未知パラメータを含む形で明示的に書く ( 3.2 ) 今回の例の場合,多項分布 となるため (※後述), i 番目の語の出現確率D1はy(n)=1となる標本の集合
20.
尤度を最尤推定の枠組みで考える 2/2 未知パラメータ毎に微分して 0
になる点が 最尤解を与える ※1 θに拘束条件がないと仮定 変数ごと,yごとに問題が切り分けられる! ( 3.2 )
21.
変数が統計的に独立な場合の最尤推定 式 (3.1) のように変数ごとに積の形となってい る場合,M変数のそれぞれに対して別々に最尤 推定することで,モデルのパラメータを求める ことができる 定理
3.1 ( 3.1 )
22.
[章3.1] まとめ
23.
まとめ 1/2 • 多次元の問題について考えるにあたり,単純ベ イズ法の考え方を導入した
24.
まとめ 1/2 • 多次元の問題について考えるにあたり,単純ベ イズ法の考え方を導入した •
変数が統計的に独立であると仮定して,尤度は 各パラメータの積で与えられる ( 3.1 )
25.
まとめ 1/2 • 多次元の問題について考えるにあたり,単純ベ イズ法の考え方を導入した •
変数が統計的に独立であると仮定して,尤度は 各パラメータの積で与えられる ( 3.1 ) 異常度の計算に使います ( 1.2 )
26.
まとめ 2/2 • M変数のそれぞれについて最尤推定することで,モデル のパラメータを求められる
(定理 3.1) • ここでは,単純ベイズ法は各変数が独立だとみなすモ デリング手法を異常度に適用したもの・・・と考えてOK ( 3.2 )
27.
まとめ 2/2 • M変数のそれぞれについて最尤推定することで,モデル のパラメータを求められる
(定理 3.1) • ここでは,単純ベイズ法の各変数が独立だとみなすモ デリング手法を,異常度計算に適用した ( 3.2 )
28.
まとめ 2/2 • M変数のそれぞれについて最尤推定することで,モデル のパラメータを求められる
(定理 3.1) • ここでは,単純ベイズ法の各変数が独立だとみなすモ デリング手法を,異常度計算に適用した ( 3.2 ) 今回の例の場合,多項分布 となるとしてたけど・・・ 多項分布って何だっけ?
29.
多項分布による単純ベイズ分類 について深掘る
30.
3.3 多項分布による 単純ベイズ分類
31.
多項分布:頻度についての分布 頻度を集計したベクトル x について,x
の出方を表す確率分布 ( 3.6 ) 条件:
32.
多項分布:頻度についての分布 頻度を集計したベクトル x について,x
の出方を表す確率分布 ( 3.6 ) 条件: 各メールを文章中の単語の集まりで表す x = ( うれしい, がっかり, 値段, … ) 各単語の頻度を単語ごとに集計 メールを単語の袋詰で表現する Bag-of-Wordsモデル
33.
多項分布:頻度についての分布 頻度を集計したベクトル x について,x
の出方を表す確率分布 ( 3.6 ) 条件: 各単語の出現確率 各単語の 出現確率の和は1 単語の総数の階乗をAとすると
34.
多項分布:頻度についての分布 頻度を集計したベクトル x について,x
の出方を表す確率分布 ( 3.6 ) 条件:
35.
改めて対数尤度関数をみてみると・・・ ( 3.2 )
36.
改めて対数尤度関数をみてみると・・・ ( 3.2 ) y=0と1に対応して Mult(x¦θ0)とMult(x¦θ1)のモデルを仮定 θ0とθ1を最尤推定する (
3.7 ) ※ (定数) は未知パラメータに関係しない定数
37.
改めて対数尤度関数をみてみると・・・ ( 3.2 ) y=0と1に対応して Mult(x¦θ0)とMult(x¦θ1)のモデルを仮定 θ0とθ1を最尤推定する (
3.7 ) ただし,次の制約を満たすこと: この対数尤度関数を最大化する
38.
制約をラグランジュの未定乗数で取り入れると以下の通リ書ける 束縛条件最大化したい関数
39.
整理すると以下の通リ書ける よく出現する単語ほど出現確率が 高く見積もられる ( Dyにおける単語 i
の出現総数 )=Ni y ( Dyにおける全単語の出現総数 )=¦Dy¦
40.
整理すると以下の通リ書ける ( Dyにおける単語 i
の出現総数 )=Ni y ( Dyにおける全単語の出現総数 )=¦Dy¦ よく出現する単語ほど出現確率が 高く見積もられる 一度も出現しない単語をゼロ扱いするのは都合が悪い → スムージングする γ > 0 としてゲタを履かせる
41.
多項分布のパラメータを 求めることが出来た!
42.
求めたパラメータを利用して 異常値検出をしよう
43.
異常値検出: スパムメール検出 ( 3.9
) ( 1.2 ) 求めた多項分布の式を代入 係数ベクトルα → 線形分類器の 形になっている
44.
[章3.3] まとめ
45.
まとめ 1/3 • 確率分布が多項分布である場合の単純ベイズ法 について考える •
例えばメールのBag-of-Wordsの表現は多項 分布にあたる ( 3.6 )
46.
まとめ 2/3 • 確率分布を多項分布とした場合の最尤推定 →
よく出現する単語ほど出現確率が高く見積もられる ゲタを履かせる → スムージング
47.
まとめ 3/3 • 求めた最尤値を利用して異常度を計算できる •
異常度は本質的には線形分類器になっている
48.
3.4 最大事後確率推定と 多項分布のスムージング
49.
未知パラメータの事前分布 • 未知パラメータに常識的な想定を込めた事前分布を導入 → 多項分布の場合は「ディリクレ分布」 定数
αi > 0 を設定 (αnを無限とおくとn次元目の単語は必ず出現すると想定している) ( 3.10 )
50.
未知パラメータの事前分布 • 未知パラメータに常識的な想定を込めた事前分布を導入 → 多項分布の場合は「ディリクレ分布」 定数
αi > 0 を設定 (αnを無限とおくとn次元目の単語は必ず出現すると想定している) 最大事後確率推定でモデルを推定する ( 3.10 )
51.
定義 3.1: 最大事後確率推定 •
データDを与えたときのパラメータθの尤度を p(D¦θ) とする.また,θの事前分布を p(θ) と する.このとき,最適パラメータθ* を により選ぶ方法を,最大事後確率推定もしくは MAP推定と呼ぶ. ( 3.12 )
52.
定義 3.1: 最大事後確率推定 •
データDを与えたときのパラメータθの尤度を p(D¦θ) とする.また,θの事前分布を p(θ) と する.このとき,最適パラメータθ* を により選ぶ方法を,最大事後確率推定もしくは MAP推定と呼ぶ. ( 3.12 ) 尤度と事前分布の積を最大化するθ → 事後分布を最大化するθ
53.
最大事後確率推定を利用してθを求める [ 事前分布 ] 未知パラメータθ0とθ1はお互い独立
54.
最大事後確率推定を利用してθを求める [ 事前分布 ] 未知パラメータθ0とθ1はお互い独立 (
3.12 ) ( 3.7 )
55.
最大事後確率推定を利用してθを求める [ 事前分布 ] 未知パラメータθ0とθ1はお互い独立 (
3.12 ) ( 3.7 ) のように変更するだけ
56.
最大事後確率推定を利用してθを求める [ 事前分布 ] 未知パラメータθ0とθ1はお互い独立 (
3.12 ) [ 対数尤度関数 ] ( 3.13 )
57.
上記の対数尤度関数をラグランジュ未定乗数を用いて素朴に微分 ( 3.13 ) (
3.14 )
58.
上記の対数尤度関数をラグランジュ未定乗数を用いて素朴に微分 ( 3.13 ) (
3.14 ) ( 3.8 )αをγ+1と置く →
59.
[章3.4] まとめ
60.
まとめ 1/2 • 未知パラメータの事前分布を考える •
多項分布のモデル推定をするため,ディリクレ 分布を事前分布として導入 • 事前分布を考慮して最大事後確率推定を行う ( 3.10 ) ( 3.12 )
61.
まとめ 2/2 • 事前分布を含んだ対数尤度関数をラグランジュ未 定乗数法で解き,未知パラメータの最適化を得る (
3.13 ) ( 3.14 )
62.
3.5 二値分類と 異常検知の関係
63.
ベイズ決定則 以下を満たす場合 y =
1 と判定 ( 3.15 ) 全体の誤り確率を最小にする最適な判別規則 p(y=1¦x) と p(y=0¦x) を計算してみて,大きい方を選ぶ
64.
ベイズ決定則 以下を満たす場合 y =
1 と判定 ( 3.15 ) 全体の誤り確率を最小にする最適な判別規則 p(y=1¦x) と p(y=0¦x) を計算してみて,大きい方を選ぶ と比較
65.
任意の標本 x が与えられたときにそれを
y=0 または y=1 のいずれ かに分類する.その判定規則は以下の通リ与える:
66.
任意の標本 x が与えられたときにそれを
y=0 または y=1 のいずれ かに分類する.その判定規則は以下の通リ与える: 誤り確率を最小にするように a(x) と τ を決めたい
67.
任意の標本 x が与えられたときにそれを
y=0 または y=1 のいずれ かに分類する.その判定規則は以下の通リ与える: 訓練データに基づいて,あるいは勘と経験で p(x) と p(y¦x) が求められていたとすると・・・
68.
任意の標本 x が与えられたときにそれを
y=0 または y=1 のいずれ かに分類する.その判定規則は以下の通リ与える: 訓練データに基づいて,あるいは勘と経験で p(x) と p(y¦x) が求められていたとすると・・・ [ 誤り確率 ] ( 3.16 )
69.
任意の標本 x が与えられたときにそれを
y=0 または y=1 のいずれ かに分類する.その判定規則は以下の通リ与える: 訓練データに基づいて,あるいは勘と経験で p(x) と p(y¦x) が求められていたとすると・・・ [ 誤り確率 ] 条件を満たすと y=1であると判別 p(y=0¦x)p(x)をxについて積分 → y=0となる確率 y=0であると判別 y=1となる確率 ※指示関数 I[・]:中身が真のときに 1,そうでないときに 0 ( 3.16 )
70.
任意の標本 x が与えられたときにそれを
y=0 または y=1 のいずれ かに分類する.その判定規則は以下の通リ与える: 訓練データに基づいて,あるいは勘と経験で p(x) と p(y¦x) が求められていたとすると・・・ [ 誤り確率 ] ( 3.16 ) ( 3.17 )
71.
この誤り確率を最小にしたい
72.
この誤り確率を最小にしたい p(y=1¦x) > p(y=0¦x) の場合に
{・} は負となる {・} の中が負となる場合を 拾えれば良い
73.
この誤り確率を最小にしたい p(y=1¦x) > p(y=0¦x) の場合に
{・} は負となる {・} の中が負となる場合を 拾えれば良い とおけば良い
74.
この誤り確率を最小にしたい p(y=1¦x) > p(y=0¦x) の場合に
{・} は負となる {・} の中が負となる場合を 拾えれば良い とおけば良い 実際にはlogをとってる
75.
この誤り確率を最小にしたい p(y=1¦x) > p(y=0¦x) の場合に
{・} は負となる {・} の中が負となる場合を 拾えれば良い とおけば良い
76.
ベイズ決定則 以下を満たす場合 y =
1 と判定 ( 3.15 ) 全体の誤り確率を最小にする最適な判別規則 p(y=1¦x) と p(y=0¦x) を計算してみて,大きい方を選ぶ
77.
ベイズ決定則 以下を満たす場合 y =
1 と判定 ( 3.15 ) 全体の誤り確率を最小にする最適な判別規則 p(y=1¦x) と p(y=0¦x) を計算してみて,大きい方を選ぶ ネイマン・ピアソン決定則に よく似ている
78.
ベイズ決定則とネイマン・ピアソン決定則を比較 • ネイマンピアソン決定則 p(x¦y=1)とp(x¦y=0)の比がある閾値を超えたら 以上と判定 • ベイズ決定則 p(x¦y=1)p(y=1)とp(x¦y=0)p(y=0)の比が1を超 えたら以上と判定
79.
ベイズ決定則とネイマン・ピアソン決定則を比較 • ネイマンピアソン決定則 p(x¦y=1)とp(x¦y=0)の比がある閾値を超えたら 以上と判定 • ベイズ決定則 p(x¦y=1)p(y=1)とp(x¦y=0)p(y=0)の比が1を超 えたら以上と判定 p(y=1)
<< p(y=0) なので, 異常判定を強く抑制している = 二値分類器を使って異常検知するのは注意が必要
80.
[章3.5] まとめ
81.
まとめ • 二値分類で一般的に使われるベイズ則をとりあ えげた • ベイズ則は異常判定を強く抑制する傾向にある ため,利用する際には注意が必要 以下を満たす場合
y = 1 と判定 ( 3.15 )
82.
3.2 独立変数モデルのもとでの ホテリングのT2法
83.
独立変数モデルをラベルなしデータに適用 ホテリングのT2法を例として挙げる ( 3.3 ) ※
x はM次元 ※ 共分散行列の非対角成分を0とおいている
84.
独立変数モデルをラベルなしデータに適用 ホテリングのT2法を例として挙げる ( 3.3 ) ※
x はM次元 ※ 共分散行列の非対角成分を0とおいている この場合も定理3.1は成り立つ
85.
(※途中計算省略) 最尤推定で以下の解が得られる ( 3.4
) 一次元の標本平均と分散に一致
86.
(※途中計算省略) 最尤推定で以下の解が得られる 一次元の標本平均と分散に一致 [ 異常度
] ( 3.4 ) ( 3.5 ) M個の変数それぞれの異常度の和 ※異常度計算についてはp.18の流れを参照
87.
(※途中計算省略) 最尤推定で以下の解が得られる 一次元の標本平均と分散に一致 [ 異常度
] ( 3.4 ) ( 3.5 ) M個の変数それぞれの異常度の和 ・面倒な行列計算が不要で,変数同士の独立性がよく成り立つ のであれば実用上有用 ・独立性がなりたたない場合もおおまかな異常度を見積もれる
88.
(a) 変数間に相関がない (b)
変数間に線形相関がある 変数間の相関と異常判定に与える影響
89.
(a) 変数間に相関がない (b)
変数間に線形相関がある 変数間の相関と異常判定に与える影響赤い四角=正常と判定される範囲 範囲は変数毎に決まる (変数間に線形相関がある場合) 変数個々に見ている限 りは,異常判定の枠が不当に大きくなる傾向にある
90.
(a) 変数間に相関がない (b)
変数間に線形相関がある 変数間の相関と異常判定に与える影響赤い四角=正常と判定される範囲 範囲は変数毎に決まる (変数間に線形相関がある場合) 変数個々に見ている限 りは,異常判定の枠が不当に大きくなる傾向にある → 後の章で相関がある場合の異常検知について扱う
91.
[章3.2] まとめ
92.
まとめ • 独立変数モデルはラベルなしデータにも使える • ホテリングのT2 法を例として挙げた •
異常度はM個の変数それぞれの異常度の和として表せる • しかし,変数間に相関がある場合,異常判定の枠が不 当に大きくなる傾向にあるので注意が必要 ( 3.5 )
Download Now