Prml 1.3～1.6 ver3

1

w8prml
1.3 – 1.6
12/09/24

2

概要
1.3 モデルの選択
• モデル選択のアプローチ
• 確認用集合・テスト集合・交差確認法など
1.4 次元の呪い
• 次元が大きくなることの弊害について
1.5 決定理論
• 確率からのクラス分類について
• 決定境界・棄却オプションなど
1.6 情報理論
• 情報理論と確率理論やパターン認識・機械学習
• 情報量・エントロピー・相互情報量など

3

１．３モデル選択
•

4

学習の流れ
学習モデル選択性能評価

アルゴリズ訓練集合確認用テスト
ム集合集合
A

アルゴリズ訓練集合確認用テスト
ム集合集合
B

• それぞれのアルゴリズムにおいて
• 確認用集合を使って、複数のモデルから最良のものを選択
• テスト集合を使って、最良のモデルの性能を評価
• 評価結果から最良のアルゴリズムを選択

6

限られたデータの効率的利用
• 交差確認法（交差検定法）（cross-validation）
（LOO法（１個抜き法; leave-one-out method））
1. サンプルデータをS等分にする S=4の例

2. 1個を評価に、残りS-1個を訓練に使う
3. 評価に使う部分を変えて、S回繰り返す
4. S回の性能スコアを平均する
※S ＝サンプルデータ数にしたものがLOO法

• 交差確認法の欠点（モデル選択における）
• 学習回数が増える
• 複雑なモデル（パラメータが複数）などの場合には有効ではない
（パラメータ数に対し、指数関数的に訓練回数が増える可能性）

7

情報量規準（information criterion）
•

8

赤池情報量規準の直感的理解
•

9

実際の例（教科書とは違うデータです
が）訓練データ（n=10）各モデルでの二乗誤差の総和

同分布で乱数を取り直す（確認用集合）

• 赤池情報量規準によって最初の訓練データで M = 1 が最良と導ける
※対数尤度は、二乗誤差総和をデータ数（10）で割ったものの対数に比例
（tの複雑さがガウス分布に従うと仮定した場合）

10

この他
• ベイズ情報量規準（Bayesian information criterion or BIC）
• より、モデルの複雑さに対する罰則を強化したもの
• 詳しくは 4.4.1 節

11

１．４次元の呪い
• この節で言いたい事は以下のようなこと
１．次元の呪いと
は
• 多くの入力変数による高次元空間を扱う際の問題・課題・困難
• 高次元化に伴う計算量の問題
• 一次元・二次元・三次元空間における直感的理解との齟齬

２．実データでは、高次元空間でもやりようが
ある
• 実データは多くの場合において
• 実質的に低次元のデータ（尐ないデータ）が目標変数へ影響
• （尐なくとも局所的には）滑らかな性質
→ 多様体（manifold）や内挿（置換）といった考え方を利用可能
× ○

12

例１：計算量の増加について（１）
• 例：入力変数が2つで、3状態に分類されるデータ

このデータは
赤青緑のいずれに分類すべきか？

単純な手法：
マス目に区切って、最大数が属
するクラスに分類

今回は2入力で、4x4に区切った
ので16マス。
ではもっと次元数が増えたら？

13

例１：計算量の増加について（２）
•

※D=3に対しては、立方体の領域の一部だけ示す

14

例２：多項式フィッティングの例
•

15

例３：低次元での直感との齟齬（球の体
積）
• 半径 r = 1 の球の体積と、r=1と r = 1 – ε の間にある体積の比を考える

D=2

1
ε

D=3

16

例３：各次元での体積比
•

17

例４：高次元ガウス分布の極座標系密度
•

18

•

• 後の章の、モデルパラメータ
のベイズ推論を考える際に、
この性質を使って重要な結論
を導くらしい（演習1.20）

19

• 1次元の場合 • 2次元の場合

0
r r

r r

20

実データでの場合
実データでは、高次元空間でもやりようが
ある
１．実質的には低い次元の領域にある
and/or
重要な変化が生じる方向（次元）は限定的
２．（局所的には）滑らかな性質を持ち、
入力の小さな変化は目標変数に小さい変化しか与えない
→ 多様体（manifold）の考え方の利用や、内挿（補間）による目標変数
の予測が可能

21

例：画像データ
例：『ベルトコンベアの上の2次元形状の物体をキャプチャした画像か
ら、その向きを決める』という問題
• データの次元数はピクセル数
• 実際は、画像間に存在する違いは『物体の位置と方向』だけ
（物体の位置x,y座標と角度θの3つの自由度）

22

１．５決定理論
•

23

例：患者のX線画像から癌かどうかを判
定
•

24
決定問題の要望その１：
できるだけxを誤ったクラスに分類した
くない
•

26

一般のKクラスについて（正解率）
•

27

一般のKクラスについて（誤識別
率）
•

28

決定問題の要望その２：
期待損失（コスト）を最小化したい
•

癌正常
癌 0 1000
正
常 1 0

29

期待損失の最小化
•

30

棄却オプション
•

31

推論と決定：決定問題3つのアプローチ
•

32

それぞれの特徴
•

33

事後確率が欲しくなるケース
• リスク最小化
• 棄却オプション
• クラス事前確率の補正
• モデルの結合

34

事後確率が欲しくなるケース１
リスク最小化
•

35

事後確率が欲しくなるケース２
棄却オプション
• 事後確率がなければ棄却オプションを使えない
• 誤認識別率や期待損失の最小化ができない

36

事後確率が欲しくなるケース３
クラス事前確率の補正（１）
• 稀なケースのクラスへの対処
• 例：癌である画像が1000件に1件の場合
問題１：全部正常と診断するだけで 99.9% の精度
問題２：幅広い癌の画像に対応すべく1000件集めるには
→ 学習には約1000000件のサンプルデータを集めて使う事に

→ 各クラスが同じくらいの数の訓練データを使えると良い
• 訓練データに補正を加えた分を修正しなければならない
（癌の画像が通常1000件に1件程度という情報も必要）

37

事後確率が欲しくなるケース３
クラス事前確率の補正（２）
•

38

事後確率が欲しくなるケース４
モデルの結合（１）
•

39

事後確率が欲しくなるケース４
モデルの結合（１）
•

40

回帰の為の損失関数（１）
•

41

回帰の為の損失関数（２）
•

各 x での、t の不確実さを表す
のが p(t|x)
その平均地点を y(x) の値とす
る

42

回帰の為の損失関数（３）
•

tの分布の分散を x に関して平均したも
の。
目標データが本質的に持つ変動で、ノ
イズ
どうしようもない

43

回帰の為の損失関数（４）
•

44

ミンコフスキー損失と y(x)
• q=1 のとき

となる事が条件
↓
y(x)は p(t|x) のメディアン

• q=0 のとき
t = y(x)が条件であり、
かつ y(x) が最大となる値
↓
y(x) はモード(最頻値)
※ 演習 1.27

46

q=1 について（続き）

• これを満たす事が y(x) の条件
• q = 1 の時は

48

１．６情報理論
• 情報理論の分野から、確率論などについて考える
• パターン認識や機械学習に有用ないくつかの概念を学習

• 情報量
• エントロピー
• 微分エントロピー
• 相対エントロピー
• カルバックーライブラーダイバージェンス
• イェンセンの不等式

49

情報量（まず離散の事について）
•

50

•

（※演習1.28）

51

情報量の有名？な例
• 12枚の硬貨のうち、1枚が不良品で重さが違う。
天秤を使って不良品を特定するのに、何回必要か？

• 必要な事は、
『12枚のうち1枚の特定』 → １／１２
『重いか軽いかの判定』 → １／２
→ 必要な情報量は log (12*2) = log (24)
• 一度の天秤では
右＝左、右＞左、右＜左の３通りの結果が得られる
→ 情報量は log(3) = 1.584962….
• 結果
log (24) / log (3) = 2.8927892607 … → 3回は絶対必要

52

確率変数 x のエントロピー
（entropy）
•

53

エントロピー＝複雑さ？

箱
・・・物体

全部でＮ個の物体

•

54

入れ方の総数を考える
•

55

複雑さのエントロピー
•

57

離散確率変数で考えると・・・

• エントロピー低
• 一部で鋭いピークを持つ
分布
• エントロピー高
• たくさんの値に広がって
いる分布
• エントロピー最小
• どこかで p=1で、他では
p=0となる分布
• エントロピー最大
• 全てが等確率 (一様分布)

58

エントロピー最大が一様分布の証明
•

59

連続変数でのエントロピー（１）
•

・平均値の定理の簡単な説明

積分値に
等しくな
る
赤い点が
連続関数
の場合見
つかる
Δ

60

連続変数でのエントロピー（２）
•

61

微分エントロピーの最大化（１）
•

62

微分エントロピーの最大化（２）
•

63

微分エントロピーの最大化（３）
• ラグランジュ乗数法から、次の式を最大化（演習1.34）

• 変分法を利用する事で次の式が得られる

• この p(x) と３つの制約式を使い最終的に

• ガウス分布になる
• 非負条件を入れなかったが、結局非負

64

微分エントロピーの最大化（４）
•

65

条件付きエントロピー（１）
•

66

条件付きエントロピー（２）
•

67

1.6.1 相対エントロピーと相互情報
量
•

68

KLダイバージェンスの性質
•

69

イェンセンの不等式と凸関数（１）
• 凸（とつ）関数 (convex function)
• 関数 f(x) で、すべての弦が関数に乗っているかそれよりも上にある

点c：λf(a)+(1-λ)f(b)

f(b)

f(a)

f(λa+(1-λ)b)
※演習1.36

• 等号成立時がλ=0とλ=1のみに限る場合、真に凸(strictly convex)
• 真に凸 ⇔ 2階微分が常に正

70

イェンセンの不等式と凸関数（２）
•

71

イェンセンの不等式と凸関数（３）
•

72

イェンセンの不等式の直感的理解
•

73

KLダイバージェンス（１）
•

74

KLダイバージェンス（２）
•

75

KLダイバージェンス（３）相互情
報量
•

76

でてきた演習問題
• P14 1.15, 1.16
• P15 1.18
• P17 1.20 (P18)
• P30 1.24
• P44 1.27
• P50 1.28 取りこぼしもあるでしょうし、
• P63 1.34 だからなんだって感じですが
• P64 1.35
• P66 1.37
• P69 1.36

Prml 1.3～1.6 ver3

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Prml 1.3～1.6 ver3

Similar to Prml 1.3～1.6 ver3 (20)

Prml 1.3～1.6 ver3