More Related Content
Similar to Prml 1.3~1.6 ver3 (20)
Prml 1.3~1.6 ver3
- 2. 2
概要
1.3 モデルの選択
• モデル選択のアプローチ
• 確認用集合・テスト集合・交差確認法など
1.4 次元の呪い
• 次元が大きくなることの弊害について
1.5 決定理論
• 確率からのクラス分類について
• 決定境界・棄却オプションなど
1.6 情報理論
• 情報理論と確率理論やパターン認識・機械学習
• 情報量・エントロピー・相互情報量など
- 4. 4
学習の流れ
学習 モデル選択 性能評価
アルゴリズ 訓練集合 確認用 テスト
ム 集合 集合
A
アルゴリズ 訓練集合 確認用 テスト
ム 集合 集合
B
• それぞれのアルゴリズムにおいて
• 確認用集合を使って、複数のモデルから最良のものを選択
• テスト集合を使って、最良のモデルの性能を評価
• 評価結果から最良のアルゴリズムを選択
- 9. 9
実際の例(教科書とは違うデータです
が)訓練データ(n=10) 各モデルでの二乗誤差の総和
同分布で乱数を取り直す(確認用集合)
• 赤池情報量規準によって最初の訓練データで M = 1 が最良と導ける
※対数尤度は、二乗誤差総和をデータ数(10)で割ったものの対数に比例
(tの複雑さがガウス分布に従うと仮定した場合)
- 11. 11
1.4 次元の呪い
• この節で言いたい事は以下のようなこと
1.次元の呪いと
は
• 多くの入力変数による高次元空間を扱う際の問題・課題・困難
• 高次元化に伴う計算量の問題
• 一次元・二次元・三次元空間における直感的理解との齟齬
2.実データでは、高次元空間でもやりようが
ある
• 実データは多くの場合において
• 実質的に低次元のデータ(尐ないデータ)が目標変数へ影響
• (尐なくとも局所的には)滑らかな性質
→ 多様体(manifold)や内挿(置換)といった考え方を利用可能
× ○
- 44. 44
ミンコフスキー損失と y(x)
• q=1 のとき
となる事が条件
↓
y(x)は p(t|x) のメディアン
• q=0 のとき
t = y(x)が条件であり、
かつ y(x) が最大となる値
↓
y(x) はモード(最頻値)
※ 演習 1.27
- 51. 51
情報量の有名?な例
• 12枚の硬貨のうち、1枚が不良品で重さが違う。
天秤を使って不良品を特定するのに、何回必要か?
• 必要な事は、
『12枚のうち1枚の特定』 → 1/12
『重いか軽いかの判定』 → 1/2
→ 必要な情報量は log (12*2) = log (24)
• 一度の天秤では
右=左、右>左、右<左 の3通りの結果が得られる
→ 情報量は log(3) = 1.584962….
• 結果
log (24) / log (3) = 2.8927892607 … → 3回は絶対必要
- 53. 53
エントロピー=複雑さ?
箱
・・・ 物体
全部でN個の物体
•
- 57. 57
離散確率変数で考えると・・・
• エントロピー低
• 一部で鋭いピークを持つ
分布
• エントロピー高
• たくさんの値に広がって
いる分布
• エントロピー最小
• どこかで p=1で、他では
p=0となる分布
• エントロピー最大
• 全てが等確率 (一様分布)
- 69. 69
イェンセンの不等式と凸関数(1)
• 凸(とつ)関数 (convex function)
• 関数 f(x) で、すべての弦が関数に乗っているかそれよりも上にある
点c:λf(a)+(1-λ)f(b)
f(b)
f(a)
f(λa+(1-λ)b)
※演習1.36
• 等号成立時がλ=0とλ=1のみに限る場合、真に凸(strictly convex)
• 真に凸 ⇔ 2階微分が常に正
- 76. 76
でてきた演習問題
• P14 1.15, 1.16
• P15 1.18
• P17 1.20 (P18)
• P30 1.24
• P44 1.27
• P50 1.28 取りこぼしもあるでしょうし、
• P63 1.34 だからなんだって感じですが
• P64 1.35
• P66 1.37
• P69 1.36