More Related Content Similar to 計算論的学習理論入門 -PAC学習とかVC次元とか- (10) More from sleepy_yoshi (20) 計算論的学習理論入門 -PAC学習とかVC次元とか-4. 極限における同定
• 主に文法学習を対象
• 帰納推論の成功基準 [Gold 67]
– 無限の事例が与えられる (完全提示) 場合に完全学習可能な文法ク
ラスを議論する研究分野
– 無限個だったら汎化する必要ないのでは?
• 多項式時間など,収束の速さも同時に議論
• 文法の場合は全データを有限時間内に完全網羅することは不可能
• 正例と負例が十分にないと学習可能なクラスは少ない [Gold 67]
• 発展分野: 正例からの学習
– 負例がない場合の学習理論
– 負例がなくてもけっこう学習可能らしい
4
6. PACモデル [Valiant 84]
• 確率的近似学習
– PAC; Probably Approximately Correct (確率的に大体正
しい)
– 仮説集合が有限における学習可能性を扱う枠組み
• 極限における学習においては完全学習 (汎化誤
差0) を対象にしていた
• モチベーション: まぁまぁ良い学習をするためにど
の程度学習データが必要かという枠組みで議論
がしたい
6(*) 余談だがPAC学習という名前をつけたのはValiant本人ではなくDana Angluin [Angluin 87]
7. 補足: 仮説集合とは?
• 既に機械学習に対する理解があるのであれば,仮説
≒分類モデルと理解すればよい
• 特徴空間と学習アルゴリズムによって仮説集合が決定
– 例) カープ判別問題
• 2次元のバイナリ特徴に対する決定木の場合,モデルの候補 (仮説
集合) は24 = 16通り存在
7
セリーグか?
(𝒙 𝟏)
チームカ
ラーは赤
か? (𝒙 𝟐)
カープか
True True YES
True False NO
False True NO
False False NO
False True
FalseTrue
○×
× ×
𝑥1
𝑥2
+-
仮説の一例
10. 証明 (1/2)
• (1) 汎化誤差が𝜖より大きい場合,ℓ個の訓練データに対して全正解する
確率は高々
1 − 𝜖 ℓ
– ※ 誤差𝜖のときの確率で抑える
• (2) 𝐻 個の仮説集合のうち全ての仮説の汎化誤差が𝜖より大きい場合,
訓練データに対して全正解する確率は高々
|𝐻| 1 − 𝜖 ℓ
– 和事象の不等式 𝑃 𝐴 ∪ 𝐵 ≤ 𝑃 𝐴 + 𝑃(𝐵)を利用
• (3) 1 +
𝑎
𝑥
𝑥
< exp 𝑎 より,𝑥 = ℓ,𝑎 = −𝜖ℓとすると,
𝐻 1 − 𝜖 ℓ
≤ 𝐻 exp(−𝜖ℓ)
• 右辺の確率が危険率𝛿以下であればよい
10
11. 証明 (2/2)
• 前頁の結果より,
𝐻 exp(−𝜖ℓ) ≤ 𝛿
• 両辺の対数を取ると
log |𝐻| − 𝜖ℓ ≤ log 𝛿
• 式を整理すると
log |𝐻| − log 𝛿 ≤ 𝜖ℓ
1
𝜖
log
𝐻
𝛿
≤ ℓ
• よって,仮説集合𝐻において危険率𝛿以下で汎化誤差が高々𝜖の仮説を
学習するために必要な訓練データは
1
𝜖
log
𝐻
𝛿
以上
– 𝐻「大」→ℓ「大」
– 𝜖「小」→ ℓ「大」
– 𝜎「小」→ℓ「大」
11
12. 補足: 1 +
𝑎
𝑥
𝑥
< exp 𝑎 の証明
• exp(𝑧)のマクローリン展開を行う
exp 𝑧 = 1 + 𝑧 +
𝑧2
2!
+
𝑧3
3!
+ ⋯
•
𝑧 𝑖
𝑖!
>
𝑧 𝑖+1
(𝑖+1)!
より,𝑧 ≠ 0の際,
exp 𝑧 > 1 + 𝑧
• 𝑧 =
𝑎
𝑥
とおく
exp
𝑎
𝑥
> 1 +
𝑎
𝑥
•
𝑎
𝑥
≥ −1
𝑎
𝑥
≠ 0 の際,両辺共に非負,両辺を𝑥乗すると
– 注:
𝑎
𝑥
= −𝜖 0 < 𝜖 ≤ 1 とおいて利用するのでこれでよい
exp 𝑎 > 1 +
𝑎
𝑥
𝑥
12
13. 簡単な例
• 先述のカープ判別問題
– 仮説集合の大きさは16
– 危険率 𝛿 = 0.01,汎化誤差 𝜖 = 0.1とすると,
1
0.1
log
8
0.01
= 32.04 < 33
– 33個の訓練データが必要
• そんないらんがな
13
定理の証明からわかるとおり,ひじょーに安全サイドに倒した
汎化誤差の評価をしているため,実用面から考えると
え??? な値になってしまう
16. Vladimir Vapnik 神
• 統計論的学習理論,VC理論の教祖,SVMの産みの親
– VC = Vapnik-Cherbonenkis
• AT&T Labs → NEC Lab. America
ご尊顔 聖典
20. VC次元の直感的な理解
• 仮説集合のVC次元 = 仮説集合に含まれる仮説
が細分 (shatter) できる点の数
– shatter とは,任意の2クラスに分類できること
20
直線によって任意の3点をshatterできる 直線では4点をshatterできない
これより,2次元特徴空間における線形識別器のVC次元は3次元
27. References
• [Gold 67] E. M. Gold, “Language identification in the limit”, Information
and Control, 10, pp.447-474, 1967.
• [Valiant 84] L. G. Valiant, “A theory of the learnable”, Communications of
the Association for Computing Machinery, 27, pp.1134-1142, 1984.
• [Angluin 87] D. Angluin, “Learning regular sets from queries and counter-
examples”, Information and Computaion, 75, pp.87-106, 1987.
27
28. 参考文献
• 榊原康文, 小林聡, 横森貴. 計算論的学習. 培風館 (2001).
• Philip D. Laird(著), 横森貴(訳). 例からの学習ー計算論的学
習理論ー. オーム社 (1992).
• Nello Cristianini, John Shawe-Taylor(著), 大北剛(訳), サポート
ベクターマシン入門, 共立出版 (2005).
28