SlideShare a Scribd company logo
1 of 26
Download to read offline
統計的学習の基礎 第2章
2.5 ~ 2.9
@Prunus1350
2.5 高次元での局所的手法
これまで学んだ予測のための二つの方法
• 線形モデル
• 安定しているがバイアスが大きい
• k最近傍法
• 不安定だがバイアスが小さい
• 訓練データが十分多ければk最近傍法でいいのでは?
• →高次元において破綻をきたす(次元の呪い)
次元の呪いを理解するための例題
10次元の場合、10%の
データが近傍に含まれ
るようにするには、各
変数の80%をカバーす
る必要がある。
→もはや「局所的」と
はいえない
高次元空間から疎に標本を得ることに起因する
もう一つの問題
• 原点を中心とする半径が1のp次元超球内にN個のデータ点が一様に分
布しているとする。
• 原点に最も近いデータ点までの距離の中央値
• N = 500, p = 10 の場合、d(p, N) ≈ 0.52
• 超球の境界までの距離の半分以上にあたる。
• 近傍の点を用いた予測が、極めて不安定になってしまう。
標本化密度の観点から次元の呪いを理解する
• pを入力変数の次元、Nをデータ数とすると、標本化密度は𝑁
1
𝑝に比例
する。
• 入力変数が1次元の場合に𝑁1 = 100であれば、十分に密なデータであ
ると見なすことにする。
• 10次元の入力変数に関して同様に密であるためには、𝑁10 = 10010もの
データが必要になる。
• →ある程度次元の高い状況では、訓練データが入力空間で極めて疎に
分布していると考えなければならない。
最近傍法で下方バイアスのある推定となる例
• 𝑓(0)を推定する場合、最近傍点が
原点でない限り下方バイアスがか
かる。
• 次元が増えると最近傍点までの距
離も増えるのでバイアスが増大す
る。
• この例では、平均2乗誤差は2乗バ
イアスによって増大する。
2.6 統計モデル, 教師あり学習, 関数近似
2.6 統計モデル, 教師あり学習, 関数近似
• ここでの目的は、背後に潜む入出力関係f(x)の有用な近似を行うこと
である。
• 高次元に起因する問題を解決するためには、回帰関数f(x)の他のクラ
スの近似モデルを考えるのが有意義である。
2.6.1 同時分布Pr(X,Y)のための統計モデル
• ?
2.6.2 教師あり学習
• 機械学習の観点から関数当てはめの問題を説明しておく。
• 学習中のシステムの入力と出力の両方を観察し、それらを集めて観測
値の訓練集合を構成する。
• 観測された𝑥𝑖を人工システムへ入力すると、その出力 𝑓(𝑥𝑖)を得る。
• 真のシステムによる出力𝑦𝑖と人工システムによる出力 𝑓(𝑥𝑖)の違いに応
じて入出力関係 𝑓を修正していく。(例による学習)
• 学習プロセスを終えた段階では、真のシステムと人工システムの出力
が十分に近いことが期待される。
2.6.3 関数近似
• ここでの目的は、訓練データを用いて入力空間内の任意のxについて
f(x)の有用な近似を求めることである。
• 議論を簡潔にするため、入力空間としてp次元ユークリッド空間を仮定する。
• 教師あり学習を関数近似の問題と見なすと、ユークリッド空間の幾何
学的な概念や確率推論の数学的概念を利用することができる。
• テキスト内で扱う多くの近似モデルでは、データに応じて修正可能な
パラメータ集合θが含まれている。
• 線形モデル
• 線形基底展開
パラメータの推定
• 線形基底関数のパラメータθを推定するには、線形モデルの場合と同
様、最小2乗法を用いて残差2乗和
を最小化すればよい。
2入力の関数に最小2乗法で関数を当てはめた例
2.7 構造化回帰モデル
2.7.1 なぜ問題が困難なのか
• 全ての訓練データ点を通るような関数は無数に存在する。
• 残差2乗和は最小化されるが、汎化性能が低い。
• データ数が有限の場合、解となる関数の集合を限定し、残差2乗和の
解を制限して考える必要がある。
• 学習に用いられる制約は、さまざまな形式の複雑度(complexity)と
して表現されることが多い。
• 複雑度とは、入力空間内の小さな近傍領域内でのある種の規則性である。
• 制約の強さは近傍の大きさによって決まる。
• 制約の性質は入力空間の計量に依存する。
2.8 制限付き推定法
2.8 制限付き推定法
• ノンパラメトリックな回帰や学習のためには、さまざまな方法が存在
する。
• 本節では概要を述べるに留め、詳しくは以降の章で解説する。
• ここでは、三つの代表的なクラスを紹介する。
• 粗度に対する罰則とベイズ法
• カーネル法と局所回帰
• 基底関数と辞書による方法
2.8.1 粗度に対する罰則とベイズ法
• このクラスの方法では、残差2乗和 RSS(f) に粗度に対する罰則を加え
を最小化することで関数のクラスを制限する。
• ユーザーが指定する汎関数 J(f) は、関数fが入力空間の小さな領域で急激に変化
する場合に大きな値をとる。
• 罰則関数や正則化(regularization)を用いると、推定対象の関数にあ
る特定の滑らかさを持たせることができる。
• 粗度に関する罰則を用いたアプローチ ⇒ 第5章
• ベイズ的な枠組み ⇒ 第8章
2.8.2 カーネル法と局所回帰
• このクラスの方法では、局所的な近傍をどのように決めるか、どのよ
うな関数を局所的に当てはめるか、といった事項を直接指定し、回帰
関数や条件付き期待値を明示的に推定する。
• 局所的な近傍はカーネル関数(kernel function)を用いて定義される。
• 例えば、ガウスカーネル
• 当然、高次元データに用いる際には、次元の呪いを避けるための工夫
が必要 ⇒ 第6章
2.8.3 基底関数と辞書による方法
• このクラスのモデルは基底関数(basis function)を線形展開した
の形式で表される。
• ⇒ 5.2節および第9章のCARTモデルやMARSモデル
• 動径基底関数(radial basis function)
• ある特定の点を中心として対称的な広がりを持つp次元のカーネル
• ⇒ 推定については6.7節
2.8.3 基底関数と辞書による方法
• 出力層が線形の単層フィードフォワード・ニューラルネットワーク
• は活性化関数(activation function)として知られている
• ⇒ 詳細は第11章
• このような基底関数を用いる方法は、辞書による方法(dictionary
method)として知られている。
2.9 モデル選択と, バイアスと分散の
トレードオフ
モデルに含まれるパラメータ
• 多くのモデルが、平滑化パラメータ(smoothing parameter)や複雑度
パラメータ(complexity parameter)を有している。
• これらのパラメータはユーザーが指定するもので
• 罰則項の乗数
• カーネルの幅
• 基底関数の数
などの形でモデルに含まれている。
• これらパラメータを決めるために訓練データの残差2乗和を使うと残
差が0になり過学習を起こす。
バイアスと分散のトレードオフ
• 𝑥0における期待予測誤差は
と分解できる。
• 第2項(バイアス項)と第3項(分散)はユーザーが制御可能な項である。
• 両者はトレードオフの関係にある。
バイアスと分散のトレードオフ
モデル複雑度 増 ⇔ 減
バイアス(の2乗) 減 ⇔ 増
分散 増 ⇔ 減
k最近傍法の近傍数k 少 ⇔ 多
• モデルの複雑度は、テスト誤差が最小化されるように、バイアスと分
散のトレードオフを調整して選ぶ。
ご清聴ありがとうございました。

More Related Content

What's hot

混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)Takao Yamanaka
 
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.42013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4Takeshi Sakaki
 
PRML輪読#7
PRML輪読#7PRML輪読#7
PRML輪読#7matsuolab
 
Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)Shohei Taniguchi
 
PRML輪読#3
PRML輪読#3PRML輪読#3
PRML輪読#3matsuolab
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説弘毅 露崎
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明Haruka Ozaki
 
統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)Kota Mori
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介Naoki Hayashi
 
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズムnishio
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門Kawamoto_Kazuhiko
 
関数データ解析の概要とその方法
関数データ解析の概要とその方法関数データ解析の概要とその方法
関数データ解析の概要とその方法Hidetoshi Matsui
 
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布Nagayoshi Yamashita
 
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learningベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learningssuserca2822
 
計量経済学と 機械学習の交差点入り口 (公開用)
計量経済学と 機械学習の交差点入り口 (公開用)計量経済学と 機械学習の交差点入り口 (公開用)
計量経済学と 機械学習の交差点入り口 (公開用)Shota Yasui
 
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論Taiji Suzuki
 
PRML輪読#8
PRML輪読#8PRML輪読#8
PRML輪読#8matsuolab
 
スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)Hidetoshi Matsui
 

What's hot (20)

混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)
 
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.42013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
 
PRML輪読#7
PRML輪読#7PRML輪読#7
PRML輪読#7
 
Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)
 
PRML輪読#3
PRML輪読#3PRML輪読#3
PRML輪読#3
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 
統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズム
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
関数データ解析の概要とその方法
関数データ解析の概要とその方法関数データ解析の概要とその方法
関数データ解析の概要とその方法
 
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
 
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learningベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
 
MCMC法
MCMC法MCMC法
MCMC法
 
計量経済学と 機械学習の交差点入り口 (公開用)
計量経済学と 機械学習の交差点入り口 (公開用)計量経済学と 機械学習の交差点入り口 (公開用)
計量経済学と 機械学習の交差点入り口 (公開用)
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
 
PRML輪読#8
PRML輪読#8PRML輪読#8
PRML輪読#8
 
スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)
 

More from Prunus 1350

SAS University EditionでもJupyter Notebookが使えるようになった話
SAS University EditionでもJupyter Notebookが使えるようになった話SAS University EditionでもJupyter Notebookが使えるようになった話
SAS University EditionでもJupyter Notebookが使えるようになった話Prunus 1350
 
Rで学ぶデータマイニングI 第8章〜第13章
Rで学ぶデータマイニングI 第8章〜第13章Rで学ぶデータマイニングI 第8章〜第13章
Rで学ぶデータマイニングI 第8章〜第13章Prunus 1350
 
はじめてのパターン認識 第11章 11.1-11.2
はじめてのパターン認識 第11章 11.1-11.2はじめてのパターン認識 第11章 11.1-11.2
はじめてのパターン認識 第11章 11.1-11.2Prunus 1350
 
TokyoR 第36回LT Rで部分空間法
TokyoR 第36回LT Rで部分空間法TokyoR 第36回LT Rで部分空間法
TokyoR 第36回LT Rで部分空間法Prunus 1350
 
はじめてのパターン認識 第9章 9.5-9.6
はじめてのパターン認識 第9章 9.5-9.6はじめてのパターン認識 第9章 9.5-9.6
はじめてのパターン認識 第9章 9.5-9.6Prunus 1350
 
はじめてのパターン認識 第6章 後半
はじめてのパターン認識 第6章 後半はじめてのパターン認識 第6章 後半
はじめてのパターン認識 第6章 後半Prunus 1350
 
パターン認識と機械学習 §8.3.4 有向グラフとの関係
パターン認識と機械学習 §8.3.4 有向グラフとの関係パターン認識と機械学習 §8.3.4 有向グラフとの関係
パターン認識と機械学習 §8.3.4 有向グラフとの関係Prunus 1350
 
はじめてのパターン認識 第1章
はじめてのパターン認識 第1章はじめてのパターン認識 第1章
はじめてのパターン認識 第1章Prunus 1350
 
集合知プログラミング 第4章 4.7
集合知プログラミング 第4章 4.7集合知プログラミング 第4章 4.7
集合知プログラミング 第4章 4.7Prunus 1350
 
スティーヴ・ライヒを聴こう
スティーヴ・ライヒを聴こうスティーヴ・ライヒを聴こう
スティーヴ・ライヒを聴こうPrunus 1350
 
第5章 統計的仮説検定 (Rによるやさしい統計学)
第5章 統計的仮説検定 (Rによるやさしい統計学)第5章 統計的仮説検定 (Rによるやさしい統計学)
第5章 統計的仮説検定 (Rによるやさしい統計学)Prunus 1350
 

More from Prunus 1350 (11)

SAS University EditionでもJupyter Notebookが使えるようになった話
SAS University EditionでもJupyter Notebookが使えるようになった話SAS University EditionでもJupyter Notebookが使えるようになった話
SAS University EditionでもJupyter Notebookが使えるようになった話
 
Rで学ぶデータマイニングI 第8章〜第13章
Rで学ぶデータマイニングI 第8章〜第13章Rで学ぶデータマイニングI 第8章〜第13章
Rで学ぶデータマイニングI 第8章〜第13章
 
はじめてのパターン認識 第11章 11.1-11.2
はじめてのパターン認識 第11章 11.1-11.2はじめてのパターン認識 第11章 11.1-11.2
はじめてのパターン認識 第11章 11.1-11.2
 
TokyoR 第36回LT Rで部分空間法
TokyoR 第36回LT Rで部分空間法TokyoR 第36回LT Rで部分空間法
TokyoR 第36回LT Rで部分空間法
 
はじめてのパターン認識 第9章 9.5-9.6
はじめてのパターン認識 第9章 9.5-9.6はじめてのパターン認識 第9章 9.5-9.6
はじめてのパターン認識 第9章 9.5-9.6
 
はじめてのパターン認識 第6章 後半
はじめてのパターン認識 第6章 後半はじめてのパターン認識 第6章 後半
はじめてのパターン認識 第6章 後半
 
パターン認識と機械学習 §8.3.4 有向グラフとの関係
パターン認識と機械学習 §8.3.4 有向グラフとの関係パターン認識と機械学習 §8.3.4 有向グラフとの関係
パターン認識と機械学習 §8.3.4 有向グラフとの関係
 
はじめてのパターン認識 第1章
はじめてのパターン認識 第1章はじめてのパターン認識 第1章
はじめてのパターン認識 第1章
 
集合知プログラミング 第4章 4.7
集合知プログラミング 第4章 4.7集合知プログラミング 第4章 4.7
集合知プログラミング 第4章 4.7
 
スティーヴ・ライヒを聴こう
スティーヴ・ライヒを聴こうスティーヴ・ライヒを聴こう
スティーヴ・ライヒを聴こう
 
第5章 統計的仮説検定 (Rによるやさしい統計学)
第5章 統計的仮説検定 (Rによるやさしい統計学)第5章 統計的仮説検定 (Rによるやさしい統計学)
第5章 統計的仮説検定 (Rによるやさしい統計学)
 

統計的学習の基礎 第2章後半