SlideShare a Scribd company logo
1 of 29
Download to read offline
岩波データサイエンス Vol.5
[特集]スパースモデリングと多変量
データ解析
伊庭「モデル選択超速習」
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 1
はじめに
• 本資料・勉強会の目的
– X:分かっている人が分からない人に教える
– ○:
• 分からない(知らなかった)人が、分からないなりに勉強し、
整理してみる
• 同じような⽴場・思いの人と、ともに学ぶ“材料”
• ⇒間違いの訂正、補⾜、ご意⾒・コメント等々を
ぜひよろしくお願いします。
2017/4/10 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 2
この本
• 岩波データサイエンス Vol.5
• [特集]
スパースモデリングと多変量
データ解析
– 岩波データサイエンス刊⾏委
員会 編
– 2017年2⽉刊⾏
– 岩波書店
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 3
目次
• 特集「スパースモデリングと多変量
データ解析」
• 池田・伊庭・麻生
<基礎編>
• モデル選択超速習
– AICからスパースまで
• 伊庭幸人
• スパース性を用いた推定
• 池田思朗
• スパースモデリングを体験してみる
• 岩波データサイエンス刊⾏委員会
<展開編>
• 依存関係にスパース性を入れる
– グラフィカルlassoの話
• 井手剛
• 画像処理とスパース
• 本谷秀堅
• 時間遷移のスパース性
– マーケットシェアの遷移を捉える
スパースグラフモデリング
• 日野英逸
<応用編>
• ⾏列データの分解
• 麻生英樹
– <コラム>⾏列のトレースノルム
– 麻生英樹
• ⾏列分解をリコメンデーションに活かす
– Rによる実践例
• 尾崎隆
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 4
伊庭「モデル選択超速習」
• (副題:AICからスパースまで)
• (導入部分)
• “スパース以前”のモデル選択をめぐる諸問題、“前座”
• ⇒スパースモデリングの位置付け
• (はじめからメインディッシュに⾏きたい⽅は、本特集の池田の解説から
読み始めても、ほぼ問題なく読める)
» ⇒ 「最尤法やベイズには馴染みがないが、重回帰分析は使ったことが
ある」という読者にはむしろ分かりやすいかも
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 5
伊庭「モデル選択超速習」
:本解説の構造
• <問題の整理>より
• 3つのレベルの区別
– 1. なぜ変数が少ないモデルが欲しいのか(根本問題)
– 2. 具体的にどういう数式を最適にするのか(数理的表現)
– 3. 最適なモデルをどうやって探すか(アルゴリズム)
• スパースモデリングで重要な進展があったのは「3.」
• 「3. がうまくいくために、2.の表式をどう設定したらよいか」も含む
• この解説では ・・・ 1., 2., 3.を含めた問題の全体像の概観
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 6
伊庭「モデル選択超速習」
:本解説の構造
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 7
モデルの当てはまりと予測性能は違う
bias-variance dilemma
CV と AIC
変数選択の問題点
リッジ回帰 - あえて「すべての変数
を使う」という⽴場
階層ベイズモデリングとの関係
そしてスパース
- やっぱり変数を選びたい
1.
なぜ変数が少
ないモデルが
欲しいのか
2.
具体的にどう
いう数式を最
適にするのか
3.
最適なモデル
をどうやって
探すか
◎
◎
○ ◎
○
○
◎
三つのレベル →
目次 ↓
◎
伊庭「モデル選択超速習」
:本解説の構造
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 8
モデルの当てはまりと予測性能は違う
bias-variance dilemma
CV と AIC
変数選択の問題点
リッジ回帰 - あえて「すべての変数
を使う」という⽴場
階層ベイズモデリングとの関係
そしてスパース
- やっぱり変数を選びたい
1.
なぜ変数が少
ないモデルが
欲しいのか
2.
具体的にどう
いう数式を最
適にするのか
3.
最適なモデル
をどうやって
探すか
◎
◎
○ ◎
○
○
◎
三つのレベル →
目次 ↓
• N が小さい(有限の)場合、
“単純なモデル”の⽅が予測性能が良い
• 複雑さ“大” → ばらつき”大“
◎ • “真のモデル”が分か
らない中で「予測の良
さ」をどう測るか?
⇒ CV, AIC, etc.
• 各種の“規準”を使っ
た古典的な変数選択
の抱える問題点
• 「縮小推定」の代表格 L2 正則化
• 変数選択と縮小推定の“合流点”と
しての L1 正則化(lasso)
• 縮小推定の(一つの)究極形としての L1 正則化
• ⇒ 自動的にゼロイチの変数選択
• 「最適モデルの探索」については一定の解決
伊庭「モデル選択超速習」
• <問題の整理>
• 「スパースモデリング」、大雑把にいうと、、、
– “与えられたデータに応じて、統計モデルの必要な部分を自動的に抽出
する技術”
– 重回帰分析では、、、
→ 多数の説明変数のリストから少数の必要なものを取り出す
– 昔からある⾔葉 ・・・ 「モデル選択」、「変数選択」
» (これらの用語の使い分けにはいろいろ流儀がありそうだが・・)
– この解説の中での呼び分け
• 変数選択/モデル選択:複数のモデルの当てはめ ⇒ その中から選ぶ
• スパースモデリング:
罰則項を加えて推定 ⇒ パラメータ推定+パラメータ数の削減 を同時に
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 9
伊庭「モデル選択超速習」
• <問題の整理>(続き)(再掲)
• 3つのレベルの区別
– 1. なぜ変数が少ないモデルが欲しいのか(根本問題)
– 2. 具体的にどういう数式を最適にするのか(数理的表現)
– 3. 最適なモデルをどうやって探すか(アルゴリズム)
• スパースモデリングで重要な進展があったのは「3.」
• 「3. がうまくいくために、2.の表式をどう設定したらよいか」も含む
• この解説では ・・・ 1., 2., 3.を含めた問題の全体像の概観
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 10
伊庭「モデル選択超速習」
• <モデルの当てはまりと予測性能は違う>
• 「1. なぜ単純なモデルが欲しいのか」を考える
• “変数が少ない”モデル →(⾔い換え)→ “単純な”モデル
» (※サポートページの記述参照)
» 重要なのは、“変数の数”より“未知パラメータの個数”
(回帰分析でいえば、
説明変数の係数のうちデータから推定するものの個数)
• 「予測」、「汎化」の視点
» 現代データサイエンスでは非常に重要
» AIC, CV(※いずれも後述)も「予測を目的とする」ことが大前提
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 11
伊庭「モデル選択超速習」
• <モデルの当てはまりと予測性能は違う>
• 「1. なぜ単純なモデルが欲しいのか」を考える
– 簡単な例:多項式回帰の次数選択
• モデルの当てはまり
– 「与えられたデータへの当てはまり」からは
「説明変数が少ないほうがよい」ということは出てこない
• 予測性能
– 「予測」を考えると話が違ってくる
» サンプルサイズ N が小さいときは、複雑なモデル(2)は、単純
なモデル(3)よりも予測性能が悪く、訓練データに当てはめた結
果と真の値との差をあらわす2乗和が大きくなる。
» N が大きくなると、あるところで「逆転」が起きて、複雑なモデル
(2)のほうが単純なモデル(3)より予測性能が良くなる。
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 12
伊庭「モデル選択超速習」
• <モデルの当てはまりと予測性能は違う>
• 「1. なぜ単純なモデルが欲しいのか」を考える
• ⇒おおまかにいって、サンプルサイズ N が小さいと
きには単純なモデルのほうが強いのだ
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 13
(本文 p.8 より)
伊庭「モデル選択超速習」
• <bias-variance dilemma>
• 前節の議論の重要な点
• 「真の曲線」が2次式の場合でも、より単純な1次式の⽅が良い場
合があること
– N が小さいとき = N が有限のとき
• ⇒ 重回帰分析の変数選択でも、似た状況が起きる
• 直観的な説明
• サンプルサイズ N が有限の場合、
• ⇒ 当てはめた , などのパラメータ推定値は、
サンプルに依存して真の値のまわりでばらつく
• ⇒ パラメータの数が多いほどばらつきが大きくなる
• ⇒ 予測性能の低下
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 14
伊庭「モデル選択超速習」
• <bias-variance dilemma>
• bias-variance dilemma
– bias (バイアス)
– モデルによる推定値の平均と真の値との差を表す量
– 「データを無理やり⾃分の型にはめ込んで歪める効果」
– variance (バリアンス)
– サンプルに依存した真の値の周りでの
「ばらつきの効果」
– dilemma (or trade-off)
• モデルが複雑なほど・・・
• ⇒ バイアス:小、バリアンス:大
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 15(本文 p.10 より)
伊庭「モデル選択超速習」
• <CV と AIC>
• 真のモデルなしで「予測の良さ」をどう⾒積もるか?
• 実際のデータ解析では
「真のモデル」がわかっているわけではない
• 「真のモデル」がわかっていない中で、前述の考え⽅で
「予測の良さ」を⾒積もる手段が必要
• ⇒ 従来、よく用いられた“手段・規準”
・・・ CV(Cross Validation; 交差検証法)と AIC
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 16
伊庭「モデル選択超速習」
• <CV と AIC>
• CV (Cross Validation; 交差検証法)
• 「訓練データ」で学習、「テストデータ」で予測の良さを推定
• 「精度を上げるためにいろいろな分け⽅をして、
その平均を計算することがよく⾏われる」
– 「精度を上げるため」?
» X:“モデルの精度”を上げるため
» ○:“「予測の良さ」の⾒積もりの精度”を上げるため
– 「いろいろな分け⽅」
» 訓練データ&テストデータの分け⽅複数 ⇒ 平均 ⇒ 精度up
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 17
伊庭「モデル選択超速習」
• <CV と AIC>
• CV (Cross Validation; 交差検証法)
– いろいろな⽅法
• leave-p-out cross validation
• K-fold cross validation
– CV の評価基準
• 回帰問題 ・・・ 対数尤度 等
• 分類問題 ・・・ 誤判別率 等
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 18
伊庭「モデル選択超速習」
• <CV と AIC>
• CV と AIC の間の“関係”
– モデルが真の分布を含むとして、以下が成り⽴つ場合、
– モデルの当てはめを最尤法で⾏う
– 予測の良さの評価を対数尤度で⾏う
⇒ CV(CV損失) と AIC は漸近的に等価
– = (−2) log − ・・・ CV損失は [] の中に漸近する
• AIC や Cp 規準は先駆的だった
• モデル選択に使われる各種規準 (CV, AIC, Cp 以外には・・・)
– GIC, EIC, WAIC, DIC, BIC, MDL, 等々
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 19
伊庭「モデル選択超速習」
• <変数選択の問題点>
• 重回帰分析における変数選択
• 変数候補 M 個 ⇒ 組み合わせ 2M 個 (“爆発”)
• こうした場合、
たとえば、AIC を使って⾃動的に変数選択をやろうと思っても、
課題・問題が生じてくる
• 変数選択の問題点 (例:AICを使った変数選択)
– 「多重性の効果をどう取り入れるか」
– (〜 冒頭の2. “数理的表現”に関連)
– AIC は訓練データに依存する確率変数 → 多重性の問題
– ⇒次頁へ
– 「最適なモデルの探索をどう実装するか」
– (〜 冒頭の3. “アルゴリズム”に関連)
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 20
伊庭「モデル選択超速習」
• <変数選択の問題点>
• 「多重性の効果をどう取り入れるか」
• AIC は、それ⾃身が訓練データに依存する確率変数
» ⇒ 平均対数尤度の期待値のまわりでランダムに変動・ばらつく
» ⇒ 多重性の問題が発生 (※統計的検定の多重性と同様)
• 多重性を考慮に入れた手法も考案されているが、、、まだ一般的でない
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 21
データ
(⺟集団) データ1
モデルm1 モデルm2 モデルm3 モデルm4 モデルm5
データ2
AIC
• 説明変数 m 個のモデル集合 Ωm
• m は 大き過ぎる → 予測性能“悪”
• m は 候補総数 M より十分小さい
…
• Ωm のモデルの予測性能(→AICで評価)
は、平均的にはどれも同程度に“悪い”
• 予測性能が悪いので本当は選ばれてはいけない Ωm
のモデルが、偶然、相対的に“良い”AICが出てしまい、
“最良モデル”として選ばれてしまう可能性あり。
良
悪
データ● ・・・
• データの取り方によって
右記の結果は変わり得る。
AICの期待値(複数のデータの取り⽅を考慮)
AICの実測値(データ1による)
伊庭「モデル選択超速習」
• <変数選択の問題点>
• 「最適なモデルの探索をどう実装するか」
• 変数の組み合わせ“爆発” ⇒ “総当たり”は非現実的
• (1)古典的な⽅法
» 適当なルールによる“増減法”(例:R の「StepAIC」等)
• (2)汎用の離散最適化手法
» シミュレーテッド・アニーリング法
» 進化的アルゴリズム
• ⇒ いずれにしても、
局所的極小、過大な計算時間の不安は免れず・・・
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 22
伊庭「モデル選択超速習」
• <リッジ回帰-あえて「すべての変数を使う」という⽴場>
• 「L1正則化」は「変数選択」と「L2 正則化」の“合流点”
• 「L2 正則化」について
» (※「変数選択」とは“ゼロイチ” → “ハード”な変数選択)
• 変数を選択するのではなく、すべての変数(数多くの変数)をモデルに残そう
• ⇒ ただし、それらを“ソフト”に少しずつ押さえてやる(←予測性能劣化防⽌)
• ⇒ L2 ノルムによる罰則項を誤差二乗和の式に追加
• ⇒ 「L2 正則化」、「リッジ回帰」
• 以下の式を最小化
– ∑ − ∑ ( )
+ ∑
– “縮小推定”の一種 (※ただし、βj はきっちりゼロにはならない)
– あまり有効でない変数の係数の絶対値は早く縮小 ⇒ “ソフト”な変数選択
– 「λ」の値は cross validation 等で決定
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 23
• 正則化を⾏う場合、通常、説明変数
x は事前に何らかの標準化処理(例:
平均値を引いて標準偏差で割る)を
⾏う
伊庭「モデル選択超速習」
• <階層ベイズモデリングとの関係>
• (・・・ “リッジ回帰と”階層ベイズモデリングとの関係)
• まずは“形式的な解釈”
– (前提)
• パラメータ {βj} と説明変数 {x(j)}→	y の確率分布として正規分布を仮定
– # , ( )
=
$%&
' ( −
%& − ∑ ( )
– 通常の重回帰分析
– βj の事前分布に「一様分布」を仮定 → MAP推定 (=最小二乗法)
– リッジ回帰
– βj の事前分布に「分散1/2λ の正規分布」(※下記)を仮定 → MAP推定
– # =
)
$
' ( − ∑
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 24
伊庭「モデル選択超速習」
• <階層ベイズモデリングとの関係>
• ベイズ的観点からのリッジ回帰に関する論点
– 「λ の値を λ の事後分布からベイズ推定してよいか」
– “βj が j によらず同じ事前分布から生成”という仮定は妥当?
» 「βj 同士が確率変数として交換可能か?」
» ・・・ かなり“無理がある”
– 標準化の仕⽅やクラスター分けの有無の影響は?
» デリケートな問題だが、、、
» 実際には、リッジ回帰の「λ」をフルベイズで推定する、ということはあまり
⾒かけない
– 「βj の事前分布の分布形が正規分布でよいか」
– たとえば、、、
「普通の大きさの係数とほとんどゼロの係数が割とはっきり分離して存在」?
– ⇒ 実は、これは L1 正則化へのひとつの入り口になる疑問
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 25
伊庭「モデル選択超速習」
• <そしてスパース 〜やっぱり変数を選びたい>
• 「L1 正則化」の形式
• 最小化する式 ∑ − ∑ ( )
+ ∑
– βj の事前分布 〜 両側指数分布(ラプラス分布) とすることに相当
» # =
)
' ( − ∑
• (参考) L2 正則化の場合
» 最小化する式 ∑ − ∑ ( )
+ ∑
» βj の事前分布 # =
)
$
' ( − ∑
• 形式的には、罰則項において
リッジ回帰の を に置き換えている(だけ)
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 26
伊庭「モデル選択超速習」
• <そしてスパース 〜やっぱり変数を選びたい>
• 「変数選択」の能⼒を持つ「L1 正則化」
• (⾒かけ上はリッジ回帰の拡張版だが、、、)
• ある程度以上「いらない変数」の場合、 がきっちりゼロになってしまう!
• ⇒ ⾃動的に「変数選択」を⾏う能⼒が備わっている!
» (→ 詳細は池田解説へ)
• 「L1 正則化」は“解ける”
• (※解析解が得られるリッジ回帰のように簡単には解けないが…)
• 2次計画法の利用、さらに効率のよい⽅法もあり
• ⇒ 現実的に“解ける”ことが L1 正則化のキモ
• ⇒ 冒頭の問題3.の
「最適モデルの探索」には一定の解決をもたらす
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 27
伊庭「モデル選択超速習」
:【再掲】本解説の構造
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 28
モデルの当てはまりと予測性能は違う
bias-variance dilemma
CV と AIC
変数選択の問題点
リッジ回帰 - あえて「すべての変数
を使う」という⽴場
階層ベイズモデリングとの関係
そしてスパース
- やっぱり変数を選びたい
1.
なぜ変数が少
ないモデルが
欲しいのか
2.
具体的にどう
いう数式を最
適にするのか
3.
最適なモデル
をどうやって
探すか
◎
◎
○ ◎
○
○
◎
三つのレベル →
目次 ↓
• N が小さい(有限の)場合、
“単純なモデル”の⽅が予測性能が良い
• 複雑さ“大” → ばらつき”大“
◎ • “真のモデル”が分か
らない中で「予測の良
さ」をどう測るか?
⇒ CV, AIC, etc.
• 各種の“規準”を使っ
た古典的な変数選択
の抱える問題点
• 「縮小推定」の代表格 L2 正則化
• 変数選択と縮小推定の“合流点”と
しての L1 正則化(lasso)
• 縮小推定の(一つの)究極形としての L1 正則化
• ⇒ 自動的にゼロイチの変数選択
• 「最適モデルの探索」については一定の解決
参考文献
• [1]荒木孝治(2013), 罰則付き回帰とデータ解析環境R, オペレーションズリサーチ, 2013年5⽉号
• [2]Hastie, T., and Tibshirani, R. (2014), 統計的学習の基礎: データマイニング・推論・予測,
共⽴出版
• [3]廣瀬慧(2014), Lasso タイプの正則化法に基づくスパース推定法を用いた超高次元データ解析,
数理解析研究所講究録 1908 : 57-77
(http://www.kurims.kyoto-u.ac.jp/~kyodo/kokyuroku/contents/pdf/1908-05.pdf)
• [4]⿅島久嗣, 「数理情報⼯学特論第一【機械学習とデータマイニング】1章:概論(3)」講義資
料(www.geocities.co.jp/kashi_pong/1-3.pdf)
• [5]冨岡亮太(2015), スパース性に基づく機械学習, 講談社
• [6]山下信雄(2013), Coordinate Descent 法について, 「最適化の基盤とフロンティア」研究部会
講演資料
(https://www.slideshare.net/amp-kyoto/coordinate-descent)
• [7] Das, K. and Sobel, M.(2015), Dirichlet Lasso: A Bayesian approach to variable
selection, Statistical Modelling, vol.15 (3) (2015), 215–232
• [8] Efron, B., Hastie, T., Johnstone, I., and Tibshirani, R. (2004), Least Angle
Regression(with discussion), The Annals of Statistics, 32, 407–499.
2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 29

More Related Content

What's hot

StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)Hiroshi Shimizu
 
Stanの便利な事後処理関数
Stanの便利な事後処理関数Stanの便利な事後処理関数
Stanの便利な事後処理関数daiki hojo
 
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法Ken'ichi Matsui
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明Haruka Ozaki
 
PRML輪読#10
PRML輪読#10PRML輪読#10
PRML輪読#10matsuolab
 
Techtalk:多様体
Techtalk:多様体Techtalk:多様体
Techtalk:多様体Kenta Oono
 
馬に蹴られるモデリング
馬に蹴られるモデリング馬に蹴られるモデリング
馬に蹴られるモデリングShushi Namba
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定Akira Masuda
 
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論Taiji Suzuki
 
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性Ichigaku Takigawa
 
“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと
“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと
“確率的最適化”を読む前に知っておくといいかもしれない関数解析のことHiroaki Kudo
 
相互情報量を用いた独立性の検定
相互情報量を用いた独立性の検定相互情報量を用いた独立性の検定
相互情報量を用いた独立性の検定Joe Suzuki
 
MCMCと正規分布の推測
MCMCと正規分布の推測MCMCと正規分布の推測
MCMCと正規分布の推測Gen Fujita
 
YamadaiR(Categorical Factor Analysis)
YamadaiR(Categorical Factor Analysis)YamadaiR(Categorical Factor Analysis)
YamadaiR(Categorical Factor Analysis)考司 小杉
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介Naoki Hayashi
 
一般化線形モデル
一般化線形モデル一般化線形モデル
一般化線形モデルMatsuiRyo
 
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-Shiga University, RIKEN
 

What's hot (20)

StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
 
因果推論の基礎
因果推論の基礎因果推論の基礎
因果推論の基礎
 
Stanの便利な事後処理関数
Stanの便利な事後処理関数Stanの便利な事後処理関数
Stanの便利な事後処理関数
 
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 
PRML輪読#10
PRML輪読#10PRML輪読#10
PRML輪読#10
 
Techtalk:多様体
Techtalk:多様体Techtalk:多様体
Techtalk:多様体
 
PRML 第14章
PRML 第14章PRML 第14章
PRML 第14章
 
馬に蹴られるモデリング
馬に蹴られるモデリング馬に蹴られるモデリング
馬に蹴られるモデリング
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
 
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
 
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
 
“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと
“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと
“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと
 
相互情報量を用いた独立性の検定
相互情報量を用いた独立性の検定相互情報量を用いた独立性の検定
相互情報量を用いた独立性の検定
 
MCMCと正規分布の推測
MCMCと正規分布の推測MCMCと正規分布の推測
MCMCと正規分布の推測
 
YamadaiR(Categorical Factor Analysis)
YamadaiR(Categorical Factor Analysis)YamadaiR(Categorical Factor Analysis)
YamadaiR(Categorical Factor Analysis)
 
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM) 一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
一般化線形モデル
一般化線形モデル一般化線形モデル
一般化線形モデル
 
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-
 

Similar to 岩波データサイエンス_Vol.5_勉強会資料01

順序データでもベイズモデリング
順序データでもベイズモデリング順序データでもベイズモデリング
順序データでもベイズモデリング. .
 
Let中部2012シンポスライド
Let中部2012シンポスライドLet中部2012シンポスライド
Let中部2012シンポスライドMizumoto Atsushi
 
Introduction to statistics
Introduction to statisticsIntroduction to statistics
Introduction to statisticsKohta Ishikawa
 
20130223_集計・分析の基礎@アンケート研究会
20130223_集計・分析の基礎@アンケート研究会20130223_集計・分析の基礎@アンケート研究会
20130223_集計・分析の基礎@アンケート研究会Takanori Hiroe
 
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient DescentRyutaro Yamauchi
 
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法Satoshi Hara
 
第五回統計学勉強会@東大駒場
第五回統計学勉強会@東大駒場第五回統計学勉強会@東大駒場
第五回統計学勉強会@東大駒場Daisuke Yoneoka
 
Stanコードの書き方 中級編
Stanコードの書き方 中級編Stanコードの書き方 中級編
Stanコードの書き方 中級編Hiroshi Shimizu
 
反応時間データをどう分析し図示するか
反応時間データをどう分析し図示するか反応時間データをどう分析し図示するか
反応時間データをどう分析し図示するかSAKAUE, Tatsuya
 
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門ノンパラベイズ入門の入門
ノンパラベイズ入門の入門Shuyo Nakatani
 
K020 appstat201202
K020 appstat201202K020 appstat201202
K020 appstat201202t2tarumi
 
Deep learningbook chap7
Deep learningbook chap7Deep learningbook chap7
Deep learningbook chap7Shinsaku Kono
 
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】Naoki Hayashi
 
第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdf第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdfkeiodig
 
心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理するHiroshi Shimizu
 
Rm20140507 4key
Rm20140507 4keyRm20140507 4key
Rm20140507 4keyyouwatari
 
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」Naoki Hayashi
 

Similar to 岩波データサイエンス_Vol.5_勉強会資料01 (20)

順序データでもベイズモデリング
順序データでもベイズモデリング順序データでもベイズモデリング
順序データでもベイズモデリング
 
Let中部2012シンポスライド
Let中部2012シンポスライドLet中部2012シンポスライド
Let中部2012シンポスライド
 
Introduction to statistics
Introduction to statisticsIntroduction to statistics
Introduction to statistics
 
20130223_集計・分析の基礎@アンケート研究会
20130223_集計・分析の基礎@アンケート研究会20130223_集計・分析の基礎@アンケート研究会
20130223_集計・分析の基礎@アンケート研究会
 
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
 
おしゃスタat銀座
おしゃスタat銀座おしゃスタat銀座
おしゃスタat銀座
 
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法
 
第五回統計学勉強会@東大駒場
第五回統計学勉強会@東大駒場第五回統計学勉強会@東大駒場
第五回統計学勉強会@東大駒場
 
Stanコードの書き方 中級編
Stanコードの書き方 中級編Stanコードの書き方 中級編
Stanコードの書き方 中級編
 
反応時間データをどう分析し図示するか
反応時間データをどう分析し図示するか反応時間データをどう分析し図示するか
反応時間データをどう分析し図示するか
 
PRML1.5
PRML1.5PRML1.5
PRML1.5
 
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門ノンパラベイズ入門の入門
ノンパラベイズ入門の入門
 
K020 appstat201202
K020 appstat201202K020 appstat201202
K020 appstat201202
 
Deep learningbook chap7
Deep learningbook chap7Deep learningbook chap7
Deep learningbook chap7
 
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
 
Maeshori missing
Maeshori missingMaeshori missing
Maeshori missing
 
第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdf第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdf
 
心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する
 
Rm20140507 4key
Rm20140507 4keyRm20140507 4key
Rm20140507 4key
 
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
 

岩波データサイエンス_Vol.5_勉強会資料01

  • 2. はじめに • 本資料・勉強会の目的 – X:分かっている人が分からない人に教える – ○: • 分からない(知らなかった)人が、分からないなりに勉強し、 整理してみる • 同じような⽴場・思いの人と、ともに学ぶ“材料” • ⇒間違いの訂正、補⾜、ご意⾒・コメント等々を ぜひよろしくお願いします。 2017/4/10 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 2
  • 3. この本 • 岩波データサイエンス Vol.5 • [特集] スパースモデリングと多変量 データ解析 – 岩波データサイエンス刊⾏委 員会 編 – 2017年2⽉刊⾏ – 岩波書店 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 3
  • 4. 目次 • 特集「スパースモデリングと多変量 データ解析」 • 池田・伊庭・麻生 <基礎編> • モデル選択超速習 – AICからスパースまで • 伊庭幸人 • スパース性を用いた推定 • 池田思朗 • スパースモデリングを体験してみる • 岩波データサイエンス刊⾏委員会 <展開編> • 依存関係にスパース性を入れる – グラフィカルlassoの話 • 井手剛 • 画像処理とスパース • 本谷秀堅 • 時間遷移のスパース性 – マーケットシェアの遷移を捉える スパースグラフモデリング • 日野英逸 <応用編> • ⾏列データの分解 • 麻生英樹 – <コラム>⾏列のトレースノルム – 麻生英樹 • ⾏列分解をリコメンデーションに活かす – Rによる実践例 • 尾崎隆 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 4
  • 5. 伊庭「モデル選択超速習」 • (副題:AICからスパースまで) • (導入部分) • “スパース以前”のモデル選択をめぐる諸問題、“前座” • ⇒スパースモデリングの位置付け • (はじめからメインディッシュに⾏きたい⽅は、本特集の池田の解説から 読み始めても、ほぼ問題なく読める) » ⇒ 「最尤法やベイズには馴染みがないが、重回帰分析は使ったことが ある」という読者にはむしろ分かりやすいかも 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 5
  • 6. 伊庭「モデル選択超速習」 :本解説の構造 • <問題の整理>より • 3つのレベルの区別 – 1. なぜ変数が少ないモデルが欲しいのか(根本問題) – 2. 具体的にどういう数式を最適にするのか(数理的表現) – 3. 最適なモデルをどうやって探すか(アルゴリズム) • スパースモデリングで重要な進展があったのは「3.」 • 「3. がうまくいくために、2.の表式をどう設定したらよいか」も含む • この解説では ・・・ 1., 2., 3.を含めた問題の全体像の概観 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 6
  • 7. 伊庭「モデル選択超速習」 :本解説の構造 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 7 モデルの当てはまりと予測性能は違う bias-variance dilemma CV と AIC 変数選択の問題点 リッジ回帰 - あえて「すべての変数 を使う」という⽴場 階層ベイズモデリングとの関係 そしてスパース - やっぱり変数を選びたい 1. なぜ変数が少 ないモデルが 欲しいのか 2. 具体的にどう いう数式を最 適にするのか 3. 最適なモデル をどうやって 探すか ◎ ◎ ○ ◎ ○ ○ ◎ 三つのレベル → 目次 ↓ ◎
  • 8. 伊庭「モデル選択超速習」 :本解説の構造 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 8 モデルの当てはまりと予測性能は違う bias-variance dilemma CV と AIC 変数選択の問題点 リッジ回帰 - あえて「すべての変数 を使う」という⽴場 階層ベイズモデリングとの関係 そしてスパース - やっぱり変数を選びたい 1. なぜ変数が少 ないモデルが 欲しいのか 2. 具体的にどう いう数式を最 適にするのか 3. 最適なモデル をどうやって 探すか ◎ ◎ ○ ◎ ○ ○ ◎ 三つのレベル → 目次 ↓ • N が小さい(有限の)場合、 “単純なモデル”の⽅が予測性能が良い • 複雑さ“大” → ばらつき”大“ ◎ • “真のモデル”が分か らない中で「予測の良 さ」をどう測るか? ⇒ CV, AIC, etc. • 各種の“規準”を使っ た古典的な変数選択 の抱える問題点 • 「縮小推定」の代表格 L2 正則化 • 変数選択と縮小推定の“合流点”と しての L1 正則化(lasso) • 縮小推定の(一つの)究極形としての L1 正則化 • ⇒ 自動的にゼロイチの変数選択 • 「最適モデルの探索」については一定の解決
  • 9. 伊庭「モデル選択超速習」 • <問題の整理> • 「スパースモデリング」、大雑把にいうと、、、 – “与えられたデータに応じて、統計モデルの必要な部分を自動的に抽出 する技術” – 重回帰分析では、、、 → 多数の説明変数のリストから少数の必要なものを取り出す – 昔からある⾔葉 ・・・ 「モデル選択」、「変数選択」 » (これらの用語の使い分けにはいろいろ流儀がありそうだが・・) – この解説の中での呼び分け • 変数選択/モデル選択:複数のモデルの当てはめ ⇒ その中から選ぶ • スパースモデリング: 罰則項を加えて推定 ⇒ パラメータ推定+パラメータ数の削減 を同時に 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 9
  • 10. 伊庭「モデル選択超速習」 • <問題の整理>(続き)(再掲) • 3つのレベルの区別 – 1. なぜ変数が少ないモデルが欲しいのか(根本問題) – 2. 具体的にどういう数式を最適にするのか(数理的表現) – 3. 最適なモデルをどうやって探すか(アルゴリズム) • スパースモデリングで重要な進展があったのは「3.」 • 「3. がうまくいくために、2.の表式をどう設定したらよいか」も含む • この解説では ・・・ 1., 2., 3.を含めた問題の全体像の概観 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 10
  • 11. 伊庭「モデル選択超速習」 • <モデルの当てはまりと予測性能は違う> • 「1. なぜ単純なモデルが欲しいのか」を考える • “変数が少ない”モデル →(⾔い換え)→ “単純な”モデル » (※サポートページの記述参照) » 重要なのは、“変数の数”より“未知パラメータの個数” (回帰分析でいえば、 説明変数の係数のうちデータから推定するものの個数) • 「予測」、「汎化」の視点 » 現代データサイエンスでは非常に重要 » AIC, CV(※いずれも後述)も「予測を目的とする」ことが大前提 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 11
  • 12. 伊庭「モデル選択超速習」 • <モデルの当てはまりと予測性能は違う> • 「1. なぜ単純なモデルが欲しいのか」を考える – 簡単な例:多項式回帰の次数選択 • モデルの当てはまり – 「与えられたデータへの当てはまり」からは 「説明変数が少ないほうがよい」ということは出てこない • 予測性能 – 「予測」を考えると話が違ってくる » サンプルサイズ N が小さいときは、複雑なモデル(2)は、単純 なモデル(3)よりも予測性能が悪く、訓練データに当てはめた結 果と真の値との差をあらわす2乗和が大きくなる。 » N が大きくなると、あるところで「逆転」が起きて、複雑なモデル (2)のほうが単純なモデル(3)より予測性能が良くなる。 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 12
  • 13. 伊庭「モデル選択超速習」 • <モデルの当てはまりと予測性能は違う> • 「1. なぜ単純なモデルが欲しいのか」を考える • ⇒おおまかにいって、サンプルサイズ N が小さいと きには単純なモデルのほうが強いのだ 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 13 (本文 p.8 より)
  • 14. 伊庭「モデル選択超速習」 • <bias-variance dilemma> • 前節の議論の重要な点 • 「真の曲線」が2次式の場合でも、より単純な1次式の⽅が良い場 合があること – N が小さいとき = N が有限のとき • ⇒ 重回帰分析の変数選択でも、似た状況が起きる • 直観的な説明 • サンプルサイズ N が有限の場合、 • ⇒ 当てはめた , などのパラメータ推定値は、 サンプルに依存して真の値のまわりでばらつく • ⇒ パラメータの数が多いほどばらつきが大きくなる • ⇒ 予測性能の低下 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 14
  • 15. 伊庭「モデル選択超速習」 • <bias-variance dilemma> • bias-variance dilemma – bias (バイアス) – モデルによる推定値の平均と真の値との差を表す量 – 「データを無理やり⾃分の型にはめ込んで歪める効果」 – variance (バリアンス) – サンプルに依存した真の値の周りでの 「ばらつきの効果」 – dilemma (or trade-off) • モデルが複雑なほど・・・ • ⇒ バイアス:小、バリアンス:大 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 15(本文 p.10 より)
  • 16. 伊庭「モデル選択超速習」 • <CV と AIC> • 真のモデルなしで「予測の良さ」をどう⾒積もるか? • 実際のデータ解析では 「真のモデル」がわかっているわけではない • 「真のモデル」がわかっていない中で、前述の考え⽅で 「予測の良さ」を⾒積もる手段が必要 • ⇒ 従来、よく用いられた“手段・規準” ・・・ CV(Cross Validation; 交差検証法)と AIC 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 16
  • 17. 伊庭「モデル選択超速習」 • <CV と AIC> • CV (Cross Validation; 交差検証法) • 「訓練データ」で学習、「テストデータ」で予測の良さを推定 • 「精度を上げるためにいろいろな分け⽅をして、 その平均を計算することがよく⾏われる」 – 「精度を上げるため」? » X:“モデルの精度”を上げるため » ○:“「予測の良さ」の⾒積もりの精度”を上げるため – 「いろいろな分け⽅」 » 訓練データ&テストデータの分け⽅複数 ⇒ 平均 ⇒ 精度up 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 17
  • 18. 伊庭「モデル選択超速習」 • <CV と AIC> • CV (Cross Validation; 交差検証法) – いろいろな⽅法 • leave-p-out cross validation • K-fold cross validation – CV の評価基準 • 回帰問題 ・・・ 対数尤度 等 • 分類問題 ・・・ 誤判別率 等 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 18
  • 19. 伊庭「モデル選択超速習」 • <CV と AIC> • CV と AIC の間の“関係” – モデルが真の分布を含むとして、以下が成り⽴つ場合、 – モデルの当てはめを最尤法で⾏う – 予測の良さの評価を対数尤度で⾏う ⇒ CV(CV損失) と AIC は漸近的に等価 – = (−2) log − ・・・ CV損失は [] の中に漸近する • AIC や Cp 規準は先駆的だった • モデル選択に使われる各種規準 (CV, AIC, Cp 以外には・・・) – GIC, EIC, WAIC, DIC, BIC, MDL, 等々 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 19
  • 20. 伊庭「モデル選択超速習」 • <変数選択の問題点> • 重回帰分析における変数選択 • 変数候補 M 個 ⇒ 組み合わせ 2M 個 (“爆発”) • こうした場合、 たとえば、AIC を使って⾃動的に変数選択をやろうと思っても、 課題・問題が生じてくる • 変数選択の問題点 (例:AICを使った変数選択) – 「多重性の効果をどう取り入れるか」 – (〜 冒頭の2. “数理的表現”に関連) – AIC は訓練データに依存する確率変数 → 多重性の問題 – ⇒次頁へ – 「最適なモデルの探索をどう実装するか」 – (〜 冒頭の3. “アルゴリズム”に関連) 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 20
  • 21. 伊庭「モデル選択超速習」 • <変数選択の問題点> • 「多重性の効果をどう取り入れるか」 • AIC は、それ⾃身が訓練データに依存する確率変数 » ⇒ 平均対数尤度の期待値のまわりでランダムに変動・ばらつく » ⇒ 多重性の問題が発生 (※統計的検定の多重性と同様) • 多重性を考慮に入れた手法も考案されているが、、、まだ一般的でない 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 21 データ (⺟集団) データ1 モデルm1 モデルm2 モデルm3 モデルm4 モデルm5 データ2 AIC • 説明変数 m 個のモデル集合 Ωm • m は 大き過ぎる → 予測性能“悪” • m は 候補総数 M より十分小さい … • Ωm のモデルの予測性能(→AICで評価) は、平均的にはどれも同程度に“悪い” • 予測性能が悪いので本当は選ばれてはいけない Ωm のモデルが、偶然、相対的に“良い”AICが出てしまい、 “最良モデル”として選ばれてしまう可能性あり。 良 悪 データ● ・・・ • データの取り方によって 右記の結果は変わり得る。 AICの期待値(複数のデータの取り⽅を考慮) AICの実測値(データ1による)
  • 22. 伊庭「モデル選択超速習」 • <変数選択の問題点> • 「最適なモデルの探索をどう実装するか」 • 変数の組み合わせ“爆発” ⇒ “総当たり”は非現実的 • (1)古典的な⽅法 » 適当なルールによる“増減法”(例:R の「StepAIC」等) • (2)汎用の離散最適化手法 » シミュレーテッド・アニーリング法 » 進化的アルゴリズム • ⇒ いずれにしても、 局所的極小、過大な計算時間の不安は免れず・・・ 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 22
  • 23. 伊庭「モデル選択超速習」 • <リッジ回帰-あえて「すべての変数を使う」という⽴場> • 「L1正則化」は「変数選択」と「L2 正則化」の“合流点” • 「L2 正則化」について » (※「変数選択」とは“ゼロイチ” → “ハード”な変数選択) • 変数を選択するのではなく、すべての変数(数多くの変数)をモデルに残そう • ⇒ ただし、それらを“ソフト”に少しずつ押さえてやる(←予測性能劣化防⽌) • ⇒ L2 ノルムによる罰則項を誤差二乗和の式に追加 • ⇒ 「L2 正則化」、「リッジ回帰」 • 以下の式を最小化 – ∑ − ∑ ( ) + ∑ – “縮小推定”の一種 (※ただし、βj はきっちりゼロにはならない) – あまり有効でない変数の係数の絶対値は早く縮小 ⇒ “ソフト”な変数選択 – 「λ」の値は cross validation 等で決定 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 23 • 正則化を⾏う場合、通常、説明変数 x は事前に何らかの標準化処理(例: 平均値を引いて標準偏差で割る)を ⾏う
  • 24. 伊庭「モデル選択超速習」 • <階層ベイズモデリングとの関係> • (・・・ “リッジ回帰と”階層ベイズモデリングとの関係) • まずは“形式的な解釈” – (前提) • パラメータ {βj} と説明変数 {x(j)}→ y の確率分布として正規分布を仮定 – # , ( ) = $%& ' ( − %& − ∑ ( ) – 通常の重回帰分析 – βj の事前分布に「一様分布」を仮定 → MAP推定 (=最小二乗法) – リッジ回帰 – βj の事前分布に「分散1/2λ の正規分布」(※下記)を仮定 → MAP推定 – # = ) $ ' ( − ∑ 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 24
  • 25. 伊庭「モデル選択超速習」 • <階層ベイズモデリングとの関係> • ベイズ的観点からのリッジ回帰に関する論点 – 「λ の値を λ の事後分布からベイズ推定してよいか」 – “βj が j によらず同じ事前分布から生成”という仮定は妥当? » 「βj 同士が確率変数として交換可能か?」 » ・・・ かなり“無理がある” – 標準化の仕⽅やクラスター分けの有無の影響は? » デリケートな問題だが、、、 » 実際には、リッジ回帰の「λ」をフルベイズで推定する、ということはあまり ⾒かけない – 「βj の事前分布の分布形が正規分布でよいか」 – たとえば、、、 「普通の大きさの係数とほとんどゼロの係数が割とはっきり分離して存在」? – ⇒ 実は、これは L1 正則化へのひとつの入り口になる疑問 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 25
  • 26. 伊庭「モデル選択超速習」 • <そしてスパース 〜やっぱり変数を選びたい> • 「L1 正則化」の形式 • 最小化する式 ∑ − ∑ ( ) + ∑ – βj の事前分布 〜 両側指数分布(ラプラス分布) とすることに相当 » # = ) ' ( − ∑ • (参考) L2 正則化の場合 » 最小化する式 ∑ − ∑ ( ) + ∑ » βj の事前分布 # = ) $ ' ( − ∑ • 形式的には、罰則項において リッジ回帰の を に置き換えている(だけ) 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 26
  • 27. 伊庭「モデル選択超速習」 • <そしてスパース 〜やっぱり変数を選びたい> • 「変数選択」の能⼒を持つ「L1 正則化」 • (⾒かけ上はリッジ回帰の拡張版だが、、、) • ある程度以上「いらない変数」の場合、 がきっちりゼロになってしまう! • ⇒ ⾃動的に「変数選択」を⾏う能⼒が備わっている! » (→ 詳細は池田解説へ) • 「L1 正則化」は“解ける” • (※解析解が得られるリッジ回帰のように簡単には解けないが…) • 2次計画法の利用、さらに効率のよい⽅法もあり • ⇒ 現実的に“解ける”ことが L1 正則化のキモ • ⇒ 冒頭の問題3.の 「最適モデルの探索」には一定の解決をもたらす 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 27
  • 28. 伊庭「モデル選択超速習」 :【再掲】本解説の構造 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 28 モデルの当てはまりと予測性能は違う bias-variance dilemma CV と AIC 変数選択の問題点 リッジ回帰 - あえて「すべての変数 を使う」という⽴場 階層ベイズモデリングとの関係 そしてスパース - やっぱり変数を選びたい 1. なぜ変数が少 ないモデルが 欲しいのか 2. 具体的にどう いう数式を最 適にするのか 3. 最適なモデル をどうやって 探すか ◎ ◎ ○ ◎ ○ ○ ◎ 三つのレベル → 目次 ↓ • N が小さい(有限の)場合、 “単純なモデル”の⽅が予測性能が良い • 複雑さ“大” → ばらつき”大“ ◎ • “真のモデル”が分か らない中で「予測の良 さ」をどう測るか? ⇒ CV, AIC, etc. • 各種の“規準”を使っ た古典的な変数選択 の抱える問題点 • 「縮小推定」の代表格 L2 正則化 • 変数選択と縮小推定の“合流点”と しての L1 正則化(lasso) • 縮小推定の(一つの)究極形としての L1 正則化 • ⇒ 自動的にゼロイチの変数選択 • 「最適モデルの探索」については一定の解決
  • 29. 参考文献 • [1]荒木孝治(2013), 罰則付き回帰とデータ解析環境R, オペレーションズリサーチ, 2013年5⽉号 • [2]Hastie, T., and Tibshirani, R. (2014), 統計的学習の基礎: データマイニング・推論・予測, 共⽴出版 • [3]廣瀬慧(2014), Lasso タイプの正則化法に基づくスパース推定法を用いた超高次元データ解析, 数理解析研究所講究録 1908 : 57-77 (http://www.kurims.kyoto-u.ac.jp/~kyodo/kokyuroku/contents/pdf/1908-05.pdf) • [4]⿅島久嗣, 「数理情報⼯学特論第一【機械学習とデータマイニング】1章:概論(3)」講義資 料(www.geocities.co.jp/kashi_pong/1-3.pdf) • [5]冨岡亮太(2015), スパース性に基づく機械学習, 講談社 • [6]山下信雄(2013), Coordinate Descent 法について, 「最適化の基盤とフロンティア」研究部会 講演資料 (https://www.slideshare.net/amp-kyoto/coordinate-descent) • [7] Das, K. and Sobel, M.(2015), Dirichlet Lasso: A Bayesian approach to variable selection, Statistical Modelling, vol.15 (3) (2015), 215–232 • [8] Efron, B., Hastie, T., Johnstone, I., and Tibshirani, R. (2004), Least Angle Regression(with discussion), The Annals of Statistics, 32, 407–499. 2017/3/30 岩波DS Vol.5 [特集]スパースモデリングと多変量データ解析 29