9. 今⽇日の話の裏裏役者:Leo Breiman (1928-‐‑‒2005)
• CART (Classification and Regression Trees), PIMPLE
• Random Forest
• Arcing (aka Boosting)
• Bagging, Pasting
• ACE (Alternative Conditional Expectations)
• Stacked Generalization (aka Stacking/Blending)
• Nonnegative Garrote (LASSOの前⾝身 for Subset回帰)
• Instability / Stabilization in Model Selection
• Shannon-‐‑‒McMillan-‐‑‒Breiman Theorem (漸近等分割性)
• Kelly-‐‑‒Breiman Strategy (最適な定⽐比例例戦略略)
• UC Berkeley名誉教授
• 2005 SIGKDD Innovation Award
• 元々はProbability Theorist
If statistics is an applied field and not a minor branch of mathematics, then
99% of the published papers are useless exercises.
("Reflections after refereeing papers for NIPS”, The Mathematics of Generalization, Ed. D.H. Wolpert, 1995)
https://en.wikipedia.org/wiki/File:Leo_Breiman.jpg
19. /36
Beyer+ 1999の例例:
19
超⾼高次元の困難: “次元の呪い”の諸相
• K. Beyer+, When Is “Nearest Neighbor” Meaningful? ICDTʼ’99
• V. Pestov, On the geometry of similarity search: dimensionality curse and
concentration of measure, Information Processing Letters, 1999.
超⾼高次元空間ではサンプル点間の距離離がすべてほとんど同じになってしまう
距離離尺度度で情報フィルタリングをする場合、⾼高次元になるとほぼ全検索索に近くなる
ことがデータベースや情報検索索業界で指摘されてきた。
確率率率分布Pと距離離dを持つ超⾼高次元空間では良良く”測度度の集中”(ある距離離内にほとんど
の測度度が集中する現象)という現象が起こることが知られており、上記もこれに起因
n+1個のd次元点
② Concentration of Measures Phenomena 測度度の集中現象
20. /3620
正則化と変数選択: Best Subset回帰と縮⼩小推定
• 伝統的な変数選択法 (変数増加/減少/増減法/RELIEFF/t検定 etc)
• Best Subset回帰 (L0正則化)
• LASSO (Tibshirani 1996) (L1正則化, Basis Pursuit Denoising)
leaps(Furnival & Wilson 1974) or 全列列挙(Morgan & Tatar 1972)
→ 不不安定(データ点が少し変わると最適解が変化) + 計算時間⼤大
LARS (Efron+ 2003) or 座標降降下 (Friedman+ 2007)
→ 変数間相関がない場合はLASSO=Best Subset(=t検定変数選択)
→ 変数間相関がある場合は⼀一般にはLASSO≠Best Subset (biased)
• glmnet (Friedman+ 2008)
L1+L2(Elastic-‐‑‒Net)罰則つきで⼀一般化線形モデルを座標降降下で学習
注: 正確には学習というよりは正則化パス追跡のための⼿手法
→ p>n設定のときLASSOでは⾼高々n変数までしか選べない。ロスを
強凸化するので同点解が⽣生じない → 最適化問題の構造が良良くなる。