科学と機械学習のあいだ：変量の設計・変換・選択・交互作用・線形性

/361
科学と機械学習のあいだ： 
変量量の設計・変換・選択・交互作⽤用・線形性
北北海道⼤大学・JSTさきがけ
takigawa@ist.hokudai.ac.jp
瀧川⼀一学
2016.11.18 @ 第19回情報論論的学習理理論論ワークショップ (IBIS2016)

/362
⾃自⼰己紹介：瀧川⼀一学 (たきがわいちがく）
北北海道⼤大学・情報科学研究科
http://art.ist.hokudai.ac.jp
参考) 1974 Turing Award Lecture “Computer Programming as an Art” (Don Knuth)
⼤大規模知識識処理理研究室: 湊真⼀一教授・瀧川(准教授)・⽯石畠正和特任助教
ScienceとEngineeringを
つなぐ「Art」を求めて
https://doi.org/10.1145/361604.361612

/363
活性あり(active): 1,737化合物活性なし(inactive): 26,895化合物
https://pubchem.ncbi.nlm.nih.gov/bioassay/41
前⽴立立腺癌細胞株PC3に対する成⻑⾧長阻害アッセイデータ
何がこの差を分かつのかの作⽤用機序は複雑すぎてもはやモデリング困難なので 
データから統計学的に”使える”法則性を同定したい…。(構造活性相関/QSAR)

/364
表現の問題：特徴量量、説明変数、素性、記述⼦子？
Atom + Bond SYBYL MOL2 Pharmacophore
O
N
N
NH
NHN
N
N
CH3
CH3
Imatinib (CID 5291) Conformers in PubChem3D
1
2
3
284
Molecular Graph Representations
(実際は通常Implicit Hydrogenを付加)
…
取り得る⽴立立体配座は 
たくさんある…
Molecular Descriptors
(variations: constitutional, topological, atom
pairs, geometrical, electronic, thermodynamical,
physicochemical, WHIM, ﬁngerprints, RDF,  
autocorrelations, functional groups, structural
keys, properties, interaction ﬁelds, …)
幾何的構造、分⼦子量量、疎⽔水性(LogP)、HOMO/
LUMO、電気陰性度度、置換基定数、… (たくさん)
抗悪性腫瘍剤
(チロシンキナーゼ 
インヒビター)

/365
タスク・対象に依って有効な特徴量量は⼀一般に異異なる。
[Ramakrishnan+ 2014] Sci Data. 2014 Aug 5;1:140022
Quantum chemistry structures and properties of 134 kilo molecules.
C,O,N,Fを9個まで組合せて化学的に可能な全133,885分⼦子の15物性を計算したデータ 
(例例えば、C7H10O2で6,095個の⽴立立体異異性体が存在 → 部分グラフ特徴ではダメそう 😣)
つまり特徴設計には「銀の弾丸」はなさそう?
(c.f. “Ugly duckling theorem” 渡辺慧, 1969)

/366
どういう特徴量量を使うかは対象問題ごとに専⾨門的観点で(?)決めている
つまり…
多くの場合、対象問題の性質を「機械」が学習するのではなく 
「機械学習ユーザ」が学習している状態 😫
本⽇日のテーマ: The Art of Feature Engineering
"Applied machine learning" is basically feature engineering.
̶— Andrew Ng
Feature Engineering is the next buzz word after big data.
̶— Nayyar A. Zaid
私の思う「機械学習」の理理想像😆： 
可能なかぎり⼈人間担当部分はサボれる汎⽤用技術(“機械学習”なのだから！)
→ 今回は現状で機械学習側に蓄積されている「Art」を整理理して紹介

/367
合成特徴量量
基礎特徴量量
潜在的な交絡因⼦子(confounder)を⾒見見逃すことにより、誤った帰結を得ることを
防ぐ意味でもよさそう?
⽬目指すゴール：ある種の「表現学習(特徴学習)」
超⼤大規模な変数候補プール
予測モデル
既存のもの・思いついたものを
とりあえずすべて⼊入れておく
• システマティックに⽣生成
• 特徴量量の選択や⾼高次合成
• モデルの⽣生成 (仮説⽣生成)
• モデルの選択と評価
⼈人間担当
機械担当
“機械学習”
“機械学習”よ、あとは任せた。
よしなにやってくれい!!
現状で(機械学習ユーザにとって)ありがたい在り⽅方

/368
本⽇日の話の構成
データ駆動科学とAbduction/Induction、ケーススタディ
線形性と交互作⽤用
交互作⽤用の取込み: 多項式回帰, ⼀一般化加法モデル, FM, ⽊木型回帰
回帰森/決定DAG: RF, GBM/MART/AnyBoost, XGBoost, RGF, DJ
正則化と変数選択: Best Subset回帰とLASSO, SCAD, MC+, SIS
安定性の対処: Stability Selection (aka Randomized LASSO)
交互作⽤用から合成特徴量量へ
超⾼高次元の困難: Chance Correlation, Concentration of Measures
縮約合成量量: 主成分回帰, PLS回帰, 教師付きPCA, t-‐‑‒SNE, Embedding(2vec)
ランダマイズド合成量量: RP/ELM/RC, ExtraTrees, VR-‐‑‒Trees
メタ特徴量量: Stacked Generalization (aka Stacking/Blending)
変数変換探索索: ACE (Alternative Conditional Expectations)
特徴集合の妥当性評価： AD(Applicability Domain), Y-‐‑‒Scrambling Test

今⽇日の話の裏裏役者：Leo Breiman (1928-‐‑‒2005)
• CART (Classification and Regression Trees), PIMPLE
• Random Forest
• Arcing (aka Boosting)
• Bagging, Pasting
• ACE (Alternative Conditional Expectations)
• Stacked Generalization (aka Stacking/Blending)
• Nonnegative Garrote (LASSOの前⾝身 for Subset回帰)
• Instability / Stabilization in Model Selection
• Shannon-‐‑‒McMillan-‐‑‒Breiman Theorem (漸近等分割性)
• Kelly-‐‑‒Breiman Strategy (最適な定⽐比例例戦略略)
• UC Berkeley名誉教授
• 2005 SIGKDD Innovation Award
• 元々はProbability Theorist
If statistics is an applied field and not a minor branch of mathematics, then
99% of the published papers are useless exercises.
("Reflections after refereeing papers for NIPS”, The Mathematics of Generalization, Ed. D.H. Wolpert, 1995)
https://en.wikipedia.org/wiki/File:Leo_Breiman.jpg

/3610
データ駆動科学とAbduction/Induction
科学では関⼼心ある活性を規定している説明因⼦子を知りたい…
データ駆動の暗黙の仮定:その説明因⼦子は説明変数/記述⼦子の合成量量
(還元論論的)科学：複雑な現象や性質の原理理を単純明解に説明したい
説明変数/記述⼦子をどうするかがかなりの⼤大問題！！
Hypotheses/Axioms
Experimental Facts
deduction
abduction
induction
The grand aim of science is to cover
the greatest number of experimental
facts by logical deduction from the
smallest number of hypotheses or
axioms. (Albert Einstein)

/3611
使えそうな量量の多数候補から”変数選択”を通して探索索
対象: ⼆二元化合物半導体の結晶構造(+エネルギー差)予測 (対象82個)
14個(候補23個)のprimary features (原⼦子A-‐‑‒原⼦子B)
閃亜鉛鉱
構造(ZB)
ウルツ鉱
構造(WZ)
岩塩構造
(RS)
様々な変換(和,差,積,指数,⼆二乗,etc)で
多数の合成特徴量量を作成 (10000変数)
1. LASSOで有効変数をpre-‐‑‒select
2. 全探索索Subset回帰(Best Subset回帰)
Case Study: PRL 114, 105503, 2015
→ こっちは最終的には不不使⽤用

/3612
対象: ⼆二元化合物半導体の結晶構造(+エネルギー差)予測
例例2) EhとC → 要件3にviolate!
論論⽂文で提案された記述⼦子としての4要件
1. 対象材料料やその活性を発現する素過程 
をよく特徴づける量量であること
2. 活性が全く異異なる材料料では全く異異なる 
値をとる量量であること
3. 予測したい量量を計算するのと同程度度の 
時間のかかる量量とならないこと
4. 記述⼦子の数は性能が出る範囲で可能な 
限り少なくすること
→ 要件2,4にviolate!  
(KRRでも精度度上がらない)
例例1) 原⼦子番号ペア(ZA,ZB)
Case Study: PRL 114, 105503, 2015

/3613
論論⽂文の⼿手続きで⾒見見つかった特徴量量 (3つの合成特徴量量の線形回帰)
Case Study: PRL 114, 105503, 2015
• この合成特徴量量に基づく線形回帰モデルは背後の科学的法則性に
ついての良良いモデルと⾔言えるのだろうか？ (解釈性や普遍性は？)
• 例例えば「機械学習的に⾯面⽩白くない」と無視して良良いのだろうか？
私の当⾯面の(技術論論的)関⼼心

/3614
何らかの「変数間の”絡み”」(交互作⽤用=interaction)の表現が必要
線形性と交互作⽤用
他の変数の値と独⽴立立に効果を与える
画素iの輝度度
画素jの輝度度
線形モデルでは他の変数値に依存した条件付きの変数値変動は
表現されない (e.g. XORやParityの学習)
整流流
が1増えたら
が　増える

/3615
多項式回帰, ⼀一般化加法モデル(GAM), FM, …
線形モデル + 交互作⽤用項 (e.g. Factorization Machines)
⺟母数に関しては線形のまま：積項を合成特徴量量として加えた線形学習と等価
元の特徴量量応答
回帰係数
合成特徴量量合成特徴量量
• ⾼高次交互作⽤用 (PolyReg) 
• ⾮非線形変換 (何でもあり?) 
• 基底関数変換 (GAM)

http://playground.tensorﬂow.org/ (by Big Picture group, Google)
合成特徴量量
疑問：変数間の絡みを明⽰示的に与えるべきか、学習するべきか？

「うずまき」問題で合成特徴量量を⼀一切切inputせずにArchitecture
Engineeringのみで頑張るのは、学習時間もかかるし結構ツラかった… 
(or 瀧川の⿊黒魔法量量が⾜足りないだけ… 😣)
「殻」「XOR」
「線形分離離可」「うずまき」
厳選の(?)４課題が遊べる
overﬁtさせるべく正則化なし
ReLUで妥協したので 
区分線形的な
分離離境界を⽣生成
合成特徴量量
オールoﬀ
学習率率率1/3, 反復復4倍
学習曲線にプラトーが出て 
諦め時がよくわからん
NNの場合、明⽰示的に与えたほうが学習(のTuning?)が圧倒的に楽

/3618
超⾼高次元の困難: “次元の呪い”の諸相
⼤大きな変数プール(n変数)からBest Subset回帰(m変数)を探すと「本当は全く相関
がないにも関わらず」だいたい常に良良い回帰モデルが⾒見見つかってしまう！😫
が指数的オーダで増加するため可能なモデル数
「偶然に」誤差の⼩小さいモデルが⾒見見つかってしまうリスクもすぐに増加する
QSAR業界では⾮非常に古くから指摘されてきたアーチファクト (Topliss 1972, 1979)
J. Fan, Features of Big Data and sparsest solution in high conﬁdence set, 2014
Fan, 2014の例例
相関係数の最⼤大値の分布 5変数の重相関係数の最⼤大値の分布
(真に全く無相関)
(= 5変数のBest Subset回帰の決定係数)
① Chance Correlation / Spurious Correlation 偽相関

/36
Beyer+ 1999の例例:
19
超⾼高次元の困難: “次元の呪い”の諸相
• K. Beyer+, When Is “Nearest Neighbor” Meaningful? ICDTʼ’99
• V. Pestov, On the geometry of similarity search: dimensionality curse and
concentration of measure, Information Processing Letters, 1999.
超⾼高次元空間ではサンプル点間の距離離がすべてほとんど同じになってしまう
距離離尺度度で情報フィルタリングをする場合、⾼高次元になるとほぼ全検索索に近くなる
ことがデータベースや情報検索索業界で指摘されてきた。
確率率率分布Pと距離離dを持つ超⾼高次元空間では良良く”測度度の集中”(ある距離離内にほとんど
の測度度が集中する現象)という現象が起こることが知られており、上記もこれに起因
n+1個のd次元点
② Concentration of Measures Phenomena 測度度の集中現象

/3620
正則化と変数選択: Best Subset回帰と縮⼩小推定
• 伝統的な変数選択法 (変数増加/減少/増減法/RELIEFF/t検定 etc)
• Best Subset回帰 (L0正則化)
• LASSO (Tibshirani 1996) (L1正則化, Basis Pursuit Denoising)
leaps(Furnival & Wilson 1974) or 全列列挙(Morgan & Tatar 1972)
→ 不不安定(データ点が少し変わると最適解が変化) + 計算時間⼤大
LARS (Efron+ 2003) or 座標降降下 (Friedman+ 2007)
→ 変数間相関がない場合はLASSO=Best Subset(=t検定変数選択)
→ 変数間相関がある場合は⼀一般にはLASSO≠Best Subset (biased)
• glmnet (Friedman+ 2008)
L1+L2(Elastic-‐‑‒Net)罰則つきで⼀一般化線形モデルを座標降降下で学習 
注: 正確には学習というよりは正則化パス追跡のための⼿手法
→ p>n設定のときLASSOでは⾼高々n変数までしか選べない。ロスを 
強凸化するので同点解が⽣生じない → 最適化問題の構造が良良くなる。

/3621
拡張LASSO型オラクル推定量量とSIS
• オラクル推定量量 (Fan & Li, 2001)
• Adaptive LASSO(Zou 2006) ←2段階LASSO
• SCAD(Fan & Li 2001) ←最も良良く使われる推定量量(実現に難あり)
• MC+(Zhang 2010) ←SCADの良良い性質を持ち計算の性質が良良い
• 条件1: Best Subsetへの⼀一致性
• 条件2: 漸近正規性
スパースな真の回帰モデルが
存在するとき、妥当なサンプ
ル数で当てられる性能を規定
• 超⾼高次元の場合、理理論論的な前提が満たされない…  
→ 対処法: SISで適度度なサイズにpre-‐‑‒select後、SCADなどで詳細選択
• Sure Independence Screening (SIS) (Fan & Lv 2008)
p変数(平均0,分散1に基準化)、nサンプル
応答に対して、の絶対値順に要素を整列列
は漸近的な意味ですべての重要変数を含む
番⽬目に⼤大きい相関の絶対値

/3622
安定性の対処: Randomized Sparse Models
• Stability Selection (Meinshausen & Buhlmann 2010)
• Randomized LASSO (Meinshausen & Buhlmann 2010)
参考) Bootstrapをm回やって全部出た変数のみ使うBolasso (Bach 2008)も
個のサンプルからを⾮非復復元抽出し変数選択を繰り返す
→ 各変数が選択変数集合に選ばれる”確率率率”を計算
等確率率率乱数
パラメタ
Regularization Path
❶ LASSO
“Stability” Path (選出確率率率プロット)
❷ LASSO
❸ Randomized LASSO
❶ ❷ ❸

/3623
⽊木型回帰・再帰分割: 交互作⽤用取込みの代替選択肢
いわゆる決定⽊木とか回帰⽊木とか
• CART (Breiman+ 1984), AID (Morgan & Sonquist 1963), CHAID (Kass 1980)
• CLS (Hunt 1966), ID3 (Quinlan 1986), C4.5/C5.0 (Quinlan 1993)
• VFDT/Hoeffding Trees (Domingos & Hulten 2000)
Hyafil, Laurent; Rivest, RL (1976). "Constructing Optimal Binary Decision Trees is NP-complete". Information Processing Letters. 5 (1): 15–17. doi:10.1016/0020-0190(76)90095-8.
Known Facts
• “Automatic Interaction Detector(AID)” ⾃自動交互作⽤用検出に起源
• CART等はBayes-‐‑‒risk consistent (Gordon & Olshen 1978, 1980)
• 最適な2分決定⽊木の構築はNP困難(Hyafil & Rivest 1976)なのでgreedy構築+事後pruning
• 学習が⾼高速、変数の単調変換に対して不不変、離離散・連続を同時に扱える、⽋欠損値・異異常値OK
積和標準形(DNF)をモデル化：  
交互作⽤用項のみからなる加法形
回帰⽊木対応する再帰分割

/3624
交互作⽤用から合成特徴量量へ
回帰森/決定DAG: RF, GBM/MART/AnyBoost, XGBoost, RGF, DJ
紹介すること
縮約合成量量: 主成分回帰, PLS回帰, 教師付きPCA, t-‐‑‒SNE, Embedding
ランダマイズド合成量量: RP/ELM/RC, ExtraTrees, VR-‐‑‒Trees
メタ特徴量量: Stacked Generalization (aka Stacking/Blending)
変数変換探索索: ACE(Alternative Conditional Expectations)
今回扱わないが関係が深いトピック
カーネル法: ⾮非線形⾼高次元写像で間接的に交互作⽤用効果を取り込む
⼀一般化加法モデル: スプライン回帰やMARSなど
ニューラルネット: 写像の計算グラフ(aka Kantorovichグラフ)分解
ベイズ予測分布: 積分型アンサンブル学習

/3625
その他：教師つきPCA(Bair+ 2006), Sparse PCA(Zou+ 2006), Sparse
PLS(Lê Cao+ 2008; Chun & Keleş 2010), ICA(Comon 1994),…
線形合成量量・次元削減: PLS回帰, 教師付きPCA, …
※いずれもスケール不不変でないので注意 (通常各変量量は平均0,分散1に基準化)
様々な低次元合成量量を「特徴量量」としてモデルに加える
線形合成量量
主成分回帰 … 教師なしの直交化(第⼀一軸: データ分散最⼤大)
PLS回帰 … 教師ありの直交化(第⼀一軸: 応答との相関最⼤大)
次元削減量量
Manifold Learning: ISOMAP(Tenenbaum+ 2000), LLE(Roweis &
Saul 2000), t-‐‑‒SNE(van der Maaten & Hinton 2008), …
Neural Networks: Embedding (2vec), AutoEncoders, …

/3626
ACE (Alternative Conditional Expectations), Breiman & Friedman 1985
変数変換探索索: ACE
⽬目的変数
説明変数

/3627
アンサンブル⽊木型回帰
❶ Random Forest (Breiman 2001)
❷ 勾配ブースティング(関数勾配降降下)
• XGBoost (Chen & Guestrin KDDʼ’16) 葉葉数+L2での正則化および⾼高速化
• GBM/MART/GBDT/AnyBoost (Friedman 1999; Mason+ NIPSʼ’99)
❸ Regularized Greedy Forests, RGF (Johnson & Zhang 2014)
• Importance Sample Learning Ensemble, ISLE (Friedman & Popescu 2003) 
部分標本(1/2サイズ以下)に対して⽊木を多数⽣生成 → LASSOで加法⽊木に
❹ Decision Jungles (Shotton+ NIPSʼ’13) → 多数決定⽊木を決定DAGに
加法⽊木 (回帰⽊木の線形結合)
これを回帰⽊木で最⼩小⼆二乗近似
Bootstrap + 乱択部分変数スプリット
各反復復:
葉葉split or 新⽊木⽣生成
回帰森を⽊木構造正則化つきGreedy構成 + “Fully Corrective”

/3628
Feature ImportanceとPartial Dependence
• 「解釈性」の問題: それって解釈性なんですか?
「CARTはあまり予測精度度は⾼高くないけど”解釈性”がある」 
→ 単に予測精度度の⾼高い全く別の説明が他にもあり得ることを⽰示唆?
特に⾼高次元現象により、⽊木やBest Subsetなどの離離散表現は 
ほぼ同じ精度度でまったく違う表現が多数存在する場合が多い
• ⽊木型アンサンブルの解釈性の担保
• Feature Importance
• Partial Dependence Plot (PDP)
• 交互作⽤用の共起も頻度度解析できる?
⽊木型アンサンブルはとても良良い!! 😆 (個⼈人的な趣味趣向含む…) 
→ 明らかに「斜め」の表現に不不向きなのでPCAなど回転系特徴を
⼊入れておくとか、線形モデルとBlendingする(後述)とか対応は必要
“ESLII”
(2009)

/3629
⾮非線形ランダム特徴量量
交互作⽤用を取込めてバリエーションがあればOKなら、もしかして 
ランダムでも良良いのでは？という極論論 (実際に結構良良い)
❷ Randomized Trees
: : :
FC FC
: :
FC FC
Extreme Learning Machine, ELM 
(Huang 2006)
Reservoir Computing, RC 
(e.g. Schrauwen+ 2007)
⼊入⼒力力出⼒力力
時系列列
⼊入⼒力力
出⼒力力
ランダム初期化(学習しない)ランダム初期化(学習しない)
• Extremely Randomized Trees (Geurts+ 2006)
• VR-‐‑‒Trees (Liu 2008)
❶ Random Projections
完全ランダム分割
ランダム分割 or CART分割を各頂点で乱択
ランダム結合

/3630
Netﬂix Prizeなど競技コンペ技術Stacking/Blendingとして広まった
メタ特徴量量: CV予測による合成特徴量量
訓練サンプル1
訓練サンプル2
訓練サンプル3
訓練サンプル4
訓練サンプル5
訓練サンプル6
訓練サンプル7
訓練サンプル8
訓練サンプル9
訓練サンプル10
任意の予測器
ただしこのサンプルは
予測器の学習に使⽤用しない
(Out-‐‑‒of-‐‑‒Sample Estimate)
この予測値⾃自体を追加特徴量量に 
(メタ特徴量量)
学習
⼊入⼒力力
CV予測
Stacked Generalization(Wolpert 1992; Breiman 1996)

/3631
合成特徴量量
の⽣生成
線形判別 (最終層Linear)
「線形合成+整流流をstack」で写像分解
表現学習 = 計算グラフ分解による合成特徴量量学習
計算グラフ(aka Kantorovichグラフ)
同じ⼊入⼒力力を使いまわす
のでアンサンブル学習
の効果も

/3632
NIPS 2003 Challenge (Guyon+ NIPSʼ’04)
PCA or 単変量量特徴選択 + ノンパラメトリックベイズNN(MCMCで学習) 
ARD prior or Dirichlet Difussion Tree priorのもとでの 
Bayesian Neural Networks (Neal & Zhang 2006) 隠れ層2層(25→8 units)
NIPS 2003 Feature Selection Challenge
この%で⼈人⼯工ノイズが加えられている
• 主催のGuyonが講義で上記5データに対してベースライン性能を越せという演習
課題を作ったら、学⽣生たちの予測が優勝性能を上回った! (Guyon+ 2007)
• ESLII(Hastie+ 2009)で⽊木やNNのブースティング,RFと⽐比較
最終提出した16 チーム中の優勝者の最終モデル (他と⽐比べ明らかに良良かった)
(他のentryの多くはKernel methods)
ところが上記は優位とは⾔言えないかもという後⽇日談…

/3633
KDD Cup 2015
https://speakerdeck.com/smly/techniques-tricks-for-data-mining-competitions
典型的Churn Predictionタスク: MOOC(XuetangX)のdropout確率率率予測 (賞⾦金金$20,000)
Techniques (Tricks) for Data Mining Competitions ⼩小嵜耕平(@smly)
参加821チーム中の優勝者の最終モデル構成(+ちょっとleakyな特徴量量が効いた様⼦子?)
• 最終層Linear Stacker
• 3段Stackingだが最終 
Stackerには1層,2層の 
メタ特徴も⼊入れる
• GBMやNN + LR のStack重要
• バリエーションが⼤大事(たぶん)
• 個⼈人的にはKRRではなく
ET(Extra Trees)が2段⽬目でも
使われたのが興味深い…

/3634
① AD(Applicability Domain)
伝統的にはQSARは⾻骨格が同⼀一で置換基の異異なる⼀一連の化合物に対して⾏行行
われてきた　→ 　学習モデルはこのタスク以外ではうまくいく根拠なし
AD = 予測したいデータが与えられた学習済みモデルで”外挿”になっ
てないか判断する⼿手法 (棄却つき教師つき学習 or スイッチング回帰)
モデル特徴集合の妥当性評価
C. Rücker+, J. Chem. Inf. Model., 2007, 47 (6), pp 2345–2357
② Y-‐‑‒Scrambling Test / Y-‐‑‒Randomization
機械学習による外挿は信頼性が⼩小さいので、その際はモデルが適⽤用外と判断！
yをランダムに並び替え
並び替え後のデータは「科学的に全く無意味なデータ」
→ 全く同じ⼿手順で予測を構築して予測精度度が有意に下がることを確認 
(超⾼高次元⼩小サンプルに線形モデルを当てはめるとかの場合特に注意?)

/3635
本⽇日の話: まとめのメッセージ
• 線形モデルは性質がとても良良いが条件付きの関係を表現できないため
underﬁtしやすいので変数間交互作⽤用を何らかの形で組み込む⼯工夫が必要
• 選択肢１：積項交互作⽤用は⽊木型アンサンブル回帰で取り込む 
　　　　　(RF, XGBoost, RGF, ET, DJ, …) 線形とのBlendingが相補的?
• 選択肢２：多項式回帰系(FMなど)で陽に低次交互作⽤用を組み込む
• 選択肢３：とにかく⾮非線形な合成量量をdiverseに⽣生成 (RPやNN)
• 選択肢４：上記すべてやってStacking
• ⾼高次元では偽相関の問題等が起こる
• 超⾼高次元になる場合、単純な単変量量特徴選択(SIS, t検定選択など)や
次元縮約(t-‐‑‒SNE, PLS, PCA, etc)はかなり有効
• Cross Validation以外にADやY-‐‑‒Scramblingも考慮し良良結果に慎重に
• ⾼高次元では推定が不不安定になりやすい (⽊木やBest Subsetなど離離散系は特に)
アンサンブル(Boosting, Bagging, Stacking)やランダマイズ(Stability
Selection, Bagging/Feature Bagging, ELM, ExtraTrees, etc)が⼤大切切

/3636
謝辞
• 北北海道⼤大学情報科学研究科
• 新学術領領域 (総括: 岡⽥田真⼈人教授) 
スパースモデリングの深化と⾼高次元データ駆動科学の創成
• 北北海道⼤大学触媒科学研究所
• 東京⼤大学新領領域創成科学研究科
湊真⼀一教授、⽯石畠正和特任助教、⼤大規模知識識研究室メンバー
清⽔水研⼀一教授、⾼高草⽊木達准教授
津⽥田宏治教授
• JSTさきがけ

科学と機械学習のあいだ：変量の設計・変換・選択・交互作用・線形性

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (7)

Similar to 科学と機械学習のあいだ：変量の設計・変換・選択・交互作用・線形性

Similar to 科学と機械学習のあいだ：変量の設計・変換・選択・交互作用・線形性 (11)

More from Ichigaku Takigawa

More from Ichigaku Takigawa (20)

科学と機械学習のあいだ：変量の設計・変換・選択・交互作用・線形性