SlideShare a Scribd company logo
1 of 36
Download to read offline
/361
科学と機械学習のあいだ:

変量量の設計・変換・選択・交互作⽤用・線形性
北北海道⼤大学・JSTさきがけ
takigawa@ist.hokudai.ac.jp
瀧川    ⼀一学
2016.11.18  @  第19回情報論論的学習理理論論ワークショップ  (IBIS2016)
/362
⾃自⼰己紹介:瀧川  ⼀一学  (たきがわ  いちがく)
北北海道⼤大学・情報科学研究科
http://art.ist.hokudai.ac.jp
参考)  1974  Turing  Award  Lecture  “Computer  Programming  as  an  Art”  (Don  Knuth)
⼤大規模知識識処理理研究室:  湊  真⼀一  教授・瀧川(准教授)・⽯石畠正和  特任助教
ScienceとEngineeringを  
つなぐ「Art」を求めて
https://doi.org/10.1145/361604.361612
/363
活性あり(active):  1,737化合物 活性なし(inactive):  26,895化合物
https://pubchem.ncbi.nlm.nih.gov/bioassay/41
前⽴立立腺癌細胞株PC3に対する成⻑⾧長阻害アッセイデータ
何がこの差を分かつのかの作⽤用機序は複雑すぎてもはやモデリング困難なので

データから統計学的に”使える”法則性を同定したい…。(構造活性相関/QSAR)
/364
表現の問題:特徴量量、説明変数、素性、記述⼦子?
Atom  +  Bond SYBYL  MOL2 Pharmacophore
O
N
N
NH
NHN
N
N
CH3
CH3
Imatinib  (CID  5291) Conformers  in  PubChem3D
1
2
3
284
Molecular  Graph  Representations
(実際は通常Implicit  Hydrogenを付加)
…
取り得る⽴立立体配座は

たくさんある…
Molecular  Descriptors
(variations:  constitutional,  topological,  atom  
pairs,  geometrical,  electronic,  thermodynamical,  
physicochemical,  WHIM,  fingerprints,  RDF,  

autocorrelations,  functional  groups,  structural  
keys,  properties,  interaction  fields,  …)
幾何的構造、分⼦子量量、疎⽔水性(LogP)、HOMO/
LUMO、電気陰性度度、置換基定数、…  (たくさん)
抗悪性腫瘍剤  
          (チロシンキナーゼ

インヒビター)
/365
タスク・対象に依って有効な特徴量量は⼀一般に異異なる。
[Ramakrishnan+  2014]  Sci  Data.  2014  Aug  5;1:140022  
Quantum  chemistry  structures  and  properties  of  134  kilo  molecules.
C,O,N,Fを9個まで組合せて化学的に可能な全133,885分⼦子の15物性を計算したデータ

(例例えば、C7H10O2で6,095個の⽴立立体異異性体が存在  →  部分グラフ特徴ではダメそう 😣)
つまり特徴設計には「銀の弾丸」はなさそう?
(c.f.  “Ugly  duckling  theorem”  渡辺  慧,  1969)
/366
どういう特徴量量を使うかは対象問題ごとに専⾨門的観点で(?)決めている
つまり…
多くの場合、対象問題の性質を「機械」が学習するのではなく

「機械学習ユーザ」が学習している状態  😫
本⽇日のテーマ:  The  Art  of  Feature  Engineering
"Applied  machine  learning"  is  basically  feature  engineering.  
̶— Andrew  Ng
Feature  Engineering  is  the  next  buzz  word  after  big  data.  
̶—  Nayyar  A.  Zaid  
私の思う「機械学習」の理理想像😆:

可能なかぎり⼈人間担当部分はサボれる汎⽤用技術(“機械学習”なのだから!)  
→  今回は現状で機械学習側に蓄積されている「Art」を整理理して紹介
/367
合成特徴量量
基礎特徴量量
潜在的な交絡因⼦子(confounder)を⾒見見逃すことにより、誤った帰結を得ることを
防ぐ意味でもよさそう?
⽬目指すゴール:ある種の「表現学習(特徴学習)」
超⼤大規模な変数候補プール
予測モデル
既存のもの・思いついたものを  
とりあえずすべて⼊入れておく
• システマティックに⽣生成
• 特徴量量の選択や⾼高次合成  
• モデルの⽣生成  (仮説⽣生成)  
• モデルの選択と評価
⼈人間担当
機械担当  
“機械学習”
“機械学習”よ、あとは任せた。  
よしなにやってくれい!!
現状で(機械学習ユーザにとって)ありがたい在り⽅方
/368
本⽇日の話の構成
データ駆動科学とAbduction/Induction、ケーススタディ
線形性と交互作⽤用
交互作⽤用の取込み:  多項式回帰,  ⼀一般化加法モデル,  FM,  ⽊木型回帰
回帰森/決定DAG:  RF,  GBM/MART/AnyBoost,  XGBoost,  RGF,  DJ
正則化と変数選択:  Best  Subset回帰とLASSO,  SCAD,  MC+,  SIS
安定性の対処:  Stability  Selection  (aka  Randomized  LASSO)
交互作⽤用から合成特徴量量へ
超⾼高次元の困難:  Chance  Correlation,  Concentration  of  Measures
縮約合成量量:  主成分回帰,  PLS回帰,  教師付きPCA,  t-‐‑‒SNE,  Embedding(2vec)
ランダマイズド合成量量:  RP/ELM/RC,  ExtraTrees,  VR-‐‑‒Trees
メタ特徴量量:  Stacked  Generalization  (aka  Stacking/Blending)
変数変換探索索:  ACE  (Alternative  Conditional  Expectations)
特徴集合の妥当性評価:  AD(Applicability  Domain),  Y-‐‑‒Scrambling  Test
今⽇日の話の裏裏役者:Leo  Breiman  (1928-‐‑‒2005)
• CART  (Classification  and  Regression  Trees),  PIMPLE  
• Random  Forest  
• Arcing  (aka  Boosting)  
• Bagging,  Pasting  
• ACE  (Alternative  Conditional  Expectations)  
• Stacked  Generalization  (aka  Stacking/Blending)  
• Nonnegative  Garrote  (LASSOの前⾝身  for  Subset回帰)  
• Instability  /  Stabilization  in  Model  Selection  
• Shannon-‐‑‒McMillan-‐‑‒Breiman  Theorem  (漸近等分割性)  
• Kelly-‐‑‒Breiman  Strategy  (最適な定⽐比例例戦略略)
• UC  Berkeley名誉教授  
• 2005  SIGKDD  Innovation  Award  
• 元々はProbability  Theorist
If  statistics  is  an  applied  field  and  not  a  minor  branch  of  mathematics,  then  
99%  of  the  published  papers  are  useless  exercises.    
("Reflections  after  refereeing  papers  for  NIPS”,  The  Mathematics  of  Generalization,  Ed.  D.H.  Wolpert,  1995)
https://en.wikipedia.org/wiki/File:Leo_Breiman.jpg
/3610
データ駆動科学とAbduction/Induction
科学では関⼼心ある活性を規定している説明因⼦子を知りたい…
データ駆動の暗黙の仮定:その説明因⼦子は説明変数/記述⼦子の合成量量
(還元論論的)科学:複雑な現象や性質の原理理を単純明解に説明したい
説明変数/記述⼦子をどうするかがかなりの⼤大問題!!
Hypotheses/Axioms
Experimental  Facts
deduction
abduction
induction
The grand aim of science is to cover
the greatest number of experimental
facts by logical deduction from the
smallest number of hypotheses or
axioms. (Albert Einstein)
/3611
使えそうな量量の多数候補から”変数選択”を通して探索索
対象:  ⼆二元化合物半導体の結晶構造(+エネルギー差)予測  (対象82個)
14個(候補23個)のprimary  features  (原⼦子A-‐‑‒原⼦子B)
閃亜鉛鉱  
構造(ZB)
ウルツ鉱  
構造(WZ)
岩塩構造  
(RS)
様々な変換(和,差,積,指数,⼆二乗,etc)で  
多数の合成特徴量量を作成  (10000変数)
1. LASSOで有効変数をpre-‐‑‒select  
2. 全探索索Subset回帰(Best  Subset回帰)
Case  Study:  PRL  114,  105503,  2015
→  こっちは最終的には不不使⽤用
/3612
対象:  ⼆二元化合物半導体の結晶構造(+エネルギー差)予測
例例2)  EhとC  →  要件3にviolate!  
論論⽂文で提案された記述⼦子としての4要件
1. 対象材料料やその活性を発現する素過程

をよく特徴づける量量であること  
2. 活性が全く異異なる材料料では全く異異なる

値をとる量量であること  
3. 予測したい量量を計算するのと同程度度の

時間のかかる量量とならないこと  
4. 記述⼦子の数は性能が出る範囲で可能な

限り少なくすること
→  要件2,4にviolate!  

      (KRRでも精度度上がらない)
例例1)  原⼦子番号ペア(ZA,ZB)  
使えそうな量量の多数候補から”変数選択”を通して探索索
Case  Study:  PRL  114,  105503,  2015
/3613
論論⽂文の⼿手続きで⾒見見つかった特徴量量  (3つの合成特徴量量の線形回帰)
使えそうな量量の多数候補から”変数選択”を通して探索索
Case  Study:  PRL  114,  105503,  2015
• この合成特徴量量に基づく線形回帰モデルは背後の科学的法則性に
ついての良良いモデルと⾔言えるのだろうか?  (解釈性や普遍性は?)  
• 例例えば「機械学習的に⾯面⽩白くない」と無視して良良いのだろうか?
私の当⾯面の(技術論論的)関⼼心
/3614
何らかの「変数間の”絡み”」(交互作⽤用=interaction)の表現が必要
線形性と交互作⽤用
他の変数の値と独⽴立立に効果を与える
画素iの輝度度
画素jの輝度度
線形モデルでは他の変数値に依存した条件付きの変数値変動は
表現されない  (e.g.  XORやParityの学習)
整流流
が1増えたら
が        増える
/3615
多項式回帰,  ⼀一般化加法モデル(GAM),  FM,  …
線形モデル  +  交互作⽤用項  (e.g.  Factorization  Machines)
⺟母数に関しては線形のまま:積項を合成特徴量量として加えた線形学習と等価
元の特徴量量 応答
回帰係数
合成特徴量量 合成特徴量量
• ⾼高次交互作⽤用  (PolyReg)

• ⾮非線形変換  (何でもあり?)

• 基底関数変換  (GAM)

http://playground.tensorflow.org/  (by  Big  Picture  group,  Google)
合成特徴量量
疑問:変数間の絡みを明⽰示的に与えるべきか、学習するべきか?
「うずまき」問題で合成特徴量量を⼀一切切inputせずにArchitecture  
Engineeringのみで頑張るのは、学習時間もかかるし結構ツラかった…

(or  瀧川の⿊黒魔法量量が⾜足りないだけ… 😣)
「殻」 「XOR」
「線形分離離可」「うずまき」
厳選の(?)4課題が遊べる
overfitさせるべく正則化なし
ReLUで妥協したので

区分線形的な  
分離離境界を⽣生成
合成特徴量量  
オールoff
学習率率率1/3,  反復復4倍
学習曲線にプラトーが出て

諦め時がよくわからん
NNの場合、明⽰示的に与えたほうが学習(のTuning?)が圧倒的に楽
/3618
超⾼高次元の困難:  “次元の呪い”の諸相
⼤大きな変数プール(n変数)からBest  Subset回帰(m変数)を探すと「本当は全く相関
がないにも関わらず」だいたい常に良良い回帰モデルが⾒見見つかってしまう!😫
が指数的オーダで増加するため可能なモデル数
「偶然に」誤差の⼩小さいモデルが⾒見見つかってしまうリスクもすぐに増加する
QSAR業界では⾮非常に古くから指摘されてきたアーチファクト  (Topliss  1972,  1979)
J.  Fan,  Features  of  Big  Data  and  sparsest  solution  in  high  confidence  set,  2014  
Fan,  2014の例例
相関係数の最⼤大値の分布 5変数の重相関係数の最⼤大値の分布
(真に全く無相関)
(=  5変数のBest  Subset回帰の決定係数)
①  Chance  Correlation  /  Spurious  Correlation  偽相関
/36
Beyer+  1999の例例:  
19
超⾼高次元の困難:  “次元の呪い”の諸相
• K.  Beyer+,  When  Is  “Nearest  Neighbor”  Meaningful?  ICDTʼ’99  
• V.  Pestov,  On  the  geometry  of  similarity  search:  dimensionality  curse  and  
concentration  of  measure,  Information  Processing  Letters,  1999.
超⾼高次元空間ではサンプル点間の距離離がすべてほとんど同じになってしまう
距離離尺度度で情報フィルタリングをする場合、⾼高次元になるとほぼ全検索索に近くなる  
ことがデータベースや情報検索索業界で指摘されてきた。
確率率率分布Pと距離離dを持つ超⾼高次元空間では良良く”測度度の集中”(ある距離離内にほとんど
の測度度が集中する現象)という現象が起こることが知られており、上記もこれに起因
n+1個のd次元点
②  Concentration  of  Measures  Phenomena  測度度の集中現象
/3620
正則化と変数選択:  Best  Subset回帰と縮⼩小推定
• 伝統的な変数選択法  (変数増加/減少/増減法/RELIEFF/t検定  etc)
• Best  Subset回帰  (L0正則化)
• LASSO  (Tibshirani  1996)  (L1正則化,  Basis  Pursuit  Denoising)
leaps(Furnival  &  Wilson  1974)  or  全列列挙(Morgan  &  Tatar  1972)
→  不不安定(データ点が少し変わると最適解が変化)  +  計算時間⼤大
LARS  (Efron+  2003)  or  座標降降下  (Friedman+  2007)
→  変数間相関がない場合はLASSO=Best  Subset(=t検定変数選択)
→  変数間相関がある場合は⼀一般にはLASSO≠Best  Subset  (biased)
• glmnet  (Friedman+  2008)
L1+L2(Elastic-‐‑‒Net)罰則つきで⼀一般化線形モデルを座標降降下で学習

注:  正確には学習というよりは正則化パス追跡のための⼿手法
→  p>n設定のときLASSOでは⾼高々n変数までしか選べない。ロスを

強凸化するので同点解が⽣生じない  →  最適化問題の構造が良良くなる。
/3621
拡張LASSO型オラクル推定量量とSIS
• オラクル推定量量  (Fan  &  Li,  2001)
• Adaptive  LASSO(Zou  2006)  ←2段階LASSO  
• SCAD(Fan  &  Li  2001)  ←最も良良く使われる推定量量(実現に難あり)  
• MC+(Zhang  2010)  ←SCADの良良い性質を持ち計算の性質が良良い
• 条件1:  Best  Subsetへの          ⼀一致性
• 条件2:  漸近正規性
スパースな真の回帰モデルが
存在するとき、妥当なサンプ
ル数で当てられる性能を規定
• 超⾼高次元の場合、理理論論的な前提が満たされない…  

→  対処法:  SISで適度度なサイズにpre-‐‑‒select後、SCADなどで詳細選択
• Sure  Independence  Screening  (SIS)  (Fan  &  Lv  2008)
p変数(平均0,分散1に基準化)、nサンプル
応答 に対して、 の絶対値順に要素を整列列
は漸近的な意味ですべての重要変数を含む
番⽬目に⼤大きい相関の絶対値
/3622
安定性の対処:  Randomized  Sparse  Models
• Stability  Selection  (Meinshausen  &  Buhlmann  2010)
• Randomized  LASSO  (Meinshausen  &  Buhlmann  2010)
参考)  Bootstrapをm回やって全部出た変数のみ使うBolasso  (Bach  2008)も
  個のサンプルから                を⾮非復復元抽出し変数選択を繰り返す
→  各変数が選択変数集合に選ばれる”確率率率”を計算
等確率率率乱数
パラメタ
Regularization  Path  
    ❶  LASSO  
“Stability”  Path  (選出確率率率プロット)  
    ❷  LASSO  
    ❸  Randomized  LASSO
❶ ❷ ❸
/3623
⽊木型回帰・再帰分割:  交互作⽤用取込みの代替選択肢
いわゆる決定⽊木とか回帰⽊木とか
• CART  (Breiman+  1984),  AID  (Morgan  &  Sonquist  1963),  CHAID  (Kass  1980)  
• CLS  (Hunt  1966),  ID3  (Quinlan  1986),  C4.5/C5.0  (Quinlan  1993)  
• VFDT/Hoeffding  Trees  (Domingos  &  Hulten  2000)
Hyafil, Laurent; Rivest, RL (1976). "Constructing Optimal Binary Decision Trees is NP-complete". Information Processing Letters. 5 (1): 15–17. doi:10.1016/0020-0190(76)90095-8.
Known  Facts
• “Automatic  Interaction  Detector(AID)”  ⾃自動交互作⽤用検出に起源  
• CART等はBayes-‐‑‒risk  consistent  (Gordon  &  Olshen  1978,  1980)  
• 最適な2分決定⽊木の構築はNP困難(Hyafil  &  Rivest  1976)なのでgreedy構築+事後pruning  
• 学習が⾼高速、変数の単調変換に対して不不変、離離散・連続を同時に扱える、⽋欠損値・異異常値OK
積和標準形(DNF)をモデル化:  

交互作⽤用項のみからなる加法形
回帰⽊木 対応する再帰分割
/3624
交互作⽤用から合成特徴量量へ
回帰森/決定DAG:  RF,  GBM/MART/AnyBoost,  XGBoost,  RGF,  DJ
紹介すること
縮約合成量量:  主成分回帰,  PLS回帰,  教師付きPCA,  t-‐‑‒SNE,  Embedding
ランダマイズド合成量量:  RP/ELM/RC,  ExtraTrees,  VR-‐‑‒Trees
メタ特徴量量:  Stacked  Generalization  (aka  Stacking/Blending)
変数変換探索索:  ACE(Alternative  Conditional  Expectations)
今回扱わないが関係が深いトピック
カーネル法:  ⾮非線形⾼高次元写像で間接的に交互作⽤用効果を取り込む
⼀一般化加法モデル:  スプライン回帰やMARSなど
ニューラルネット:  写像の計算グラフ(aka  Kantorovichグラフ)分解
ベイズ予測分布:  積分型アンサンブル学習
/3625
その他:教師つきPCA(Bair+  2006),  Sparse  PCA(Zou+  2006),  Sparse  
PLS(Lê  Cao+  2008;  Chun  &  Keleş  2010),  ICA(Comon  1994),…
線形合成量量・次元削減:  PLS回帰,  教師付きPCA,  …
※いずれもスケール不不変でないので注意    (通常各変量量は平均0,分散1に基準化)
様々な低次元合成量量を「特徴量量」としてモデルに加える
線形合成量量
主成分回帰  …  教師なしの直交化(第⼀一軸:  データ分散最⼤大)
PLS回帰  …  教師ありの直交化(第⼀一軸:  応答との相関最⼤大)
次元削減量量
Manifold  Learning:  ISOMAP(Tenenbaum+  2000),  LLE(Roweis  &  
Saul  2000),  t-‐‑‒SNE(van  der  Maaten  &  Hinton  2008),  …
Neural  Networks:  Embedding  (2vec),  AutoEncoders,  …
/3626
ACE  (Alternative  Conditional  Expectations),  Breiman  &  Friedman  1985
変数変換探索索:  ACE
⽬目的変数
説明変数
/3627
アンサンブル⽊木型回帰
❶  Random  Forest  (Breiman  2001)
❷  勾配ブースティング(関数勾配降降下)
• XGBoost  (Chen  &  Guestrin  KDDʼ’16)  葉葉数+L2での正則化および⾼高速化
• GBM/MART/GBDT/AnyBoost  (Friedman  1999;  Mason+  NIPSʼ’99)
❸  Regularized  Greedy  Forests,  RGF  (Johnson  &  Zhang  2014)
• Importance  Sample  Learning  Ensemble,  ISLE  (Friedman  &  Popescu  2003)

部分標本(1/2サイズ以下)に対して⽊木を多数⽣生成  →  LASSOで加法⽊木に
❹  Decision  Jungles  (Shotton+  NIPSʼ’13)  →  多数決定⽊木を決定DAGに
加法⽊木  (回帰⽊木の線形結合)
これを回帰⽊木で最⼩小⼆二乗近似
Bootstrap  +  乱択部分変数スプリット
各反復復:    
葉葉split  or  新⽊木⽣生成
回帰森を⽊木構造正則化つきGreedy構成  +  “Fully  Corrective”
/3628
Feature  ImportanceとPartial  Dependence
• 「解釈性」の問題:  それって解釈性なんですか?
「CARTはあまり予測精度度は⾼高くないけど”解釈性”がある」

→  単に予測精度度の⾼高い全く別の説明が他にもあり得ることを⽰示唆?
特に⾼高次元現象により、⽊木やBest  Subsetなどの離離散表現は

ほぼ同じ精度度でまったく違う表現が多数存在する場合が多い
• ⽊木型アンサンブルの解釈性の担保  
• Feature  Importance  
• Partial  Dependence  Plot  (PDP)  
• 交互作⽤用の共起も頻度度解析できる?
⽊木型アンサンブルはとても良良い!!  😆  (個⼈人的な趣味趣向含む…)

→  明らかに「斜め」の表現に不不向きなのでPCAなど回転系特徴を
⼊入れておくとか、線形モデルとBlendingする(後述)とか対応は必要
“ESLII”  
(2009)
/3629
⾮非線形ランダム特徴量量
交互作⽤用を取込めてバリエーションがあればOKなら、もしかして

ランダムでも良良いのでは?という極論論  (実際に結構良良い)
❷  Randomized  Trees
: : :
FC FC
: :
FC FC
Extreme  Learning  Machine,  ELM

(Huang  2006)
Reservoir  Computing,  RC

(e.g.  Schrauwen+  2007)
⼊入⼒力力 出⼒力力
時系列列  
⼊入⼒力力
出⼒力力
ランダム初期化(学習しない)ランダム初期化(学習しない)
• Extremely  Randomized  Trees  (Geurts+  2006)
• VR-‐‑‒Trees  (Liu  2008)
❶  Random  Projections
完全ランダム分割
ランダム分割  or  CART分割を各頂点で乱択
ランダム結合
/3630
Netflix  Prizeなど競技コンペ技術Stacking/Blendingとして広まった
メタ特徴量量:  CV予測による合成特徴量量
訓練サンプル1
訓練サンプル2
訓練サンプル3
訓練サンプル4
訓練サンプル5
訓練サンプル6
訓練サンプル7
訓練サンプル8
訓練サンプル9
訓練サンプル10
任意の予測器
ただしこのサンプルは  
予測器の学習に使⽤用しない  
(Out-‐‑‒of-‐‑‒Sample  Estimate)
この予測値⾃自体を追加特徴量量に

(メタ特徴量量)
学習
⼊入⼒力力
CV予測
Stacked  Generalization(Wolpert  1992;  Breiman  1996)
/3631
合成特徴量量  
の⽣生成
線形判別  (最終層Linear)
「線形合成+整流流をstack」で写像分解
表現学習  =  計算グラフ分解による合成特徴量量学習
計算グラフ(aka  Kantorovichグラフ)
同じ⼊入⼒力力を使いまわす  
のでアンサンブル学習  
の効果も
/3632
NIPS  2003  Challenge  (Guyon+  NIPSʼ’04)
PCA  or  単変量量特徴選択  +  ノンパラメトリックベイズNN(MCMCで学習)

ARD  prior  or  Dirichlet  Difussion  Tree  priorのもとでの

Bayesian  Neural  Networks  (Neal  &  Zhang  2006)  隠れ層2層(25→8  units)
NIPS  2003  Feature  Selection  Challenge
この%で⼈人⼯工ノイズが加えられている
• 主催のGuyonが講義で上記5データに対してベースライン性能を越せという演習
課題を作ったら、学⽣生たちの予測が優勝性能を上回った!  (Guyon+  2007)  
• ESLII(Hastie+  2009)で⽊木やNNのブースティング,RFと⽐比較
最終提出した16  チーム中の優勝者の最終モデル  (他と⽐比べ明らかに良良かった)
(他のentryの多くはKernel  methods)
ところが上記は優位とは⾔言えないかもという後⽇日談…
/3633
KDD  Cup  2015
https://speakerdeck.com/smly/techniques-tricks-for-data-mining-competitions
典型的Churn  Predictionタスク:  MOOC(XuetangX)のdropout確率率率予測  (賞⾦金金$20,000)
Techniques  (Tricks)  for  Data  Mining  Competitions  ⼩小嵜  耕平(@smly)
参加821チーム中の優勝者の最終モデル構成(+ちょっとleakyな特徴量量が効いた様⼦子?)
• 最終層Linear  Stacker  
• 3段Stackingだが最終

Stackerには1層,2層の

メタ特徴も⼊入れる  
• GBMやNN  +  LR  のStack重要  
• バリエーションが⼤大事(たぶん)  
• 個⼈人的にはKRRではなく
ET(Extra  Trees)が2段⽬目でも
使われたのが興味深い…
/3634
①  AD(Applicability  Domain)
伝統的にはQSARは⾻骨格が同⼀一で置換基の異異なる⼀一連の化合物に対して⾏行行
われてきた  →  学習モデルはこのタスク以外ではうまくいく根拠なし
AD  =  予測したいデータが与えられた学習済みモデルで”外挿”になっ
てないか判断する⼿手法  (棄却つき教師つき学習  or  スイッチング回帰)
モデル特徴集合の妥当性評価
C.  Rücker+,  J.  Chem.  Inf.  Model.,  2007,  47  (6),  pp  2345–2357
②  Y-‐‑‒Scrambling  Test  /  Y-‐‑‒Randomization
機械学習による外挿は信頼性が⼩小さいので、その際はモデルが適⽤用外と判断!
yをランダムに並び替え
並び替え後のデータは「科学的に全く無意味なデータ」  
→  全く同じ⼿手順で予測を構築して予測精度度が有意に下がることを確認

        (超⾼高次元⼩小サンプルに線形モデルを当てはめるとかの場合特に注意?)
/3635
本⽇日の話:  まとめのメッセージ
• 線形モデルは性質がとても良良いが条件付きの関係を表現できないため
underfitしやすいので変数間交互作⽤用を何らかの形で組み込む⼯工夫が必要
• 選択肢1:積項交互作⽤用は⽊木型アンサンブル回帰で取り込む

          (RF,  XGBoost,  RGF,  ET,  DJ,  …)  線形とのBlendingが相補的?  
• 選択肢2:多項式回帰系(FMなど)で陽に低次交互作⽤用を組み込む  
• 選択肢3:とにかく⾮非線形な合成量量をdiverseに⽣生成  (RPやNN)  
• 選択肢4:上記すべてやってStacking
• ⾼高次元では偽相関の問題等が起こる
• 超⾼高次元になる場合、単純な単変量量特徴選択(SIS,  t検定選択など)や
次元縮約(t-‐‑‒SNE,  PLS,  PCA,  etc)はかなり有効
• Cross  Validation以外にADやY-‐‑‒Scramblingも考慮し良良結果に慎重に
• ⾼高次元では推定が不不安定になりやすい  (⽊木やBest  Subsetなど離離散系は特に)
アンサンブル(Boosting,  Bagging,  Stacking)やランダマイズ(Stability  
Selection,  Bagging/Feature  Bagging,  ELM,  ExtraTrees,  etc)が⼤大切切
/3636
謝辞
• 北北海道⼤大学  情報科学研究科
• 新学術領領域  (総括:  岡⽥田真⼈人  教授)

スパースモデリングの深化と⾼高次元データ駆動科学の創成
• 北北海道⼤大学  触媒科学研究所
• 東京⼤大学  新領領域創成科学研究科
湊  真⼀一  教授、⽯石畠正和  特任助教、⼤大規模知識識研究室メンバー
清⽔水研⼀一  教授、⾼高草⽊木  達  准教授
津⽥田宏治  教授
• JSTさきがけ

More Related Content

What's hot

Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Hideki Tsunashima
 
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章Hakky St
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデルMasahiro Suzuki
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -tmtm otm
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門Kawamoto_Kazuhiko
 
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法CV分野におけるサーベイ方法
CV分野におけるサーベイ方法Hirokatsu Kataoka
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門joisino
 
強化学習その2
強化学習その2強化学習その2
強化学習その2nishio
 
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision TreeNIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision TreeTakami Sato
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門Takuji Tahara
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...joisino
 
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII
 
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用Hiroyuki Masuda
 
スパースモデリングによる多次元信号・画像復元
スパースモデリングによる多次元信号・画像復元スパースモデリングによる多次元信号・画像復元
スパースモデリングによる多次元信号・画像復元Shogo Muramatsu
 
Kaggleのテクニック
KaggleのテクニックKaggleのテクニック
KaggleのテクニックYasunori Ozaki
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion ModelsDeep Learning JP
 

What's hot (20)

Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
 
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法CV分野におけるサーベイ方法
CV分野におけるサーベイ方法
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
強化学習その2
強化学習その2強化学習その2
強化学習その2
 
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision TreeNIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
階層ベイズとWAIC
階層ベイズとWAIC階層ベイズとWAIC
階層ベイズとWAIC
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
 
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
 
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
スパースモデリングによる多次元信号・画像復元
スパースモデリングによる多次元信号・画像復元スパースモデリングによる多次元信号・画像復元
スパースモデリングによる多次元信号・画像復元
 
Kaggleのテクニック
KaggleのテクニックKaggleのテクニック
Kaggleのテクニック
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 

Viewers also liked

GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例Takanori Nakai
 
面倒くさいこと考えたくないあなたへ〜Tpotと機械学習〜
面倒くさいこと考えたくないあなたへ〜Tpotと機械学習〜面倒くさいこと考えたくないあなたへ〜Tpotと機械学習〜
面倒くさいこと考えたくないあなたへ〜Tpotと機械学習〜Hiroki Yamamoto
 
RandomForest
RandomForestRandomForest
RandomForestgoodbaton
 
10分でわかるRandom forest
10分でわかるRandom forest10分でわかるRandom forest
10分でわかるRandom forestYasunori Ozaki
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類Shintaro Fukushima
 
実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだこと実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだことnishio
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシンShinya Shimizu
 

Viewers also liked (7)

GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例
 
面倒くさいこと考えたくないあなたへ〜Tpotと機械学習〜
面倒くさいこと考えたくないあなたへ〜Tpotと機械学習〜面倒くさいこと考えたくないあなたへ〜Tpotと機械学習〜
面倒くさいこと考えたくないあなたへ〜Tpotと機械学習〜
 
RandomForest
RandomForestRandomForest
RandomForest
 
10分でわかるRandom forest
10分でわかるRandom forest10分でわかるRandom forest
10分でわかるRandom forest
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
 
実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだこと実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだこと
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン
 

Similar to 科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性

圏論とHaskellは仲良し
圏論とHaskellは仲良し圏論とHaskellは仲良し
圏論とHaskellは仲良しohmori
 
データ分析というお仕事のこれまでとこれから(HCMPL2014)
データ分析というお仕事のこれまでとこれから(HCMPL2014)データ分析というお仕事のこれまでとこれから(HCMPL2014)
データ分析というお仕事のこれまでとこれから(HCMPL2014)Takashi J OZAKI
 
[論文略説]Stochastic Thermodynamics Interpretation of Information Geometry
[論文略説]Stochastic Thermodynamics Interpretation of Information Geometry[論文略説]Stochastic Thermodynamics Interpretation of Information Geometry
[論文略説]Stochastic Thermodynamics Interpretation of Information GeometryKCS Keio Computer Society
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)Morpho, Inc.
 
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...Deep Learning JP
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions Deep Learning JP
 
帰納バイアスと分子の組合せ的表現・幾何的表現 (本発表)
帰納バイアスと分子の組合せ的表現・幾何的表現 (本発表)帰納バイアスと分子の組合せ的表現・幾何的表現 (本発表)
帰納バイアスと分子の組合せ的表現・幾何的表現 (本発表)Ichigaku Takigawa
 
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】Naoki Hayashi
 
Hayashi tutorial ne2017
Hayashi tutorial ne2017Hayashi tutorial ne2017
Hayashi tutorial ne2017yukisachi
 
Sparse pca via bipartite matching
Sparse pca via bipartite matchingSparse pca via bipartite matching
Sparse pca via bipartite matchingKimikazu Kato
 

Similar to 科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性 (11)

圏論とHaskellは仲良し
圏論とHaskellは仲良し圏論とHaskellは仲良し
圏論とHaskellは仲良し
 
データ分析というお仕事のこれまでとこれから(HCMPL2014)
データ分析というお仕事のこれまでとこれから(HCMPL2014)データ分析というお仕事のこれまでとこれから(HCMPL2014)
データ分析というお仕事のこれまでとこれから(HCMPL2014)
 
[論文略説]Stochastic Thermodynamics Interpretation of Information Geometry
[論文略説]Stochastic Thermodynamics Interpretation of Information Geometry[論文略説]Stochastic Thermodynamics Interpretation of Information Geometry
[論文略説]Stochastic Thermodynamics Interpretation of Information Geometry
 
論文紹介&実験
論文紹介&実験論文紹介&実験
論文紹介&実験
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
 
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions
 
帰納バイアスと分子の組合せ的表現・幾何的表現 (本発表)
帰納バイアスと分子の組合せ的表現・幾何的表現 (本発表)帰納バイアスと分子の組合せ的表現・幾何的表現 (本発表)
帰納バイアスと分子の組合せ的表現・幾何的表現 (本発表)
 
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
 
Hayashi tutorial ne2017
Hayashi tutorial ne2017Hayashi tutorial ne2017
Hayashi tutorial ne2017
 
Sparse pca via bipartite matching
Sparse pca via bipartite matchingSparse pca via bipartite matching
Sparse pca via bipartite matching
 

More from Ichigaku Takigawa

データ社会を生きる技術
〜機械学習の夢と現実〜
データ社会を生きる技術
〜機械学習の夢と現実〜データ社会を生きる技術
〜機械学習の夢と現実〜
データ社会を生きる技術
〜機械学習の夢と現実〜Ichigaku Takigawa
 
機械学習を科学研究で使うとは?
機械学習を科学研究で使うとは?機械学習を科学研究で使うとは?
機械学習を科学研究で使うとは?Ichigaku Takigawa
 
A Modern Introduction to Decision Tree Ensembles
A Modern Introduction to Decision Tree EnsemblesA Modern Introduction to Decision Tree Ensembles
A Modern Introduction to Decision Tree EnsemblesIchigaku Takigawa
 
Exploring Practices in Machine Learning and Machine Discovery for Heterogeneo...
Exploring Practices in Machine Learning and Machine Discovery for Heterogeneo...Exploring Practices in Machine Learning and Machine Discovery for Heterogeneo...
Exploring Practices in Machine Learning and Machine Discovery for Heterogeneo...Ichigaku Takigawa
 
機械学習と機械発見:自然科学融合が誘起するデータ科学の新展開
機械学習と機械発見:自然科学融合が誘起するデータ科学の新展開機械学習と機械発見:自然科学融合が誘起するデータ科学の新展開
機械学習と機械発見:自然科学融合が誘起するデータ科学の新展開Ichigaku Takigawa
 
機械学習と機械発見:自然科学研究におけるデータ利活用の再考
機械学習と機械発見:自然科学研究におけるデータ利活用の再考機械学習と機械発見:自然科学研究におけるデータ利活用の再考
機械学習と機械発見:自然科学研究におけるデータ利活用の再考Ichigaku Takigawa
 
小1にルービックキューブを教えてみた 〜群論スポーツの教育とパターン認知〜
小1にルービックキューブを教えてみた 〜群論スポーツの教育とパターン認知〜小1にルービックキューブを教えてみた 〜群論スポーツの教育とパターン認知〜
小1にルービックキューブを教えてみた 〜群論スポーツの教育とパターン認知〜Ichigaku Takigawa
 
"データ化"する化学と情報技術・人工知能・データサイエンス
"データ化"する化学と情報技術・人工知能・データサイエンス"データ化"する化学と情報技術・人工知能・データサイエンス
"データ化"する化学と情報技術・人工知能・データサイエンスIchigaku Takigawa
 
自然科学における機械学習と機械発見
自然科学における機械学習と機械発見自然科学における機械学習と機械発見
自然科学における機械学習と機械発見Ichigaku Takigawa
 
幾何と機械学習: A Short Intro
幾何と機械学習: A Short Intro幾何と機械学習: A Short Intro
幾何と機械学習: A Short IntroIchigaku Takigawa
 
決定森回帰の信頼区間推定, Benign Overfitting, 多変量木とReLUネットの入力空間分割
決定森回帰の信頼区間推定, Benign Overfitting, 多変量木とReLUネットの入力空間分割決定森回帰の信頼区間推定, Benign Overfitting, 多変量木とReLUネットの入力空間分割
決定森回帰の信頼区間推定, Benign Overfitting, 多変量木とReLUネットの入力空間分割Ichigaku Takigawa
 
Machine Learning for Molecules: Lessons and Challenges of Data-Centric Chemistry
Machine Learning for Molecules: Lessons and Challenges of Data-Centric ChemistryMachine Learning for Molecules: Lessons and Challenges of Data-Centric Chemistry
Machine Learning for Molecules: Lessons and Challenges of Data-Centric ChemistryIchigaku Takigawa
 
機械学習を自然現象の理解・発見に使いたい人に知っておいてほしいこと
機械学習を自然現象の理解・発見に使いたい人に知っておいてほしいこと機械学習を自然現象の理解・発見に使いたい人に知っておいてほしいこと
機械学習を自然現象の理解・発見に使いたい人に知っておいてほしいことIchigaku Takigawa
 
自己紹介:機械学習・機械発見とデータ中心的自然科学
自己紹介:機械学習・機械発見とデータ中心的自然科学自己紹介:機械学習・機械発見とデータ中心的自然科学
自己紹介:機械学習・機械発見とデータ中心的自然科学Ichigaku Takigawa
 
機械学習・機械発見から見るデータ中心型化学の野望と憂鬱
機械学習・機械発見から見るデータ中心型化学の野望と憂鬱機械学習・機械発見から見るデータ中心型化学の野望と憂鬱
機械学習・機械発見から見るデータ中心型化学の野望と憂鬱Ichigaku Takigawa
 
Machine Learning for Molecular Graph Representations and Geometries
Machine Learning for Molecular Graph Representations and GeometriesMachine Learning for Molecular Graph Representations and Geometries
Machine Learning for Molecular Graph Representations and GeometriesIchigaku Takigawa
 
(2021.11) 機械学習と機械発見:データ中心型の化学・材料科学の教訓とこれから
(2021.11) 機械学習と機械発見:データ中心型の化学・材料科学の教訓とこれから(2021.11) 機械学習と機械発見:データ中心型の化学・材料科学の教訓とこれから
(2021.11) 機械学習と機械発見:データ中心型の化学・材料科学の教訓とこれからIchigaku Takigawa
 
機械学習~データを予測に変える技術~で化学に挑む! (サイエンスアゴラ2021)
機械学習~データを予測に変える技術~で化学に挑む! (サイエンスアゴラ2021)機械学習~データを予測に変える技術~で化学に挑む! (サイエンスアゴラ2021)
機械学習~データを予測に変える技術~で化学に挑む! (サイエンスアゴラ2021)Ichigaku Takigawa
 
(2021.10) 機械学習と機械発見 データ中心型の化学・材料科学の教訓とこれから
(2021.10) 機械学習と機械発見 データ中心型の化学・材料科学の教訓とこれから (2021.10) 機械学習と機械発見 データ中心型の化学・材料科学の教訓とこれから
(2021.10) 機械学習と機械発見 データ中心型の化学・材料科学の教訓とこれから Ichigaku Takigawa
 

More from Ichigaku Takigawa (20)

機械学習と自動微分
機械学習と自動微分機械学習と自動微分
機械学習と自動微分
 
データ社会を生きる技術
〜機械学習の夢と現実〜
データ社会を生きる技術
〜機械学習の夢と現実〜データ社会を生きる技術
〜機械学習の夢と現実〜
データ社会を生きる技術
〜機械学習の夢と現実〜
 
機械学習を科学研究で使うとは?
機械学習を科学研究で使うとは?機械学習を科学研究で使うとは?
機械学習を科学研究で使うとは?
 
A Modern Introduction to Decision Tree Ensembles
A Modern Introduction to Decision Tree EnsemblesA Modern Introduction to Decision Tree Ensembles
A Modern Introduction to Decision Tree Ensembles
 
Exploring Practices in Machine Learning and Machine Discovery for Heterogeneo...
Exploring Practices in Machine Learning and Machine Discovery for Heterogeneo...Exploring Practices in Machine Learning and Machine Discovery for Heterogeneo...
Exploring Practices in Machine Learning and Machine Discovery for Heterogeneo...
 
機械学習と機械発見:自然科学融合が誘起するデータ科学の新展開
機械学習と機械発見:自然科学融合が誘起するデータ科学の新展開機械学習と機械発見:自然科学融合が誘起するデータ科学の新展開
機械学習と機械発見:自然科学融合が誘起するデータ科学の新展開
 
機械学習と機械発見:自然科学研究におけるデータ利活用の再考
機械学習と機械発見:自然科学研究におけるデータ利活用の再考機械学習と機械発見:自然科学研究におけるデータ利活用の再考
機械学習と機械発見:自然科学研究におけるデータ利活用の再考
 
小1にルービックキューブを教えてみた 〜群論スポーツの教育とパターン認知〜
小1にルービックキューブを教えてみた 〜群論スポーツの教育とパターン認知〜小1にルービックキューブを教えてみた 〜群論スポーツの教育とパターン認知〜
小1にルービックキューブを教えてみた 〜群論スポーツの教育とパターン認知〜
 
"データ化"する化学と情報技術・人工知能・データサイエンス
"データ化"する化学と情報技術・人工知能・データサイエンス"データ化"する化学と情報技術・人工知能・データサイエンス
"データ化"する化学と情報技術・人工知能・データサイエンス
 
自然科学における機械学習と機械発見
自然科学における機械学習と機械発見自然科学における機械学習と機械発見
自然科学における機械学習と機械発見
 
幾何と機械学習: A Short Intro
幾何と機械学習: A Short Intro幾何と機械学習: A Short Intro
幾何と機械学習: A Short Intro
 
決定森回帰の信頼区間推定, Benign Overfitting, 多変量木とReLUネットの入力空間分割
決定森回帰の信頼区間推定, Benign Overfitting, 多変量木とReLUネットの入力空間分割決定森回帰の信頼区間推定, Benign Overfitting, 多変量木とReLUネットの入力空間分割
決定森回帰の信頼区間推定, Benign Overfitting, 多変量木とReLUネットの入力空間分割
 
Machine Learning for Molecules: Lessons and Challenges of Data-Centric Chemistry
Machine Learning for Molecules: Lessons and Challenges of Data-Centric ChemistryMachine Learning for Molecules: Lessons and Challenges of Data-Centric Chemistry
Machine Learning for Molecules: Lessons and Challenges of Data-Centric Chemistry
 
機械学習を自然現象の理解・発見に使いたい人に知っておいてほしいこと
機械学習を自然現象の理解・発見に使いたい人に知っておいてほしいこと機械学習を自然現象の理解・発見に使いたい人に知っておいてほしいこと
機械学習を自然現象の理解・発見に使いたい人に知っておいてほしいこと
 
自己紹介:機械学習・機械発見とデータ中心的自然科学
自己紹介:機械学習・機械発見とデータ中心的自然科学自己紹介:機械学習・機械発見とデータ中心的自然科学
自己紹介:機械学習・機械発見とデータ中心的自然科学
 
機械学習・機械発見から見るデータ中心型化学の野望と憂鬱
機械学習・機械発見から見るデータ中心型化学の野望と憂鬱機械学習・機械発見から見るデータ中心型化学の野望と憂鬱
機械学習・機械発見から見るデータ中心型化学の野望と憂鬱
 
Machine Learning for Molecular Graph Representations and Geometries
Machine Learning for Molecular Graph Representations and GeometriesMachine Learning for Molecular Graph Representations and Geometries
Machine Learning for Molecular Graph Representations and Geometries
 
(2021.11) 機械学習と機械発見:データ中心型の化学・材料科学の教訓とこれから
(2021.11) 機械学習と機械発見:データ中心型の化学・材料科学の教訓とこれから(2021.11) 機械学習と機械発見:データ中心型の化学・材料科学の教訓とこれから
(2021.11) 機械学習と機械発見:データ中心型の化学・材料科学の教訓とこれから
 
機械学習~データを予測に変える技術~で化学に挑む! (サイエンスアゴラ2021)
機械学習~データを予測に変える技術~で化学に挑む! (サイエンスアゴラ2021)機械学習~データを予測に変える技術~で化学に挑む! (サイエンスアゴラ2021)
機械学習~データを予測に変える技術~で化学に挑む! (サイエンスアゴラ2021)
 
(2021.10) 機械学習と機械発見 データ中心型の化学・材料科学の教訓とこれから
(2021.10) 機械学習と機械発見 データ中心型の化学・材料科学の教訓とこれから (2021.10) 機械学習と機械発見 データ中心型の化学・材料科学の教訓とこれから
(2021.10) 機械学習と機械発見 データ中心型の化学・材料科学の教訓とこれから
 

科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性