SlideShare a Scribd company logo
1 of 9
Download to read offline
GBDTを使った
feature transformationの適用例
担当: @Quasi_quant2010
データサイエンスLT祭り 2夜目 @Quasi_quant20101
【データサイエンスLT祭り 2夜目】
概要
- 特徴量の相関(非線形性)をGDBTで抽出 -
データサイエンスLT祭り 2夜目 @Quasi_quant20102
 ケース
 予測ラベル:年収が高い・低い
 feature:年齢・教育年数・投資損失・労働時間/週, etc
 例えば、(労働時間/週, 投資利益)の二つを組み合わせた時、
労働時間は短いが、投資利益が高い人は高い傾向にあるはず
 ドメイン知識より、Featureをand条件の組み合わせで
非線形featureは作れる
 ただし、観測したfeatureが多い場合、組み合わせは指数爆発
 そもそも、人間がゼロから非線形featureを設計するのは大変
 非線形性の設計をGBDTで処理した後、線形モデルで予測
前処理 分類器
実験結果
- Stacking+Blending ≒ GBDT+LR > LR -
 GBDTのMax_Depthは8
 独立に見えるfeatureに非線形性があった
データサイエンスLT祭り 2夜目 @Quasi_quant20103
Model accuracy precision recall f-value
LR 8.35e-01 9.22e-01 8.67e-01 8.94e-01
GDBT+LR **8.63e-01 **9.31e-01 8.91e-01 9.11e-01
Stacking+
Blending
8.62e-01 9.30e-01 **8.92e-01 **9.11e-01
注1) 計算データ : Adult Data Set (goo.gl/GzB8bS)
age workclass sex education
education-
num
39 State-gov male Bachelors 13
50
Self-emp-
not-inc
female Bachelors 13
注2) 5-Fold
注3) ** : Best Score
注4) カテゴリカル変数は
全てOne-hot-encoding
データセット例
予測結果
参考
- GBDTとは -
 PAC Learning
 Boostingとは弱学習器をたくさん集めて強学習器を作ろう
 機械学習
 PAC Learningを損失関数を最小化する問題として再定義、
損失を最小化する方向を探すのに勾配情報を使っているので、
Gradient Boosting
 ポイント
 negative gradientを最小二乗近似し、弱学習器を推定
 詳しくは
 [Quasi_quant2010c] を参照
データサイエンスLT祭り 2夜目 @Quasi_quant20104
前処理(イメージ図)
- 非線形性の設計をGBDTで処理 -
 2つの決定木のアンサンブル例
 一つは3つのleaf node(A)
 一つは2つのleaf node(B)
 データ例
 Aの2番目のleaf nodeに到達
 Bの1番目のleaf nodeに到達
 非線形変換後のfeatureは
[0,1,0,1,0] となる
データサイエンスLT祭り 2夜目 @Quasi_quant20105
引用 [H.Xinran, etc]
Figure1
Input Features
Transoformed
Features
線形モデル
で予測
GBDTの原理が損失を最小化するように木を追加するという点で根拠
をもち、決定木が複数and条件の情報も有する非線形変換が可能
A B
実験結果
- FeatureImportanceと正則化path -
データサイエンスLT祭り 2夜目 @Quasi_quant20106
 Feature間のand条件を考慮可
 age * hours-parweek等
 Blendingは損失関数と正則化関
数の組み合わせを比較
 損失関数 : Logistic-Loss or
Hinge Loss
 正則化関数 : L1 or L2
Ridge回帰でBlending
考察①
- サンプルデータの振り返り -
 モデルの振り返り
 GBDTがfeature間の相関をうまく処理したか
 作ったtreeに関し、max_depthが8なので、うまく処理できた
 ただし、実務ではHyper-paramsを忍耐強く調整する必要あり
 実務を想定した振り返り
 施策単体が有効なのか、複合要因なのか
 今回のデータでは、施策複合も有効だった
 部門単体により増収効果という報告があった場合
それは、誤りであることがモデル上確認できる
 決算上事実かは、非線形featureを基に収益を追跡すればよい
 モデル話ではビジネスサイドが納得できないので、
考察をビジネスサイドの手触り感に近づけることも重要
データサイエンスLT祭り 2夜目 @Quasi_quant20107
考察②(実務という視点で)
- 施策への示唆を得られることが最も重要 -
 α,βなど、施策単体を評価するのではなく、施策の組み合わ
せを評価できる枠組みなので、より客観的な振り返りが可能
 施策単体しか評価できないとPDCAを回し切るのに時間がかかる
 観測した特徴量をモデルで非線形変換しているものの、
隠れ変数を導入していないため、単体施策(feature) や複
合施策(非線形feature)に関する振り返りが可能
 単体施策
 GBDTのfeature importance
 複合施策
 非線形変換したfeatureのweight(線形モデルのfeature weight)
 featureの安定性も加味する事も可能で、持続効果もわかる
データサイエンスLT祭り 2夜目 @Quasi_quant20108
参考文献
 **[H.Xinran, etc] Practical Lessons from Predicting Clicks on
Ads at Facebook. ADKDD14
 [C.Zhicheng, etc] Optimal Action Extraction for Random
Forests and Boosted Trees. KDD15
 [Quasi_quant2010a] Gradient Boostingについて - Scikit-Learnを
使ったfeature transformation(GBDT + LR vs LR) -
goo.gl/Pkto81
 [Quasi_quant2010b] Stacking - テンプレート化編・計算編② -
goo.gl/jXSrw8
 [Quasi_quant2010c] Gradient Boostingについて - 準備編 -
goo.gl/tng0vl
 [Quasi_quant2010d] Gradient Boostingについて - 正則化編・
Xgboost – goo.gl/dBQqYc
データサイエンスLT祭り 2夜目 @Quasi_quant20109

More Related Content

What's hot

[Cloud OnAir] Cloud Data Fusion で GCP にデータを集約して素早く分析を開始しよう 2019年10月31日 放送
[Cloud OnAir] Cloud Data Fusion で GCP にデータを集約して素早く分析を開始しよう  2019年10月31日 放送[Cloud OnAir] Cloud Data Fusion で GCP にデータを集約して素早く分析を開始しよう  2019年10月31日 放送
[Cloud OnAir] Cloud Data Fusion で GCP にデータを集約して素早く分析を開始しよう 2019年10月31日 放送Google Cloud Platform - Japan
 
[Cloud OnAir] お客様事例紹介 -リクルートライフスタイルにおける デジタルトランスフォーメーションとクラウド活用- 2018年7月12日 放送
[Cloud OnAir] お客様事例紹介 -リクルートライフスタイルにおける デジタルトランスフォーメーションとクラウド活用- 2018年7月12日 放送[Cloud OnAir] お客様事例紹介 -リクルートライフスタイルにおける デジタルトランスフォーメーションとクラウド活用- 2018年7月12日 放送
[Cloud OnAir] お客様事例紹介 -リクルートライフスタイルにおける デジタルトランスフォーメーションとクラウド活用- 2018年7月12日 放送Google Cloud Platform - Japan
 
Googleにおける機械学習の活用とクラウドサービス
Googleにおける機械学習の活用とクラウドサービスGoogleにおける機械学習の活用とクラウドサービス
Googleにおける機械学習の活用とクラウドサービスGoogle Cloud Platform - Japan
 
データアナリティクスの新たな一歩とそれを支えるインフラ
データアナリティクスの新たな一歩とそれを支えるインフラデータアナリティクスの新たな一歩とそれを支えるインフラ
データアナリティクスの新たな一歩とそれを支えるインフラGoogle Cloud Platform - Japan
 
アドネットワークのデータ解析チームを支える技術
アドネットワークのデータ解析チームを支える技術アドネットワークのデータ解析チームを支える技術
アドネットワークのデータ解析チームを支える技術hagino 3000
 
基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群
基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群
基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群Google Cloud Platform - Japan
 
Gunosy における AWS 上での自然言語処理・機械学習の活用事例
Gunosy における AWS 上での自然言語処理・機械学習の活用事例Gunosy における AWS 上での自然言語処理・機械学習の活用事例
Gunosy における AWS 上での自然言語処理・機械学習の活用事例圭輔 大曽根
 
タクシードライブレコーダーの動画処理MLパイプラインにkubernetesを使ってみた
タクシードライブレコーダーの動画処理MLパイプラインにkubernetesを使ってみたタクシードライブレコーダーの動画処理MLパイプラインにkubernetesを使ってみた
タクシードライブレコーダーの動画処理MLパイプラインにkubernetesを使ってみたTetsutaro Watanabe
 
GCPとBigQueryを用いたIoT基盤の構築
GCPとBigQueryを用いたIoT基盤の構築GCPとBigQueryを用いたIoT基盤の構築
GCPとBigQueryを用いたIoT基盤の構築Kuma Arakawa
 
[Cloud OnAir] ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩 (LIVE) 2018年4月12日 放送
[Cloud OnAir] ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩 (LIVE) 2018年4月12日 放送[Cloud OnAir] ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩 (LIVE) 2018年4月12日 放送
[Cloud OnAir] ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩 (LIVE) 2018年4月12日 放送Google Cloud Platform - Japan
 
[Cloud OnAir] クラウドからエッジまで!進化する GCP の IoT サービス 2018年11月22日 放送
[Cloud OnAir]  クラウドからエッジまで!進化する GCP の IoT サービス 2018年11月22日 放送[Cloud OnAir]  クラウドからエッジまで!進化する GCP の IoT サービス 2018年11月22日 放送
[Cloud OnAir] クラウドからエッジまで!進化する GCP の IoT サービス 2018年11月22日 放送Google Cloud Platform - Japan
 
マッチングアプリの作り方
マッチングアプリの作り方マッチングアプリの作り方
マッチングアプリの作り方IBM Analytics Japan
 
[Cloud OnAir] お客様事例紹介 アサヒグループのデータと GCP の活用 2019年6月13日 放送
[Cloud OnAir] お客様事例紹介  アサヒグループのデータと GCP の活用 2019年6月13日 放送[Cloud OnAir] お客様事例紹介  アサヒグループのデータと GCP の活用 2019年6月13日 放送
[Cloud OnAir] お客様事例紹介 アサヒグループのデータと GCP の活用 2019年6月13日 放送Google Cloud Platform - Japan
 
[Cloud OnAir] Google Cloud Next '18 最新情報 2018年7月26日 放送
[Cloud OnAir] Google Cloud Next '18 最新情報 2018年7月26日 放送[Cloud OnAir] Google Cloud Next '18 最新情報 2018年7月26日 放送
[Cloud OnAir] Google Cloud Next '18 最新情報 2018年7月26日 放送Google Cloud Platform - Japan
 
データを集めて貯めて分析する… 最先端のテクノロジーが詰まったIBMクラウドのご紹介
データを集めて貯めて分析する…  最先端のテクノロジーが詰まったIBMクラウドのご紹介データを集めて貯めて分析する…  最先端のテクノロジーが詰まったIBMクラウドのご紹介
データを集めて貯めて分析する… 最先端のテクノロジーが詰まったIBMクラウドのご紹介IBM Analytics Japan
 
第1回関西ソーシャルゲーム勉強会 kpi発表
第1回関西ソーシャルゲーム勉強会 kpi発表第1回関西ソーシャルゲーム勉強会 kpi発表
第1回関西ソーシャルゲーム勉強会 kpi発表OCHI Shuji
 
hivemallを使って4日間で性別推定した話
hivemallを使って4日間で性別推定した話hivemallを使って4日間で性別推定した話
hivemallを使って4日間で性別推定した話eventdotsjp
 
GCPUG-FUKUOKA データ加工&可視化ハンズオン
GCPUG-FUKUOKA データ加工&可視化ハンズオンGCPUG-FUKUOKA データ加工&可視化ハンズオン
GCPUG-FUKUOKA データ加工&可視化ハンズオンWasaburo Miyata
 
Google Cloud 一般公開データセット
Google Cloud 一般公開データセットGoogle Cloud 一般公開データセット
Google Cloud 一般公開データセットEmma Haruka Iwao
 

What's hot (20)

[Cloud OnAir] Cloud Data Fusion で GCP にデータを集約して素早く分析を開始しよう 2019年10月31日 放送
[Cloud OnAir] Cloud Data Fusion で GCP にデータを集約して素早く分析を開始しよう  2019年10月31日 放送[Cloud OnAir] Cloud Data Fusion で GCP にデータを集約して素早く分析を開始しよう  2019年10月31日 放送
[Cloud OnAir] Cloud Data Fusion で GCP にデータを集約して素早く分析を開始しよう 2019年10月31日 放送
 
[Cloud OnAir] お客様事例紹介 -リクルートライフスタイルにおける デジタルトランスフォーメーションとクラウド活用- 2018年7月12日 放送
[Cloud OnAir] お客様事例紹介 -リクルートライフスタイルにおける デジタルトランスフォーメーションとクラウド活用- 2018年7月12日 放送[Cloud OnAir] お客様事例紹介 -リクルートライフスタイルにおける デジタルトランスフォーメーションとクラウド活用- 2018年7月12日 放送
[Cloud OnAir] お客様事例紹介 -リクルートライフスタイルにおける デジタルトランスフォーメーションとクラウド活用- 2018年7月12日 放送
 
Googleにおける機械学習の活用とクラウドサービス
Googleにおける機械学習の活用とクラウドサービスGoogleにおける機械学習の活用とクラウドサービス
Googleにおける機械学習の活用とクラウドサービス
 
データアナリティクスの新たな一歩とそれを支えるインフラ
データアナリティクスの新たな一歩とそれを支えるインフラデータアナリティクスの新たな一歩とそれを支えるインフラ
データアナリティクスの新たな一歩とそれを支えるインフラ
 
アドネットワークのデータ解析チームを支える技術
アドネットワークのデータ解析チームを支える技術アドネットワークのデータ解析チームを支える技術
アドネットワークのデータ解析チームを支える技術
 
基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群
基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群
基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群
 
Gunosy における AWS 上での自然言語処理・機械学習の活用事例
Gunosy における AWS 上での自然言語処理・機械学習の活用事例Gunosy における AWS 上での自然言語処理・機械学習の活用事例
Gunosy における AWS 上での自然言語処理・機械学習の活用事例
 
タクシードライブレコーダーの動画処理MLパイプラインにkubernetesを使ってみた
タクシードライブレコーダーの動画処理MLパイプラインにkubernetesを使ってみたタクシードライブレコーダーの動画処理MLパイプラインにkubernetesを使ってみた
タクシードライブレコーダーの動画処理MLパイプラインにkubernetesを使ってみた
 
GCPとBigQueryを用いたIoT基盤の構築
GCPとBigQueryを用いたIoT基盤の構築GCPとBigQueryを用いたIoT基盤の構築
GCPとBigQueryを用いたIoT基盤の構築
 
[Cloud OnAir] ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩 (LIVE) 2018年4月12日 放送
[Cloud OnAir] ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩 (LIVE) 2018年4月12日 放送[Cloud OnAir] ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩 (LIVE) 2018年4月12日 放送
[Cloud OnAir] ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩 (LIVE) 2018年4月12日 放送
 
[Cloud OnAir] クラウドからエッジまで!進化する GCP の IoT サービス 2018年11月22日 放送
[Cloud OnAir]  クラウドからエッジまで!進化する GCP の IoT サービス 2018年11月22日 放送[Cloud OnAir]  クラウドからエッジまで!進化する GCP の IoT サービス 2018年11月22日 放送
[Cloud OnAir] クラウドからエッジまで!進化する GCP の IoT サービス 2018年11月22日 放送
 
マッチングアプリの作り方
マッチングアプリの作り方マッチングアプリの作り方
マッチングアプリの作り方
 
[Cloud OnAir] お客様事例紹介 アサヒグループのデータと GCP の活用 2019年6月13日 放送
[Cloud OnAir] お客様事例紹介  アサヒグループのデータと GCP の活用 2019年6月13日 放送[Cloud OnAir] お客様事例紹介  アサヒグループのデータと GCP の活用 2019年6月13日 放送
[Cloud OnAir] お客様事例紹介 アサヒグループのデータと GCP の活用 2019年6月13日 放送
 
[Cloud OnAir] Google Cloud Next '18 最新情報 2018年7月26日 放送
[Cloud OnAir] Google Cloud Next '18 最新情報 2018年7月26日 放送[Cloud OnAir] Google Cloud Next '18 最新情報 2018年7月26日 放送
[Cloud OnAir] Google Cloud Next '18 最新情報 2018年7月26日 放送
 
Sano hmm 20150512
Sano hmm 20150512Sano hmm 20150512
Sano hmm 20150512
 
データを集めて貯めて分析する… 最先端のテクノロジーが詰まったIBMクラウドのご紹介
データを集めて貯めて分析する…  最先端のテクノロジーが詰まったIBMクラウドのご紹介データを集めて貯めて分析する…  最先端のテクノロジーが詰まったIBMクラウドのご紹介
データを集めて貯めて分析する… 最先端のテクノロジーが詰まったIBMクラウドのご紹介
 
第1回関西ソーシャルゲーム勉強会 kpi発表
第1回関西ソーシャルゲーム勉強会 kpi発表第1回関西ソーシャルゲーム勉強会 kpi発表
第1回関西ソーシャルゲーム勉強会 kpi発表
 
hivemallを使って4日間で性別推定した話
hivemallを使って4日間で性別推定した話hivemallを使って4日間で性別推定した話
hivemallを使って4日間で性別推定した話
 
GCPUG-FUKUOKA データ加工&可視化ハンズオン
GCPUG-FUKUOKA データ加工&可視化ハンズオンGCPUG-FUKUOKA データ加工&可視化ハンズオン
GCPUG-FUKUOKA データ加工&可視化ハンズオン
 
Google Cloud 一般公開データセット
Google Cloud 一般公開データセットGoogle Cloud 一般公開データセット
Google Cloud 一般公開データセット
 

Viewers also liked

RandomForest
RandomForestRandomForest
RandomForestgoodbaton
 
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性Ichigaku Takigawa
 
面倒くさいこと考えたくないあなたへ〜Tpotと機械学習〜
面倒くさいこと考えたくないあなたへ〜Tpotと機械学習〜面倒くさいこと考えたくないあなたへ〜Tpotと機械学習〜
面倒くさいこと考えたくないあなたへ〜Tpotと機械学習〜Hiroki Yamamoto
 
Kaggleのテクニック
KaggleのテクニックKaggleのテクニック
KaggleのテクニックYasunori Ozaki
 
10分でわかるRandom forest
10分でわかるRandom forest10分でわかるRandom forest
10分でわかるRandom forestYasunori Ozaki
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類Shintaro Fukushima
 
合成変量とアンサンブル:回帰森と加法モデルの要点
合成変量とアンサンブル:回帰森と加法モデルの要点合成変量とアンサンブル:回帰森と加法モデルの要点
合成変量とアンサンブル:回帰森と加法モデルの要点Ichigaku Takigawa
 
実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだこと実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだことnishio
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシンShinya Shimizu
 

Viewers also liked (9)

RandomForest
RandomForestRandomForest
RandomForest
 
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
 
面倒くさいこと考えたくないあなたへ〜Tpotと機械学習〜
面倒くさいこと考えたくないあなたへ〜Tpotと機械学習〜面倒くさいこと考えたくないあなたへ〜Tpotと機械学習〜
面倒くさいこと考えたくないあなたへ〜Tpotと機械学習〜
 
Kaggleのテクニック
KaggleのテクニックKaggleのテクニック
Kaggleのテクニック
 
10分でわかるRandom forest
10分でわかるRandom forest10分でわかるRandom forest
10分でわかるRandom forest
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
 
合成変量とアンサンブル:回帰森と加法モデルの要点
合成変量とアンサンブル:回帰森と加法モデルの要点合成変量とアンサンブル:回帰森と加法モデルの要点
合成変量とアンサンブル:回帰森と加法モデルの要点
 
実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだこと実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだこと
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン
 

Similar to GBDTを使ったfeature transformationの適用例

ZoZei - アイデア賞スライド
ZoZei - アイデア賞スライドZoZei - アイデア賞スライド
ZoZei - アイデア賞スライドKosaku Ono
 
Why we need blockchain for dx
Why we need blockchain for dxWhy we need blockchain for dx
Why we need blockchain for dxSBI R3 Japan
 
AWS IoT Eventsで遊んでみた
AWS IoT Eventsで遊んでみたAWS IoT Eventsで遊んでみた
AWS IoT Eventsで遊んでみたKen'ichirou Kimura
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネスMie Mori
 
ビッグIoTデータに対応したデータベース GridDB
ビッグIoTデータに対応したデータベース GridDBビッグIoTデータに対応したデータベース GridDB
ビッグIoTデータに対応したデータベース GridDBgriddb
 
2019 kotlin-rejected-fest-doyaaaaaken
2019 kotlin-rejected-fest-doyaaaaaken2019 kotlin-rejected-fest-doyaaaaaken
2019 kotlin-rejected-fest-doyaaaaakenKoyama Kenta
 
kintonedevcamp-vol5-kintonepossibility
kintonedevcamp-vol5-kintonepossibilitykintonedevcamp-vol5-kintonepossibility
kintonedevcamp-vol5-kintonepossibilityTakashi Ushirosako
 
某社のDB運用周りあれこれ
某社のDB運用周りあれこれ某社のDB運用周りあれこれ
某社のDB運用周りあれこれlhfukamachi 深町
 
自治体 東京事務所 訪問の中間報告
自治体 東京事務所 訪問の中間報告自治体 東京事務所 訪問の中間報告
自治体 東京事務所 訪問の中間報告Katsuhito Okada
 
OSC 2020 Fukuoka IT運用自動化を支援する「運用レコメンドプラットフォーム」実現の舞台裏
OSC 2020 Fukuoka IT運用自動化を支援する「運用レコメンドプラットフォーム」実現の舞台裏OSC 2020 Fukuoka IT運用自動化を支援する「運用レコメンドプラットフォーム」実現の舞台裏
OSC 2020 Fukuoka IT運用自動化を支援する「運用レコメンドプラットフォーム」実現の舞台裏Daisuke Ikeda
 
決済システム内製化に向けたプラットフォーム構築 - PCF・BOSHによるオブザーバブルプラットフォーム
決済システム内製化に向けたプラットフォーム構築 - PCF・BOSHによるオブザーバブルプラットフォーム決済システム内製化に向けたプラットフォーム構築 - PCF・BOSHによるオブザーバブルプラットフォーム
決済システム内製化に向けたプラットフォーム構築 - PCF・BOSHによるオブザーバブルプラットフォームDaichiKimura3
 
Node red for-collecting_information
Node red for-collecting_informationNode red for-collecting_information
Node red for-collecting_informationHarada Kazuki
 
吾輩はコンテンツ事業者である 楽天編
吾輩はコンテンツ事業者である 楽天編吾輩はコンテンツ事業者である 楽天編
吾輩はコンテンツ事業者である 楽天編Rakuten Group, Inc.
 

Similar to GBDTを使ったfeature transformationの適用例 (14)

ZoZei - アイデア賞スライド
ZoZei - アイデア賞スライドZoZei - アイデア賞スライド
ZoZei - アイデア賞スライド
 
Why we need blockchain for dx
Why we need blockchain for dxWhy we need blockchain for dx
Why we need blockchain for dx
 
AWS IoT Eventsで遊んでみた
AWS IoT Eventsで遊んでみたAWS IoT Eventsで遊んでみた
AWS IoT Eventsで遊んでみた
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
 
ビッグIoTデータに対応したデータベース GridDB
ビッグIoTデータに対応したデータベース GridDBビッグIoTデータに対応したデータベース GridDB
ビッグIoTデータに対応したデータベース GridDB
 
jubatus pressrelease
jubatus pressreleasejubatus pressrelease
jubatus pressrelease
 
2019 kotlin-rejected-fest-doyaaaaaken
2019 kotlin-rejected-fest-doyaaaaaken2019 kotlin-rejected-fest-doyaaaaaken
2019 kotlin-rejected-fest-doyaaaaaken
 
kintonedevcamp-vol5-kintonepossibility
kintonedevcamp-vol5-kintonepossibilitykintonedevcamp-vol5-kintonepossibility
kintonedevcamp-vol5-kintonepossibility
 
某社のDB運用周りあれこれ
某社のDB運用周りあれこれ某社のDB運用周りあれこれ
某社のDB運用周りあれこれ
 
自治体 東京事務所 訪問の中間報告
自治体 東京事務所 訪問の中間報告自治体 東京事務所 訪問の中間報告
自治体 東京事務所 訪問の中間報告
 
OSC 2020 Fukuoka IT運用自動化を支援する「運用レコメンドプラットフォーム」実現の舞台裏
OSC 2020 Fukuoka IT運用自動化を支援する「運用レコメンドプラットフォーム」実現の舞台裏OSC 2020 Fukuoka IT運用自動化を支援する「運用レコメンドプラットフォーム」実現の舞台裏
OSC 2020 Fukuoka IT運用自動化を支援する「運用レコメンドプラットフォーム」実現の舞台裏
 
決済システム内製化に向けたプラットフォーム構築 - PCF・BOSHによるオブザーバブルプラットフォーム
決済システム内製化に向けたプラットフォーム構築 - PCF・BOSHによるオブザーバブルプラットフォーム決済システム内製化に向けたプラットフォーム構築 - PCF・BOSHによるオブザーバブルプラットフォーム
決済システム内製化に向けたプラットフォーム構築 - PCF・BOSHによるオブザーバブルプラットフォーム
 
Node red for-collecting_information
Node red for-collecting_informationNode red for-collecting_information
Node red for-collecting_information
 
吾輩はコンテンツ事業者である 楽天編
吾輩はコンテンツ事業者である 楽天編吾輩はコンテンツ事業者である 楽天編
吾輩はコンテンツ事業者である 楽天編
 

More from Takanori Nakai

Sentence-State LSTM for Text Representation
Sentence-State LSTM for Text RepresentationSentence-State LSTM for Text Representation
Sentence-State LSTM for Text RepresentationTakanori Nakai
 
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...Takanori Nakai
 
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @DenaICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @DenaTakanori Nakai
 
Note : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methodsNote : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methodsTakanori Nakai
 
Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...Takanori Nakai
 
Learning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional RepresentationsLearning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional RepresentationsTakanori Nakai
 
Preference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and InferencePreference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and InferenceTakanori Nakai
 
高次元データの統計:スパース正則化の近似誤差と推定誤差
高次元データの統計:スパース正則化の近似誤差と推定誤差高次元データの統計:スパース正則化の近似誤差と推定誤差
高次元データの統計:スパース正則化の近似誤差と推定誤差Takanori Nakai
 
Analysis of Learning from Positive and Unlabeled Data
Analysis of Learning from Positive and Unlabeled DataAnalysis of Learning from Positive and Unlabeled Data
Analysis of Learning from Positive and Unlabeled DataTakanori Nakai
 
Positive Unlabeled Learning for Deceptive Reviews Detection
Positive Unlabeled Learning for Deceptive Reviews DetectionPositive Unlabeled Learning for Deceptive Reviews Detection
Positive Unlabeled Learning for Deceptive Reviews DetectionTakanori Nakai
 
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...Takanori Nakai
 
Similarity component analysis
Similarity component analysisSimilarity component analysis
Similarity component analysisTakanori Nakai
 
Query driven context aware recommendation
Query driven context aware recommendationQuery driven context aware recommendation
Query driven context aware recommendationTakanori Nakai
 
Unsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpediaUnsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpediaTakanori Nakai
 
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...Takanori Nakai
 
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチPUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチTakanori Nakai
 
金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出Takanori Nakai
 
Topic discovery through data dependent and random projections
Topic discovery through data dependent and random projectionsTopic discovery through data dependent and random projections
Topic discovery through data dependent and random projectionsTakanori Nakai
 

More from Takanori Nakai (18)

Sentence-State LSTM for Text Representation
Sentence-State LSTM for Text RepresentationSentence-State LSTM for Text Representation
Sentence-State LSTM for Text Representation
 
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
 
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @DenaICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
 
Note : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methodsNote : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methods
 
Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...
 
Learning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional RepresentationsLearning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional Representations
 
Preference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and InferencePreference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and Inference
 
高次元データの統計:スパース正則化の近似誤差と推定誤差
高次元データの統計:スパース正則化の近似誤差と推定誤差高次元データの統計:スパース正則化の近似誤差と推定誤差
高次元データの統計:スパース正則化の近似誤差と推定誤差
 
Analysis of Learning from Positive and Unlabeled Data
Analysis of Learning from Positive and Unlabeled DataAnalysis of Learning from Positive and Unlabeled Data
Analysis of Learning from Positive and Unlabeled Data
 
Positive Unlabeled Learning for Deceptive Reviews Detection
Positive Unlabeled Learning for Deceptive Reviews DetectionPositive Unlabeled Learning for Deceptive Reviews Detection
Positive Unlabeled Learning for Deceptive Reviews Detection
 
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
 
Similarity component analysis
Similarity component analysisSimilarity component analysis
Similarity component analysis
 
Query driven context aware recommendation
Query driven context aware recommendationQuery driven context aware recommendation
Query driven context aware recommendation
 
Unsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpediaUnsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpedia
 
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
 
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチPUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
 
金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出
 
Topic discovery through data dependent and random projections
Topic discovery through data dependent and random projectionsTopic discovery through data dependent and random projections
Topic discovery through data dependent and random projections
 

GBDTを使ったfeature transformationの適用例

  • 1. GBDTを使った feature transformationの適用例 担当: @Quasi_quant2010 データサイエンスLT祭り 2夜目 @Quasi_quant20101 【データサイエンスLT祭り 2夜目】
  • 2. 概要 - 特徴量の相関(非線形性)をGDBTで抽出 - データサイエンスLT祭り 2夜目 @Quasi_quant20102  ケース  予測ラベル:年収が高い・低い  feature:年齢・教育年数・投資損失・労働時間/週, etc  例えば、(労働時間/週, 投資利益)の二つを組み合わせた時、 労働時間は短いが、投資利益が高い人は高い傾向にあるはず  ドメイン知識より、Featureをand条件の組み合わせで 非線形featureは作れる  ただし、観測したfeatureが多い場合、組み合わせは指数爆発  そもそも、人間がゼロから非線形featureを設計するのは大変  非線形性の設計をGBDTで処理した後、線形モデルで予測 前処理 分類器
  • 3. 実験結果 - Stacking+Blending ≒ GBDT+LR > LR -  GBDTのMax_Depthは8  独立に見えるfeatureに非線形性があった データサイエンスLT祭り 2夜目 @Quasi_quant20103 Model accuracy precision recall f-value LR 8.35e-01 9.22e-01 8.67e-01 8.94e-01 GDBT+LR **8.63e-01 **9.31e-01 8.91e-01 9.11e-01 Stacking+ Blending 8.62e-01 9.30e-01 **8.92e-01 **9.11e-01 注1) 計算データ : Adult Data Set (goo.gl/GzB8bS) age workclass sex education education- num 39 State-gov male Bachelors 13 50 Self-emp- not-inc female Bachelors 13 注2) 5-Fold 注3) ** : Best Score 注4) カテゴリカル変数は 全てOne-hot-encoding データセット例 予測結果
  • 4. 参考 - GBDTとは -  PAC Learning  Boostingとは弱学習器をたくさん集めて強学習器を作ろう  機械学習  PAC Learningを損失関数を最小化する問題として再定義、 損失を最小化する方向を探すのに勾配情報を使っているので、 Gradient Boosting  ポイント  negative gradientを最小二乗近似し、弱学習器を推定  詳しくは  [Quasi_quant2010c] を参照 データサイエンスLT祭り 2夜目 @Quasi_quant20104
  • 5. 前処理(イメージ図) - 非線形性の設計をGBDTで処理 -  2つの決定木のアンサンブル例  一つは3つのleaf node(A)  一つは2つのleaf node(B)  データ例  Aの2番目のleaf nodeに到達  Bの1番目のleaf nodeに到達  非線形変換後のfeatureは [0,1,0,1,0] となる データサイエンスLT祭り 2夜目 @Quasi_quant20105 引用 [H.Xinran, etc] Figure1 Input Features Transoformed Features 線形モデル で予測 GBDTの原理が損失を最小化するように木を追加するという点で根拠 をもち、決定木が複数and条件の情報も有する非線形変換が可能 A B
  • 6. 実験結果 - FeatureImportanceと正則化path - データサイエンスLT祭り 2夜目 @Quasi_quant20106  Feature間のand条件を考慮可  age * hours-parweek等  Blendingは損失関数と正則化関 数の組み合わせを比較  損失関数 : Logistic-Loss or Hinge Loss  正則化関数 : L1 or L2 Ridge回帰でBlending
  • 7. 考察① - サンプルデータの振り返り -  モデルの振り返り  GBDTがfeature間の相関をうまく処理したか  作ったtreeに関し、max_depthが8なので、うまく処理できた  ただし、実務ではHyper-paramsを忍耐強く調整する必要あり  実務を想定した振り返り  施策単体が有効なのか、複合要因なのか  今回のデータでは、施策複合も有効だった  部門単体により増収効果という報告があった場合 それは、誤りであることがモデル上確認できる  決算上事実かは、非線形featureを基に収益を追跡すればよい  モデル話ではビジネスサイドが納得できないので、 考察をビジネスサイドの手触り感に近づけることも重要 データサイエンスLT祭り 2夜目 @Quasi_quant20107
  • 8. 考察②(実務という視点で) - 施策への示唆を得られることが最も重要 -  α,βなど、施策単体を評価するのではなく、施策の組み合わ せを評価できる枠組みなので、より客観的な振り返りが可能  施策単体しか評価できないとPDCAを回し切るのに時間がかかる  観測した特徴量をモデルで非線形変換しているものの、 隠れ変数を導入していないため、単体施策(feature) や複 合施策(非線形feature)に関する振り返りが可能  単体施策  GBDTのfeature importance  複合施策  非線形変換したfeatureのweight(線形モデルのfeature weight)  featureの安定性も加味する事も可能で、持続効果もわかる データサイエンスLT祭り 2夜目 @Quasi_quant20108
  • 9. 参考文献  **[H.Xinran, etc] Practical Lessons from Predicting Clicks on Ads at Facebook. ADKDD14  [C.Zhicheng, etc] Optimal Action Extraction for Random Forests and Boosted Trees. KDD15  [Quasi_quant2010a] Gradient Boostingについて - Scikit-Learnを 使ったfeature transformation(GBDT + LR vs LR) - goo.gl/Pkto81  [Quasi_quant2010b] Stacking - テンプレート化編・計算編② - goo.gl/jXSrw8  [Quasi_quant2010c] Gradient Boostingについて - 準備編 - goo.gl/tng0vl  [Quasi_quant2010d] Gradient Boostingについて - 正則化編・ Xgboost – goo.gl/dBQqYc データサイエンスLT祭り 2夜目 @Quasi_quant20109