Submit Search
Upload
20150329 tokyo r47
•
29 likes
•
6,269 views
Takashi Kitano
Follow
レベル2を目指す人のためのランダムフォレストまとめ
Read less
Read more
Technology
Report
Share
Report
Share
1 of 44
Download now
Download to read offline
Recommended
最近のRのランダムフォレストパッケージ -ranger/Rborist-
最近のRのランダムフォレストパッケージ -ranger/Rborist-
Shintaro Fukushima
Rあんなときこんなとき(tokyo r#12)
Rあんなときこんなとき(tokyo r#12)
Shintaro Fukushima
Feature Selection with R / in JP
Feature Selection with R / in JP
Sercan Ahi
Random Forest による分類
Random Forest による分類
Ken'ichi Matsui
Why dont you_create_new_spark_jl
Why dont you_create_new_spark_jl
Shintaro Fukushima
R-hpc-1 TokyoR#11
R-hpc-1 TokyoR#11
Shintaro Fukushima
統計解析言語Rにおける大規模データ管理のためのboost.interprocessの活用
統計解析言語Rにおける大規模データ管理のためのboost.interprocessの活用
Shintaro Fukushima
Rで学ぶデータマイニングI 第8章〜第13章
Rで学ぶデータマイニングI 第8章〜第13章
Prunus 1350
Recommended
最近のRのランダムフォレストパッケージ -ranger/Rborist-
最近のRのランダムフォレストパッケージ -ranger/Rborist-
Shintaro Fukushima
Rあんなときこんなとき(tokyo r#12)
Rあんなときこんなとき(tokyo r#12)
Shintaro Fukushima
Feature Selection with R / in JP
Feature Selection with R / in JP
Sercan Ahi
Random Forest による分類
Random Forest による分類
Ken'ichi Matsui
Why dont you_create_new_spark_jl
Why dont you_create_new_spark_jl
Shintaro Fukushima
R-hpc-1 TokyoR#11
R-hpc-1 TokyoR#11
Shintaro Fukushima
統計解析言語Rにおける大規模データ管理のためのboost.interprocessの活用
統計解析言語Rにおける大規模データ管理のためのboost.interprocessの活用
Shintaro Fukushima
Rで学ぶデータマイニングI 第8章〜第13章
Rで学ぶデータマイニングI 第8章〜第13章
Prunus 1350
mmapパッケージを使ってお手軽オブジェクト管理
mmapパッケージを使ってお手軽オブジェクト管理
Shintaro Fukushima
機械学習を用いた予測モデル構築・評価
機械学習を用いた予測モデル構築・評価
Shintaro Fukushima
Rの高速化
Rの高速化
弘毅 露崎
Stanの便利な事後処理関数
Stanの便利な事後処理関数
daiki hojo
Juliaで並列計算
Juliaで並列計算
Shintaro Fukushima
不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
RのffとbigmemoryとRevoScaleRとを比較してみた
RのffとbigmemoryとRevoScaleRとを比較してみた
Kazuya Wada
R高速化
R高速化
Monta Yashi
RのffでGLMしてみたけど...
RのffでGLMしてみたけど...
Kazuya Wada
Rで学ぶロバスト推定
Rで学ぶロバスト推定
Shintaro Fukushima
Rのデータ構造とメモリ管理
Rのデータ構造とメモリ管理
Takeshi Arabiki
Juliaによる予測モデル構築・評価
Juliaによる予測モデル構築・評価
Shintaro Fukushima
Imputation of Missing Values using Random Forest
Imputation of Missing Values using Random Forest
Satoshi Kato
Stan勉強会資料(前編)
Stan勉強会資料(前編)
daiki hojo
Metaprogramming in JuliaLang
Metaprogramming in JuliaLang
Yuichi Motoyama
Rにおける大規模データ解析(第10回TokyoWebMining)
Rにおける大規模データ解析(第10回TokyoWebMining)
Shintaro Fukushima
パターン認識 第10章 決定木
パターン認識 第10章 決定木
Miyoshi Yuya
Interpreting Tree Ensembles with inTrees
Interpreting Tree Ensembles with inTrees
Satoshi Kato
ヤフー社内でやってるMySQLチューニングセミナー大公開
ヤフー社内でやってるMySQLチューニングセミナー大公開
Yahoo!デベロッパーネットワーク
TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)
TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)
徹 上野山
ベイジアンモデリングによるマーケティングサイエンス〜状態空間モデルを用いたモデリング
ベイジアンモデリングによるマーケティングサイエンス〜状態空間モデルを用いたモデリング
宏喜 佐野
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
Koichi Hamada
More Related Content
What's hot
mmapパッケージを使ってお手軽オブジェクト管理
mmapパッケージを使ってお手軽オブジェクト管理
Shintaro Fukushima
機械学習を用いた予測モデル構築・評価
機械学習を用いた予測モデル構築・評価
Shintaro Fukushima
Rの高速化
Rの高速化
弘毅 露崎
Stanの便利な事後処理関数
Stanの便利な事後処理関数
daiki hojo
Juliaで並列計算
Juliaで並列計算
Shintaro Fukushima
不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
RのffとbigmemoryとRevoScaleRとを比較してみた
RのffとbigmemoryとRevoScaleRとを比較してみた
Kazuya Wada
R高速化
R高速化
Monta Yashi
RのffでGLMしてみたけど...
RのffでGLMしてみたけど...
Kazuya Wada
Rで学ぶロバスト推定
Rで学ぶロバスト推定
Shintaro Fukushima
Rのデータ構造とメモリ管理
Rのデータ構造とメモリ管理
Takeshi Arabiki
Juliaによる予測モデル構築・評価
Juliaによる予測モデル構築・評価
Shintaro Fukushima
Imputation of Missing Values using Random Forest
Imputation of Missing Values using Random Forest
Satoshi Kato
Stan勉強会資料(前編)
Stan勉強会資料(前編)
daiki hojo
Metaprogramming in JuliaLang
Metaprogramming in JuliaLang
Yuichi Motoyama
Rにおける大規模データ解析(第10回TokyoWebMining)
Rにおける大規模データ解析(第10回TokyoWebMining)
Shintaro Fukushima
パターン認識 第10章 決定木
パターン認識 第10章 決定木
Miyoshi Yuya
Interpreting Tree Ensembles with inTrees
Interpreting Tree Ensembles with inTrees
Satoshi Kato
ヤフー社内でやってるMySQLチューニングセミナー大公開
ヤフー社内でやってるMySQLチューニングセミナー大公開
Yahoo!デベロッパーネットワーク
TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)
TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)
徹 上野山
What's hot
(20)
mmapパッケージを使ってお手軽オブジェクト管理
mmapパッケージを使ってお手軽オブジェクト管理
機械学習を用いた予測モデル構築・評価
機械学習を用いた予測モデル構築・評価
Rの高速化
Rの高速化
Stanの便利な事後処理関数
Stanの便利な事後処理関数
Juliaで並列計算
Juliaで並列計算
不均衡データのクラス分類
不均衡データのクラス分類
RのffとbigmemoryとRevoScaleRとを比較してみた
RのffとbigmemoryとRevoScaleRとを比較してみた
R高速化
R高速化
RのffでGLMしてみたけど...
RのffでGLMしてみたけど...
Rで学ぶロバスト推定
Rで学ぶロバスト推定
Rのデータ構造とメモリ管理
Rのデータ構造とメモリ管理
Juliaによる予測モデル構築・評価
Juliaによる予測モデル構築・評価
Imputation of Missing Values using Random Forest
Imputation of Missing Values using Random Forest
Stan勉強会資料(前編)
Stan勉強会資料(前編)
Metaprogramming in JuliaLang
Metaprogramming in JuliaLang
Rにおける大規模データ解析(第10回TokyoWebMining)
Rにおける大規模データ解析(第10回TokyoWebMining)
パターン認識 第10章 決定木
パターン認識 第10章 決定木
Interpreting Tree Ensembles with inTrees
Interpreting Tree Ensembles with inTrees
ヤフー社内でやってるMySQLチューニングセミナー大公開
ヤフー社内でやってるMySQLチューニングセミナー大公開
TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)
TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)
Viewers also liked
ベイジアンモデリングによるマーケティングサイエンス〜状態空間モデルを用いたモデリング
ベイジアンモデリングによるマーケティングサイエンス〜状態空間モデルを用いたモデリング
宏喜 佐野
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
Koichi Hamada
データの不備を統計的に見抜く (Gelman’s secret weapon)
データの不備を統計的に見抜く (Gelman’s secret weapon)
hoxo_m
5分でわかるかもしれないglmnet
5分でわかるかもしれないglmnet
Nagi Teramo
Japan.R補完計画(Tokyo.R#46LT)
Japan.R補完計画(Tokyo.R#46LT)
Shinya Uryu
TokyoR LT Rで連続データを離散化
TokyoR LT Rで連続データを離散化
tetsuro ito
MongoDB on EC2 #mongodbcasual
MongoDB on EC2 #mongodbcasual
Yasuhiro Matsuo
カジュアルにソースコードリーディング
カジュアルにソースコードリーディング
Akihiro Okuno
ビックデータとPythonではじめる野球の統計分析(α)
ビックデータとPythonではじめる野球の統計分析(α)
Shinichi Nakagawa
cyREST入門~RとCytoscapeのAPI連携~
cyREST入門~RとCytoscapeのAPI連携~
Mitsunori Sato
CasualなMongoDBのサービス運用Tips
CasualなMongoDBのサービス運用Tips
Naoki Sega
Rで野球のデータ解析がしたい (データが欲しい)
Rで野球のデータ解析がしたい (データが欲しい)
Takuma Hatano
グラフデータベース「Neo4j」の 導入の導入(続き)-Cypherの基本のキ-
グラフデータベース「Neo4j」の 導入の導入(続き)-Cypherの基本のキ-
Hisao Soyama
野球Hack!(続き)~Pythonを用いた野球サービス構築 #bpstudy
野球Hack!(続き)~Pythonを用いた野球サービス構築 #bpstudy
Shinichi Nakagawa
Casual Compression on MongoDB
Casual Compression on MongoDB
moai kids
MongoDBではじめるカジュアルなタイムラインシステム
MongoDBではじめるカジュアルなタイムラインシステム
Hitoshi Asai
Big Data Baseball with Python - Ichiro Suzuki hacks! #kwsk01
Big Data Baseball with Python - Ichiro Suzuki hacks! #kwsk01
Shinichi Nakagawa
カジュアルにMongo dbのbackup機能説明
カジュアルにMongo dbのbackup機能説明
Masakazu Matsushita
Factorization machines with r
Factorization machines with r
Shota Yasui
Rによる特徴抽出 第48回R勉強会@東京(#TokyoR)
Rによる特徴抽出 第48回R勉強会@東京(#TokyoR)
Keiku322
Viewers also liked
(20)
ベイジアンモデリングによるマーケティングサイエンス〜状態空間モデルを用いたモデリング
ベイジアンモデリングによるマーケティングサイエンス〜状態空間モデルを用いたモデリング
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
データの不備を統計的に見抜く (Gelman’s secret weapon)
データの不備を統計的に見抜く (Gelman’s secret weapon)
5分でわかるかもしれないglmnet
5分でわかるかもしれないglmnet
Japan.R補完計画(Tokyo.R#46LT)
Japan.R補完計画(Tokyo.R#46LT)
TokyoR LT Rで連続データを離散化
TokyoR LT Rで連続データを離散化
MongoDB on EC2 #mongodbcasual
MongoDB on EC2 #mongodbcasual
カジュアルにソースコードリーディング
カジュアルにソースコードリーディング
ビックデータとPythonではじめる野球の統計分析(α)
ビックデータとPythonではじめる野球の統計分析(α)
cyREST入門~RとCytoscapeのAPI連携~
cyREST入門~RとCytoscapeのAPI連携~
CasualなMongoDBのサービス運用Tips
CasualなMongoDBのサービス運用Tips
Rで野球のデータ解析がしたい (データが欲しい)
Rで野球のデータ解析がしたい (データが欲しい)
グラフデータベース「Neo4j」の 導入の導入(続き)-Cypherの基本のキ-
グラフデータベース「Neo4j」の 導入の導入(続き)-Cypherの基本のキ-
野球Hack!(続き)~Pythonを用いた野球サービス構築 #bpstudy
野球Hack!(続き)~Pythonを用いた野球サービス構築 #bpstudy
Casual Compression on MongoDB
Casual Compression on MongoDB
MongoDBではじめるカジュアルなタイムラインシステム
MongoDBではじめるカジュアルなタイムラインシステム
Big Data Baseball with Python - Ichiro Suzuki hacks! #kwsk01
Big Data Baseball with Python - Ichiro Suzuki hacks! #kwsk01
カジュアルにMongo dbのbackup機能説明
カジュアルにMongo dbのbackup機能説明
Factorization machines with r
Factorization machines with r
Rによる特徴抽出 第48回R勉強会@東京(#TokyoR)
Rによる特徴抽出 第48回R勉強会@東京(#TokyoR)
Similar to 20150329 tokyo r47
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
Takashi J OZAKI
【Unity道場スペシャル 2017札幌】乱数完全マスター
【Unity道場スペシャル 2017札幌】乱数完全マスター
Unity Technologies Japan K.K.
【Unity道場スペシャル 2017京都】乱数完全マスター 京都編
【Unity道場スペシャル 2017京都】乱数完全マスター 京都編
Unity Technologies Japan K.K.
ハイブリッド型樹木法
ハイブリッド型樹木法
Mitsuo Shimohata
Maeshori missing
Maeshori missing
Daisuke Ichikawa
Rユーザのためのspark入門
Rユーザのためのspark入門
Shintaro Fukushima
順序データでもベイズモデリング
順序データでもベイズモデリング
. .
El text.tokuron a(2019).watanabe190613
El text.tokuron a(2019).watanabe190613
RCCSRENKEI
R実践 機械学習による異常検知 02
R実践 機械学習による異常検知 02
akira_11
データベース08 - 関係データモデルと関係代数
データベース08 - 関係データモデルと関係代数
Kenta Oku
kagami_comput2016_06
kagami_comput2016_06
swkagami
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介
Ryohei Ueda
kagami_comput2015_6
kagami_comput2015_6
swkagami
Mroongaを使ったときの MySQLの制限との戦い
Mroongaを使ったときの MySQLの制限との戦い
Naoya Murakami
ランダムフォレストとそのコンピュータビジョンへの応用
ランダムフォレストとそのコンピュータビジョンへの応用
Kinki University
how-calculate-cluster-coefficience
how-calculate-cluster-coefficience
Norihiro Shimoda
各言語の k-means 比較
各言語の k-means 比較
y-uti
詳解 ディープラーニング輪読&勉強会 3章後半ニューラルネットワーク
詳解 ディープラーニング輪読&勉強会 3章後半ニューラルネットワーク
isaac-otao
第8回 大規模データを用いたデータフレーム操作実習(2)
第8回 大規模データを用いたデータフレーム操作実習(2)
Wataru Shito
Pythonによる機械学習
Pythonによる機械学習
Kimikazu Kato
Similar to 20150329 tokyo r47
(20)
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
【Unity道場スペシャル 2017札幌】乱数完全マスター
【Unity道場スペシャル 2017札幌】乱数完全マスター
【Unity道場スペシャル 2017京都】乱数完全マスター 京都編
【Unity道場スペシャル 2017京都】乱数完全マスター 京都編
ハイブリッド型樹木法
ハイブリッド型樹木法
Maeshori missing
Maeshori missing
Rユーザのためのspark入門
Rユーザのためのspark入門
順序データでもベイズモデリング
順序データでもベイズモデリング
El text.tokuron a(2019).watanabe190613
El text.tokuron a(2019).watanabe190613
R実践 機械学習による異常検知 02
R実践 機械学習による異常検知 02
データベース08 - 関係データモデルと関係代数
データベース08 - 関係データモデルと関係代数
kagami_comput2016_06
kagami_comput2016_06
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介
kagami_comput2015_6
kagami_comput2015_6
Mroongaを使ったときの MySQLの制限との戦い
Mroongaを使ったときの MySQLの制限との戦い
ランダムフォレストとそのコンピュータビジョンへの応用
ランダムフォレストとそのコンピュータビジョンへの応用
how-calculate-cluster-coefficience
how-calculate-cluster-coefficience
各言語の k-means 比較
各言語の k-means 比較
詳解 ディープラーニング輪読&勉強会 3章後半ニューラルネットワーク
詳解 ディープラーニング輪読&勉強会 3章後半ニューラルネットワーク
第8回 大規模データを用いたデータフレーム操作実習(2)
第8回 大規模データを用いたデータフレーム操作実習(2)
Pythonによる機械学習
Pythonによる機械学習
More from Takashi Kitano
好みの日本酒を呑みたい! 〜さけのわデータで探す自分好みの酒〜
好みの日本酒を呑みたい! 〜さけのわデータで探す自分好みの酒〜
Takashi Kitano
{shiny}と{leaflet}による地図アプリ開発Tips
{shiny}と{leaflet}による地図アプリ開発Tips
Takashi Kitano
令和から本気出す
令和から本気出す
Takashi Kitano
{tidygraph}と{ggraph}による モダンなネットワーク分析(未公開ver)
{tidygraph}と{ggraph}による モダンなネットワーク分析(未公開ver)
Takashi Kitano
{tidytext}と{RMeCab}によるモダンな日本語テキスト分析
{tidytext}と{RMeCab}によるモダンな日本語テキスト分析
Takashi Kitano
{tidygraph}と{ggraph}によるモダンなネットワーク分析
{tidygraph}と{ggraph}によるモダンなネットワーク分析
Takashi Kitano
20170923 excelユーザーのためのr入門
20170923 excelユーザーのためのr入門
Takashi Kitano
mxnetで頑張る深層学習
mxnetで頑張る深層学習
Takashi Kitano
可視化周辺の進化がヤヴァイ 〜2016〜
可視化周辺の進化がヤヴァイ 〜2016〜
Takashi Kitano
Rによるウイスキー分析
Rによるウイスキー分析
Takashi Kitano
20160311 基礎からのベイズ統計学輪読会第6章 公開ver
20160311 基礎からのベイズ統計学輪読会第6章 公開ver
Takashi Kitano
20140625 rでのデータ分析(仮) for_tokyor
20140625 rでのデータ分析(仮) for_tokyor
Takashi Kitano
lubridateパッケージ入門
lubridateパッケージ入門
Takashi Kitano
20140920 tokyo r43
20140920 tokyo r43
Takashi Kitano
Google's r style guideのすゝめ
Google's r style guideのすゝめ
Takashi Kitano
More from Takashi Kitano
(15)
好みの日本酒を呑みたい! 〜さけのわデータで探す自分好みの酒〜
好みの日本酒を呑みたい! 〜さけのわデータで探す自分好みの酒〜
{shiny}と{leaflet}による地図アプリ開発Tips
{shiny}と{leaflet}による地図アプリ開発Tips
令和から本気出す
令和から本気出す
{tidygraph}と{ggraph}による モダンなネットワーク分析(未公開ver)
{tidygraph}と{ggraph}による モダンなネットワーク分析(未公開ver)
{tidytext}と{RMeCab}によるモダンな日本語テキスト分析
{tidytext}と{RMeCab}によるモダンな日本語テキスト分析
{tidygraph}と{ggraph}によるモダンなネットワーク分析
{tidygraph}と{ggraph}によるモダンなネットワーク分析
20170923 excelユーザーのためのr入門
20170923 excelユーザーのためのr入門
mxnetで頑張る深層学習
mxnetで頑張る深層学習
可視化周辺の進化がヤヴァイ 〜2016〜
可視化周辺の進化がヤヴァイ 〜2016〜
Rによるウイスキー分析
Rによるウイスキー分析
20160311 基礎からのベイズ統計学輪読会第6章 公開ver
20160311 基礎からのベイズ統計学輪読会第6章 公開ver
20140625 rでのデータ分析(仮) for_tokyor
20140625 rでのデータ分析(仮) for_tokyor
lubridateパッケージ入門
lubridateパッケージ入門
20140920 tokyo r43
20140920 tokyo r43
Google's r style guideのすゝめ
Google's r style guideのすゝめ
20150329 tokyo r47
1.
レベル2を⽬目指す⼈人のための ランダムフォレスト まとめ ! Tokyo.R#47
2015-‐‑‒03-‐‑‒28 @kashitan
2.
> summary(kashitan) • TwitterID
: @kashitan • お仕事 : 某通信会社 2
3.
3/13 データサイエンティストのスキル 要件について盛り上がる 3
4.
似たようなのは以前からあった 4
5.
第43回 R勉強会@東京でも紹介されて いる Tokyo.R#43
LT 「32bit Windowsで頑張るRandom Forest」@fqz7c3
6.
ランダムフォレストって情報たくさん あるけどまとまってなくね?
7.
ということでまとめてみた 1. ランダムフォレストおさらい 2. 不均衡データへの対応 3.
パラメータチューニング 4. 重要な説明変数の確認 5. 処理の並列化 7
8.
1. ランダムフォレストおさらい
9.
ランダムフォレスト? なにそれ? おいしいの? 9
10.
Wikipediaより(1/2) 10
11.
Wikipediaより(2/2) 11
12.
https://citizennet.com/blog/2012/11/10/random-forests-ensembles-and-performance-metrics/
13.
Tokyo.R#21 LT 「アンサンブル学習」@holidayworking 使い⽅方 13
14.
実⾏行行例例 > library(randomForest) > mdl
<- randomForest(AGI~.-INSTWGHT, data=d.t) > print(mdl) ! Call: randomForest(formula = AGI ~ . - INSTWGHT, data = d.t) Type of random forest: classification Number of trees: 500 No. of variables tried at each split: 6 ! OOB estimate of error rate: 6.2% Confusion matrix: - 50000. 50000+. class.error - 50000. 187117 23 0.0001229026 50000+. 12353 29 0.9976578905 14
15.
2. 不不均衡データへの対応
16.
Tokyo.R#20「不均衡データのクラス分類」@sfchaos 不不均衡データって? 16
17.
Tokyo.R#20「不均衡データのクラス分類」@sfchaos ランダムフォレストでの対応⽅方法 17
18.
Rでのウェイト指定
19.
Rでのウェイト指定 • randomForest(…, classwt=c(1,
n))で 指定 ! ! ! 19
20.
実⾏行行例例 > system.time(mdl.wt <-
randomForest(AGI~.-INSTWGHT, data=d.t, classwt=c(1,15))) ユーザ システム 経過 774.959 16.124 796.331 > print(mdl.wt) ! Call: randomForest(formula = AGI ~ . - INSTWGHT, data = d.t, classwt = c(1, 15)) Type of random forest: classification Number of trees: 500 No. of variables tried at each split: 6 ! OOB estimate of error rate: 6.21% Confusion matrix: - 50000. 50000+. class.error - 50000. 187140 0 0 50000+. 12382 0 1
21.
ウェイトの 指定方法 ご教示ください
22.
3. パラメータチューニング
23.
チューニングが必要なパラメータ http://d.hatena.ne.jp/shakezo/20121221/1356089207
24.
Rでのチューニング⽅方法
25.
チューニングパラメータ • ntree(木の数) • モデル作成後に決定 ! •
mtry(1つの木で使用する特徴量の数) • tuneRF()で決定 25
26.
tuneRF() 実⾏行行例例 > system.time(mdl.tune
<- tuneRF(x=d.t[, -42], y=d.t[, 42], doBest=T)) mtry = 6 OOB error = 6.14% Searching left ... mtry = 3 OOB error = 6.18% -0.006857703 0.05 Searching right ... mtry = 12 OOB error = 6.17% -0.004326884 0.05 ユーザ システム 経過 1002.426 14.769 1022.432 26
27.
実⾏行行例例 ↑ 特徴量量の数(mtry)は6で良良さそう 27
28.
実⾏行行例例 > plot(mdl) ↑ ⽊木の数(ntree)は100でも⼗十分そう 28
29.
チューニング結果 > mdl.tuned <-
randomForest(AGI~.-INSTWGHT, data=d.t, ntree=100, mtry=6) > print(mdl.tuned) ! Call: randomForest(formula = AGI ~ . - INSTWGHT, data = d.t, ntree = 100, mtry = 6) Type of random forest: classification Number of trees: 100 No. of variables tried at each split: 6 ! OOB estimate of error rate: 6.18% Confusion matrix: - 50000. 50000+. class.error - 50000. 187090 50 0.0002671797 50000+. 12271 111 0.9910353739
30.
4. 重要な説明変数の確認
31.
で結局収入に影響する 変数は何?
32.
重要な説明変数
33.
重要な説明変数の確認⽅方法 • 全変数の重要度 • importance() •
varImpPlot() ! • 各変数の寄与 • patialPlot() 33
34.
importance() 実⾏行行例例 > importance(mdl.tuned) MeanDecreaseGini AAGE
1705.651869 ACLSWKR 544.340658 ADTIND 1649.357768 ADTOCC 2332.457474 AHGA 1823.620156 AHRSPAY 228.468096 AHSCOL 8.161362 AMARITL 340.210957 AMJIND 915.882423 AMJOCC 1216.616396 ARACE 175.041013 AREORGN 148.378241 ASEX 575.004856 AUNMEM 230.627948
35.
varImpPlot() 実⾏行行例例 > varImpPlot(mdl.tuned)
36.
patialPlot() 実⾏行行例例 > partialPlot(mdl.tuned,
d.t, ADTOCC," 50000+.") ↑ 職業コード37は収⼊入が多そう
37.
patialPlot() 実⾏行行例例 > partialPlot(mdl.tuned,
d.t, AAGE," 50000+.") ↑ 年年齢が⾼高くなると収⼊入が多くなりそう
38.
5. 処理理の並列列化
39.
https://citizennet.com/blog/2012/11/10/random-forests-ensembles-and-performance-metrics/ Rでも並列で処理できる
40.
並列列処理理の仕⽅方 ! 著者 :福島 真太朗 出版社
:ソシム 価格 :3,888円 ! P.144にランダムフォレストの 並列化について記載 40
41.
並列列処理理の仕⽅方
42.
並列列処理理結果 > library(foreach) > library(doMC) >
registerDoMC(4) > system.time( + mdl.p <- foreach(ntree = rep(25, 4), .combine = combine, export = "d.t", .packages = "randomForest") %dopar% { + randomForest(AGI~.-INSTWGHT, data = d.t, ntree = ntree, mtry=6) + } + ) ユーザ システム 経過 245.641 4.701 64.763 半分以下になった!42
43.
まとめ 1. ランダムフォレストおさらい 2. 不均衡データへの対応 3.
パラメータチューニング 4. 重要な説明変数の確認 5. 処理の並列化 43
Download now