SlideShare a Scribd company logo
1 of 10
2011.12.06

データ解析

Rによる決定木解析
M1 大木基至
決定木とは?
回帰分析とは明示的な関数を用いずに,データを分類す
る手法
説明変数の値を何らかの基準をもとに分岐させ,判別・
予測のモデルを構築
分岐の過程を図示することができるため,分析結果の可
読性が高い。
データマイニングで使われるトップ10アルゴリズムとし
ても紹介されている。[1]

[1] XindongWu · Vipin Kumar · J. Ross Quinlan · JoydeepGhosh · Qiang Yang etc.:Top 10 algorithms in data mining,
Knowledge Information Systems, vol.14, pp.1-37, 2008

2011.12.06 データ解析中間発表会

1/ 9
ノードと分岐
データ全体

根ノード

葉ノード
データが木の枝のように分かれる。
2011.12.06 データ解析中間発表会

2/ 9
クラス分類の仕方
特徴(説明変数)とクラス(目的変数)をもった
データを利用して,クラス分類を行う。
イメージ:XとYの説明変数2つで3つのクラスを分類
Y
2回目
の分岐
:Y=5

x>7

X
1回目の分岐:X=7
2011.12.06 データ解析中間発表会

Y>5

Y≦5
3/ 9
分類の指標
C5.0
エントロピーに基づくゲイン比で分類

CHAID
統計検定(連続変数:F検定,カテゴリー変数:カイ
2乗検定)の有意確率を基準に分類

CART
不純度(バラツキの大きさ)を表すGINI係数で分類
ノードを分類させることで,不純度が減少する
(バラツキが少なくなる) ような分岐点を探す。
今回はCARTによる指標で解析
2011.12.06 データ解析中間発表会

4/ 9
RでCART
・mypartパッケージをCRANからダウンロード
#mvpartパッケージのインストール
>install.packages(“mvpart”)

・Fisherのirisデータを使用
- がく(Sepal),花びら(Petal),3種類のアヤメ(iris)
> head(iris)
Sepal.LengthSepal.WidthPetal.LengthPetal.Width
1
5.1
3.5
1.4
0.2 setosa
2
4.9
3.0
1.4
0.2 setosa
3
4.7
3.2
1.3
0.2 setosa
4
4.6
3.1
1.5
0.2 setosa
5
5.0
3.6
1.4
0.2 setosa
6
5.4
3.9
1.7
0.4 setosa
2011.12.06 データ解析中間発表会

Species

5/ 9
RでCART
#irisデータを奇数行(訓練データ)と偶数行(評価データ)に分割
>nn<- 2*(1 : nrow(iris))-1
> train.iris <- iris[nn, ]
> test.iris <- iris[-nn, ]
#決定木モデル
> cart.model <- rpart(Species~., train.iris)
> print(cart.model, digit=3)
…
1) root 75 50 setosa (0.333 0.333 0.333)
2) Petal.Length< 2.45 25 0 setosa (1.000 0.000 0.000) *
3) Petal.Length>=2.45 50 25 versicolor (0.000 0.500 0.500)
6) Petal.Width< 1.65 25 1 versicolor (0.000 0.960 0.040) *
7) Petal.Width>=1.65 25 1 virginica (0.000 0.040 0.960) *

2011.12.06 データ解析中間発表会

6/ 9
RでCART
#木を描く
> plot(cart.model, uniform=T, branch=0.6, margin=0.5)
> text(cart.model, use.n=T, all=T)

2011.12.06 データ解析中間発表会

7/ 9
RでCART
#評価のため表を作成。
>cart.predict<- predict(cart.model, test.iris[,-5], type="class")
> table(test.iris[,5], cart.predict)
cart.predict
setosaversicolorvirginica
setosa
25
0
0
versicolor 0
24
1
virginica
0
3
22
#正解率
> result <- table(test.iris$Species, cart.predict)
>(result[1,1]+result[2,2]+result[3,3])/(result[1,1]+result[2,2]+result[3,3]+result[3,2]+re
sult[2,3])
0.9466667

2011.12.06 データ解析中間発表会

8/ 9
まとめ
決定木モデルをRで作成した。
Irisデータを使って分析を行った。
木の剪定処理が必要
他の分類手法と比較

2011.12.06 データ解析中間発表会

9/ 9

More Related Content

What's hot

Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデル
Yohei Sato
 
ロジスティック回帰の考え方・使い方 - TokyoR #33
ロジスティック回帰の考え方・使い方 - TokyoR #33ロジスティック回帰の考え方・使い方 - TokyoR #33
ロジスティック回帰の考え方・使い方 - TokyoR #33
horihorio
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
Kawamoto_Kazuhiko
 

What's hot (20)

Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデル
 
重回帰分析で交互作用効果
重回帰分析で交互作用効果重回帰分析で交互作用効果
重回帰分析で交互作用効果
 
ロジスティック回帰の考え方・使い方 - TokyoR #33
ロジスティック回帰の考え方・使い方 - TokyoR #33ロジスティック回帰の考え方・使い方 - TokyoR #33
ロジスティック回帰の考え方・使い方 - TokyoR #33
 
密度比推定による時系列データの異常検知
密度比推定による時系列データの異常検知密度比推定による時系列データの異常検知
密度比推定による時系列データの異常検知
 
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
 
2 7.一般化線形混合モデル
2 7.一般化線形混合モデル2 7.一般化線形混合モデル
2 7.一般化線形混合モデル
 
XAI (説明可能なAI) の必要性
XAI (説明可能なAI) の必要性XAI (説明可能なAI) の必要性
XAI (説明可能なAI) の必要性
 
一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門
 
データ解析10 因子分析の基礎
データ解析10 因子分析の基礎データ解析10 因子分析の基礎
データ解析10 因子分析の基礎
 
構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性
 
15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学
 
KDD Cup 2021 時系列異常検知コンペ 参加報告
KDD Cup 2021 時系列異常検知コンペ 参加報告KDD Cup 2021 時系列異常検知コンペ 参加報告
KDD Cup 2021 時系列異常検知コンペ 参加報告
 
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料 「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
 
[DL輪読会]Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-...
[DL輪読会]Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-...[DL輪読会]Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-...
[DL輪読会]Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-...
 
道具としての機械学習:直感的概要とその実際
道具としての機械学習:直感的概要とその実際道具としての機械学習:直感的概要とその実際
道具としての機械学習:直感的概要とその実際
 
MCMCでマルチレベルモデル
MCMCでマルチレベルモデルMCMCでマルチレベルモデル
MCMCでマルチレベルモデル
 
統計的因果推論からCausalMLまで走り抜けるスライド
統計的因果推論からCausalMLまで走り抜けるスライド統計的因果推論からCausalMLまで走り抜けるスライド
統計的因果推論からCausalMLまで走り抜けるスライド
 
研究発表を準備する(2022年版)
研究発表を準備する(2022年版)研究発表を準備する(2022年版)
研究発表を準備する(2022年版)
 
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 

More from LINE Corp.

14.09.12_インターネット測定システムの開発と運用
14.09.12_インターネット測定システムの開発と運用14.09.12_インターネット測定システムの開発と運用
14.09.12_インターネット測定システムの開発と運用
LINE Corp.
 
13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...
13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...
13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...
LINE Corp.
 
Rによるテキストマイニングの一例
Rによるテキストマイニングの一例Rによるテキストマイニングの一例
Rによるテキストマイニングの一例
LINE Corp.
 
11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...
11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...
11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...
LINE Corp.
 
13.12.21_大ヒットの方程式数理モデル解説
13.12.21_大ヒットの方程式数理モデル解説13.12.21_大ヒットの方程式数理モデル解説
13.12.21_大ヒットの方程式数理モデル解説
LINE Corp.
 
13.12.07 CIKM2013読み会
13.12.07 CIKM2013読み会13.12.07 CIKM2013読み会
13.12.07 CIKM2013読み会
LINE Corp.
 
11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...
11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...
11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...
LINE Corp.
 
11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_
11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_
11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_
LINE Corp.
 
12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析
12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析
12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析
LINE Corp.
 
12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...
12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...
12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...
LINE Corp.
 

More from LINE Corp. (20)

18.07.11_useR2018 Poster_Time Series Digger : Automatic time series analysis ...
18.07.11_useR2018 Poster_Time Series Digger : Automatic time series analysis ...18.07.11_useR2018 Poster_Time Series Digger : Automatic time series analysis ...
18.07.11_useR2018 Poster_Time Series Digger : Automatic time series analysis ...
 
18.02.05_IAAI2018_Mobille Network Failure Event Detection and Forecasting wit...
18.02.05_IAAI2018_Mobille Network Failure Event Detection and Forecasting wit...18.02.05_IAAI2018_Mobille Network Failure Event Detection and Forecasting wit...
18.02.05_IAAI2018_Mobille Network Failure Event Detection and Forecasting wit...
 
17.04.27_JSAI Cup 2017_5th winner's solution
17.04.27_JSAI Cup 2017_5th winner's solution17.04.27_JSAI Cup 2017_5th winner's solution
17.04.27_JSAI Cup 2017_5th winner's solution
 
17.11.29_論文紹介_BRACID a comprehensive approach to learning rules from imbalanc...
17.11.29_論文紹介_BRACID a comprehensive approach to learning rules from imbalanc...17.11.29_論文紹介_BRACID a comprehensive approach to learning rules from imbalanc...
17.11.29_論文紹介_BRACID a comprehensive approach to learning rules from imbalanc...
 
17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison
17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison
17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison
 
17.01.18_論文紹介_Discrimination- and privacy-aware patterns
17.01.18_論文紹介_Discrimination- and privacy-aware patterns17.01.18_論文紹介_Discrimination- and privacy-aware patterns
17.01.18_論文紹介_Discrimination- and privacy-aware patterns
 
16.02.08_Hadoop Conferece Japan 2016_データサイエンスにおける一次可視化からのSpark on Elasticsear...
16.02.08_Hadoop Conferece Japan 2016_データサイエンスにおける一次可視化からのSpark on Elasticsear...16.02.08_Hadoop Conferece Japan 2016_データサイエンスにおける一次可視化からのSpark on Elasticsear...
16.02.08_Hadoop Conferece Japan 2016_データサイエンスにおける一次可視化からのSpark on Elasticsear...
 
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
 
13.03.09_決定ルール解析のための頑健性指標
13.03.09_決定ルール解析のための頑健性指標13.03.09_決定ルール解析のための頑健性指標
13.03.09_決定ルール解析のための頑健性指標
 
14.09.12_インターネット測定システムの開発と運用
14.09.12_インターネット測定システムの開発と運用14.09.12_インターネット測定システムの開発と運用
14.09.12_インターネット測定システムの開発と運用
 
13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...
13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...
13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...
 
14.01.31_アドベンチャー杯2013_情報工学分野と他の研究分野間の関連度分析
14.01.31_アドベンチャー杯2013_情報工学分野と他の研究分野間の関連度分析14.01.31_アドベンチャー杯2013_情報工学分野と他の研究分野間の関連度分析
14.01.31_アドベンチャー杯2013_情報工学分野と他の研究分野間の関連度分析
 
Rによるテキストマイニングの一例
Rによるテキストマイニングの一例Rによるテキストマイニングの一例
Rによるテキストマイニングの一例
 
11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...
11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...
11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...
 
13.12.21_大ヒットの方程式数理モデル解説
13.12.21_大ヒットの方程式数理モデル解説13.12.21_大ヒットの方程式数理モデル解説
13.12.21_大ヒットの方程式数理モデル解説
 
13.12.07 CIKM2013読み会
13.12.07 CIKM2013読み会13.12.07 CIKM2013読み会
13.12.07 CIKM2013読み会
 
11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...
11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...
11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...
 
11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_
11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_
11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_
 
12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析
12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析
12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析
 
12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...
12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...
12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...
 

Rによる決定木解析の一例