More Related Content
More from Mitsuo Shimohata
More from Mitsuo Shimohata (6)
決定木学習
- 4. 生成手順②: 分割基準
4
天気 気温 湿度 風
晴れ 曇り 雨 強い 弱い18~29 65~96
分割基準 対応ツール
Information Gain C4.5
Gini係数 CART
検定統計量 CHAID
分割した2つのデータについて
右の指標のいずれかを計算し、
もっとも分類能力の高い分割を採用
- 11. 決定木学習はよく使われている (1)
11
1 C4.5
2 K-Means
3 Support Vector Machine
4 Apriori
5 EM
6 PageRank
7 AdaBoost
8 kNN
9 Naive Bayes
10 CART IEEE ICDM, 2006
Data Miningで使われるTop10アルゴリズム
決定木学習は1位と10位に入っている
- 13. 例題
架空のテストマーケティング調査 (乱数で作成)
対象都市: 東京、大阪、高知 カテゴリ変数
対象年代: 20代, 30代, 40代, 50代, 60代 順序変数
対象性別: 男性、女性 カテゴリ変数
調査内容:「この商品を買いますか?」
※ 東京で、女性で、若いほど買う傾向が高くなるように仕込み
有望なセグメントを判別したい
13
- 15. 20代 30代 40代 50代 60代
020406080
「年代」での決定木(順序尺度)
15
20代,30代 40代,50代,60代
O
74/46
X
43/137
年代
20,30代と40,50,60代の2つに分けると
買う・買わないが最も偏るよう分類される
- 18. 全変数を用いた決定木
18
女性
東京
東京
男性
高知,大阪
高知,大阪
O
53/7
O
26/4
X
12/48
O
22/8
X
0/20
X
4/96
性別
住所年代
年代住所
①
③②
① 女性 & 20,30代 購入率:88.3%
② 女性 & 40,50,60代 & 東京 購入率:86.7%
③ 男性 & 東京&20,30,40代 購入率:73.3%
有望セグメント・・・(購入率 > 50%)
20代,30代 40代,50代,60代
20代,30代,40代 50代,60代
- 20. 発展編(2) ・・・ハイブリッド型決定木
決定木学習と回帰分析の組み合わせ
20
ptratio
p < 0.001
1
20.1 20.1
tax
p < 0.001
2
265 265
Node 3 (n = 84)
3.1 9.3
1
54
Node 4 (n = 226)
3.1 9.3
1
54
nox
p < 0.001
5
0.668 0.668
Node 6 (n = 111)
3.1 9.3
1
54
Node 7 (n = 85)
3.1 9.3
1
54
4 5 6 7 8
1020304050
Boston$rm
Boston$medv
※ 決定係数=0.4835
決定係数 0.86 0.78 0.06 0.03
傾き 11.9 10.0 3.50 1.22
異なる回帰モデルになるようにデータを分割
データ全体
(Bostonの住宅価格と部屋数の分布)