More Related Content Similar to 機械学習によるデータ分析まわりのお話 (13) 機械学習によるデータ分析まわりのお話4. 本⽇日お話すること 4
1. データのこと
Keywords: ダミー変数,⽋欠損値,正規化,次元の呪い
2. 機械学習のこと
Keywords: 機械学習の分類,アルゴリズム,注意点
3. 評価のこと
Keywords: 混同⾏行行列列,適合率率率,再現率率率,F値,ROC曲線
4. 分析のこと
Keywords: 過学習,交差検証,学習曲線,バイアス・バリアンス
教師あり学習(後述)寄りの内容が多いです
7. 本⽇日お話すること 7
1. データのこと
Keywords: ダミー変数,⽋欠損値,正規化,次元の呪い
2. 機械学習のこと
Keywords: 機械学習の分類,アルゴリズム,注意点
3. 評価のこと
Keywords: 混同⾏行行列列,適合率率率,再現率率率,F値,ROC曲線
4. 分析のこと
Keywords: 過学習,交差検証,学習曲線,バイアス・バリアンス
8. ⼀一般的なデータ形式 8
年年齢 性別 加⼊入⽇日 加⼊入プラン 地区 解約
23 男 2012/03/03スタンダード 東京 0
34 ⼥女女 2014/11/23スタンダード 埼⽟玉 1
49 男 2000/05/11プレミアム 千葉葉 0
19 男 2013/12/05ライト ⼤大阪 0
60 ⼥女女 2011/03/28シニア 東京 0
・
・
・
説明変数,特徴量量 ⽬目的変数
12. Feature hashing / Hashing trick 12
ダミー変数はカテゴリの種類が多いと
特徴量量の次元数が⼤大きくなりすぎる
Feature hashingにより任意の次元に削減
Nの値がある程度度⼤大きければ精度度への影響⼩小
x := new vector[N]
for f in features:
h := hash(f)
x[h mod N] += 1
http://en.wikipedia.org/wiki/Feature_hashing
16. 次元の呪い 16
次元の呪い(Curse of dimensionality)
特徴量量(説明変数)の数が増えると汎化性能※を
向上させることが難しくなる
使えそうなデータはなんでも特徴量量に加えて
しまえ,は危険
特徴選択や次元削減により特徴量量の数を減らす
データを⽤用意する段階で特徴量量を吟味することが⾮非常に重要
次元の呪いについて,詳しくは「球⾯面集中現象」を検索索
※未知のデータを予測する性能
23. 本⽇日お話すること 23
1. データのこと
Keywords: ダミー変数,⽋欠損値,正規化,次元の呪い
2. 機械学習のこと
Keywords: 機械学習の分類,アルゴリズム,注意点
3. 評価のこと
Keywords: 混同⾏行行列列,適合率率率,再現率率率,F値,ROC曲線
4. 分析のこと
Keywords: 過学習,交差検証,学習曲線,バイアス・バリアンス
24. 機械学習とは 24
“Machine learning is the science of getting
computers to act without being explicitly
programmed.” Andrew Ng
⼀一般的にはコンピュータの振る舞い⽅方(モデル)を
(⼤大量量の)データから学習することにより獲得する.
34. 本⽇日お話すること 34
1. データのこと
Keywords: ダミー変数,⽋欠損値,正規化,次元の呪い
2. 機械学習のこと
Keywords: 機械学習の分類,アルゴリズム,注意点
3. 評価のこと
Keywords: 混同⾏行行列列,適合率率率,再現率率率,F値,ROC曲線
4. 分析のこと
Keywords: 過学習,交差検証,学習曲線,バイアス・バリアンス
35. 回帰モデルの評価基準 35
平均絶対誤差(Mean absolute error)
⼩小さいほど良良い
平均⼆二乗誤差(Mean square(d) error)
⼩小さいほど良良い
Root Mean Square(d) Errorもよく使われる
決定係数R2(Coefficient of determination)
説明変数が⽬目的変数をどれくらい説明するか
0(悪い)〜~1(良良い)
特徴量量が多いほど⼤大きな値に ⾃自由度度調整済み決定係数
( ) Nyy
N
i ii∑=
−= 1
ˆMAE
( )( ) Nyy
N
i ii∑=
−= 1
2
ˆMSE
45. 本⽇日お話すること 45
1. データのこと
Keywords: ダミー変数,⽋欠損値,正規化,次元の呪い
2. 機械学習のこと
Keywords: 機械学習の分類,アルゴリズム,注意点
3. 評価のこと
Keywords: 混同⾏行行列列,適合率率率,再現率率率,F値,ROC曲線
4. 分析のこと
Keywords: 過学習,交差検証,学習曲線,バイアス・バリアンス
56. 過学習対策 56
先頭から順にK分割
時刻 温度度 湿度度 天気
8:00 23.2 63.0 曇
8:05 23.5 65.1 曇
8:10 24.0 68.0 曇
8:15 24.1 69.3 ⾬雨
8:20 24.2 70.1 ⾬雨
8:25 24.2 70.2 ⾬雨
8:30 23.9 69.6 曇
…
時系列列データでは,前後の
データの関連が強いことが
ある.
これをランダムに学習⽤用と
評価⽤用に分けてしまうと,
汎化誤差が不不当に⼩小さくな
る.
68. 本⽇日お話したこと 68
1. データのこと
Keywords: ダミー変数,⽋欠損値,正規化,次元の呪い
2. 機械学習のこと
Keywords: 機械学習の分類,アルゴリズム,注意点
3. 評価のこと
Keywords: 混同⾏行行列列,適合率率率,再現率率率,F値,ROC曲線
4. 分析のこと
Keywords: 過学習,交差検証,学習曲線,バイアス・バリアンス
69. 宣伝 69
機械学習⽀支援システム MALSS
(Machine Learning Support System)
機械学習によるデータ分析の⼀一部を⾃自動化する
Pythonライブラリ
機能
• ダミー変数⽣生成,⽋欠損値補間,正規化
• アルゴリズム⾃自動選択
• 交差検証,グリッドサーチ
• 分析結果レポート
• サンプルコード⽣生成
70. 宣伝 70
機械学習⽀支援システム MALSS
インストール
利利⽤用⽅方法
> pip install –U malss
> from malss import MALSS
> clf = MALSS('classification‘, lang=‘jp’)
> clf.fit(X, y, ‘report_output_dir')
> clf.make_sample_code('sample_code.py')
73. 参考⽂文献 73
戦略略的データサイエンス⼊入⾨門
F. Provost他/オライリー・ジャパン
Coursera: Machine Learning
Andrew Ng/https://www.coursera.org/course/ml
scikit-learn Tutorials
http://scikit-learn.org/stable/tutorial/
Tutorial: Machine Learning for Astronomy with Scikit-learn
http://www.astroml.org/sklearn_tutorial/
データ解析のための統計モデリング⼊入⾨門
久保 拓拓弥/岩波書店
朱鷺鷺の杜Wiki
http://ibisforest.org/
74. 参考⽂文献 74
MALSS (Machine Learning Support System)
https://pypi.python.org/pypi/malss/
https://github.com/canard0328/malss
Pythonでの機械学習を⽀支援するツール MALSS(導⼊入)
Qiita/http://qiita.com/canard0328/items/fe1ccd5721d59d76cc77
Pythonでの機械学習を⽀支援するツール MALSS(基本)
Qiita/http://qiita.com/canard0328/items/5da95ff4f2e1611f87e1
Pythonでの機械学習を⽀支援するツール MALSS(応⽤用)
Qiita/ http://qiita.com/canard0328/items/3713d6758fe9c045a19d
75. 本⽇日お話したこと 75
1. データのこと
Keywords: ダミー変数,⽋欠損値,正規化,次元の呪い
2. 機械学習のこと
Keywords: 機械学習の分類,アルゴリズム,注意点
3. 評価のこと
Keywords: 混同⾏行行列列,適合率率率,再現率率率,F値,ROC曲線
4. 分析のこと
Keywords: 過学習,交差検証,学習曲線,バイアス・バリアンス