1. Machine Learning
for Natural Language Processing
- Way of Experiment & Evaluation –
Meiji University
Seminar 2 B3 Tatsuya Coike
Web : lanevok.com
pp. 162-178
2012.10.11 (Thu)
4. Way of Experiment & Evaluation 4
1.1 実験 の 準備
実験プログラムとデータの入手
• WEKA (Data Mining with Open Source
Machine Learning Software in Java)
• README (Input Format)
• Data Set (p.185)
5. Way of Experiment & Evaluation 5
1.2 データセット
• 事例 (Instance)
• Data Set の 事例数 (= Data Size)
※ データサイズ ≠ データ数 分類
新聞 Wikipedia 事例数 3
データ数 2
記事 (Data Size)
Data Set A
Data Set B
図 1.2 データサイズとデータ数
7. Way of Experiment & Evaluation 7
1.4 交差検定
実験→
• Cross-Validation
Data Set A1 評価 訓練 訓練
Data Set A2 訓練 評価 訓練
分割
Data Set A
Data Set A3 訓練 訓練 評価
図 1.4 交差検定
8. Way of Experiment & Evaluation 8
1.5 クラス と ラベル
赤
赤でない
赤
Class O
青
Class X Class R
分類
Class B
不明
分類
黒
Class E
りんご Class K
りんご 赤
Data Set A
青
Data Set B
図 1.5.1 クラス
図 1.5.2 ラベル
9. Way of Experiment & Evaluation 9
1.6 分類
二値分類問題 と 多値分類問題
Class > 2 Class = 2
• Class 多クラスデータセット 二値クラスデータセット
(Multi-Class Dataset) (Binary-Class Dataset)
Label > 1 Class = 1
• Label 複数ラベルデータセット 単一ラベルデータセット
(Multi-Label Dataset) (Single-Label Dataset)