SlideShare a Scribd company logo
1 of 31
Machine Learning
    for Natural Language Processing

   - Way of Experiment & Evaluation –


                    Meiji University
Seminar 2           B3     Tatsuya Coike
                    Web : lanevok.com
  pp. 162-178
                          2012.10.11 (Thu)
Way of Experiment & Evaluation   2




Outline

• 1. 実験 (Experiment)
      準備/データセット/データの種類/交差検定/
      クラスとラベル/分類問題

• 2. 評価 (Evaluation)
      分類正解率/適合性/精度と再現率/統合/
      多値分類/正例と不例/マクロ,マイクロ平均

• 3. 検定 (Statistical Test)
      統計的検定/考え方/p値の計算方法
Way of Experiment & Evaluation   3




            1. Experiment
Way of Experiment & Evaluation   4




1.1 実験 の 準備

実験プログラムとデータの入手

• WEKA (Data Mining with Open Source
                     Machine Learning Software in Java)

• README (Input Format)


• Data Set (p.185)
Way of Experiment & Evaluation           5




1.2 データセット

• 事例 (Instance)
• Data Set の 事例数 (= Data Size)


    ※ データサイズ ≠ データ数                                               分類




    新聞                                           Wikipedia        事例数 3
                        データ数 2
    記事                                                             (Data Size)
                                                  Data Set A
  Data Set B
               図 1.2   データサイズとデータ数
Way of Experiment & Evaluation       6




1.3 データ の 種類

• 訓練データ (Training Data) … モデルなどの学習に用いる


• 評価データ (Test Data) … 分類できたかの評価に用いる


• 開発データ (Development Data) … 定数決定の為のデータ

    ・Naive Bayes Classifier の事前確率                       α
    ・Support Vector Machine (SVM)                       C
Way of Experiment & Evaluation        7




1.4 交差検定
                                                           実験→
• Cross-Validation


                                  Data Set A1        評価                訓練   訓練



                                  Data Set A2        訓練                評価   訓練

                     分割

     Data Set A
                                  Data Set A3        訓練                訓練   評価


                          図 1.4     交差検定
Way of Experiment & Evaluation              8




1.5 クラス と ラベル
     赤
                     赤でない
                                                    赤
  Class O
                                                                           青
                    Class X                     Class R
            分類
                                                                        Class B
                           不明
                                                           分類
                                                                                   黒
                         Class E
りんご                                                                         Class K
                                            りんご                     赤
 Data Set A
                                                                    青
                                              Data Set B
         図 1.5.1   クラス
                                                              図 1.5.2    ラベル
Way of Experiment & Evaluation   9




1.6 分類

二値分類問題 と 多値分類問題

                 Class > 2                        Class = 2
• Class     多クラスデータセット                   二値クラスデータセット
           (Multi-Class Dataset)         (Binary-Class Dataset)



                 Label > 1                        Class = 1
• Label   複数ラベルデータセット                   単一ラベルデータセット
          (Multi-Label Dataset)         (Single-Label Dataset)
Way of Experiment & Evaluation   10




               2. Evaluation
Way of Experiment & Evaluation   11




2.1 分類正解率

• Classification Accuracy


• 単に 「正解率」 とも



             (正解した評価事例数)
     分類正解率 =                  (2.1)
               (評価事例総数)
Way of Experiment & Evaluation   12




2.2 適合性

• 適合性 (Relevance)


  客観的に見て、適合するものを結果として得られたか



• 完全性 … 漏れなく結果が得られているか




• 正確性 … 適合するものだけ結果が得られているか
Way of Experiment & Evaluation           13



                                                                           𝒅
2.3 精度 と 再現率
                                                              𝒃   𝒂   𝒄

二値分類の評価指標
                        𝑎      予測できた属する数
• 精度 (Precision)   =         =            (2.3.1)
                       𝑎+𝑏     属すると予測した総数
                        𝑎        属すると予測した数
• 再現率 (Recall)     =         =                                        (2.3.2)
                       𝑎+𝑐         属する総数

• 分割表 (Contingency Table)
                                       表 2.3       分割表
                                            C に属する                C に属さない
                   C であると予測                        𝑎                  𝑏
                   C でないと予測                        𝑐                  𝑑
Way of Experiment & Evaluation   14




2.4 精度 と 再現率 の 統合

• 精度 と 再現率 は トレードオフの関係


• 𝐹尺度 (𝐹値) (F-Measure) … 調和平均 (逆数の平均の逆数)


               2 × (精度) × (再現率)
            𝐹=                        2.4
                 (精度) + (再現率)

                                             2×0.9×0.5
Example :                  A   (0.9 , 0.5) =           = 0.64
                                              0.9+0.5
                                             2×0.8×0.6
  (精度 , 再現率)               B   (0.8 , 0.6) =           = 0.69
                                              0.8+0.6
Way of Experiment & Evaluation       15




2.5 よく使われる 評価指標

• 再現率 / 精度 break-even ポイント
  (Recall / Precision Break-Even Point)

  → 精度と再現率が一致する点



• 11点平均精度                                           図 2.5      再現率-精度グラフ
  (Eleven Point Average Precision)

 → 再現率が 0.0 , 0.1 , … , 0.9 , 1.0 となる11点における
    精度を計算し、算術平均を取る                      ※補間が必要
Way of Experiment & Evaluation       16




2.6 多値分類問題 の 評価

• 分類正解率 (cf. 2.1)


                        りんご                          赤
                                                     青
複数ラベル の扱い

  1. 複数のラベルが すべて予測 できた → 正解 (厳しい)
  2. 複数のラベルのうち 一つでも予測 できた → 正解 (甘い)
Way of Experiment & Evaluation            17




2.7 二値分類 での 多値分類問題

             d
         c
     b                       𝐶1                    𝐶2              𝐶3


 𝑎
                         ①                    ②                ③
 Data Set X

                             𝐶1                   𝐶2               𝐶3



                 図 2.7   多クラス二値分類
Way of Experiment & Evaluation             18




2.8 正例 と 負例

• 二値分類問題

 そのクラスに属する事例 → 正例
     上記以外の事例 → 負例

 → クラス数分の分類器を構築 → 実験結果の統合

                  表 2.8      訓練データ
           正クラス            正例                      負例
            C1              𝒂, 𝒃                    𝒄, 𝒅
            C2              𝒂, 𝒄                    𝒃, 𝒅
            C3                𝒅                    𝒂, 𝒃, 𝒄
Way of Experiment & Evaluation            19




2.9 マクロ平均 と マイクロ平均

• マクロ平均 (Macro Average) → 評価指標の算術平均

                                                𝑓1 +𝑓2 +𝑓3
Example : 各クラスの 𝐹値 を求めて →                                      (2.9)
                                                    3


• マイクロ平均 (Micro Average) → 分割表を統合し評価


                   表 4.3     統合した分割表

                      各クラスに属する                           属さない
      各クラスであると予測           𝑎1 + 𝑎2 + 𝑎3                 𝑏1 + 𝑏2 + 𝑏3
       そうでないと予測            𝑐1 + 𝑐2 + 𝑐3                 𝑑1 + 𝑑2 + 𝑑3
Way of Experiment & Evaluation   20




2.10 分類正解率 での 平均

• 分類正解率 の マクロ平均


            1      𝐶1 正解数 𝐶2 正解数 𝐶3 正解数
𝐴𝑐   𝑚𝑎   =                +       +         (2.10.1)
            3        𝐶1 総数   𝐶2 総数   𝐶3 総数

• 分類正解率 の マイクロ平均

                 𝐶1 正解数 + 𝐶2 正解数 + 𝐶3 正解数
     𝐴𝑐   𝑚𝑖   =                              (2.10.2)
                     𝐶1 総数 + 𝐶2 総数 + 𝐶3 総数
Way of Experiment & Evaluation   21




2.11 平均 の 使い分け

• マクロ平均 (Macro Average)

     各データセットの大きさを無視して平等に扱う

• マイクロ平均 (Micro Average)

     各データセットの大きさを考慮し、
        小さなデータセットの影響は少なくする


  「𝐹値」 「分類正解率」 の どちらでも計算可
Way of Experiment & Evaluation   22




      3. Statistical Test
Way of Experiment & Evaluation         23




3.1 統計的検定 とは
                                                       New


新しい手法の提案をする場合、
                                                0.73     0.82

    「既存手法の評価指標の値」
    「提案手法の評価指標の値」                           を比較する。

実験結果をどの程度信頼してよいか判定。

→ 統計的検定 (Statistical Test)
Way of Experiment & Evaluation   24




3.2 統計的検定 の 考え方

• 帰無仮説 (Null Hypothesis) … 否定したい仮説

     「二つの手法の評価指標が同じ確率分布に従う」

• 𝑝値 (𝑝-value) … 帰無仮説が成り立つとしたときの確率


• 有意水準 (Significance Level)

    𝑝値が一定値より低い → 非常に稀な結果 → 仮説×

     慣習的に 0.05 , 0.01 を使用
Way of Experiment & Evaluation   25




3.3 p値 の 計算方法

• 符号検定 (Sign Test)
  結果の差が良いか定義できない場合
  分類正解率の検定で使われることが多い

• ウィルコクソンの符号付順位和検定
             (Wilcoxon’s Signed Rank ST)
  結果の差が定義できる場合 → 良さの点数が存在

• t - 検定 (t-Test)
  正規分布に従っていると考えられる場合
              →代表値間に差があるか
Way of Experiment & Evaluation   26




まとめ

• 評価指標の向上が何に起因しているか


• 提案手法において、ある工夫をした際
     「工夫したもの」「工夫していないもの」を
         それ以外の部分は同じにして比較する

• その問題における最先端の手法と比較をする


•   言語処理での「素性」
    機械学習での「特徴」     が持つ意味を明確にする
Thank you for your listening.




               - Way of Experiment & Evaluation –
Way of Experiment & Evaluation   28




4.1 Key Words
□   データセット           □     𝐹値
□   事例 (数)           □    break-even ポイント
□   訓練データ            □    11点平均精度
□   評価データ            □    正例
□   開発データ            □    負例
□   交差検定             □    マクロ平均
□   クラス              □    マイクロ平均
□   ラベル              □    統計的検定
□   二値分類             □    帰無仮説
□   多値分類             □      𝑝値
□   分類正解率            □    有意水準
□   精度               □    符号検定
□   再現率              □    ウィルコクソンの符号付順位和検定
□   分割表              □    t - 検定
Way of Experiment & Evaluation   29




4.2 参考 (1)

表2.3 について その他の 評価指標

• フォールアウト (Fallout) … 再現率の代わりで使用もする

                 𝑏
            𝐹=                (4.2.1)
               𝑏+ 𝑑

• 一般性 (Generality)

                  𝑎
           𝐹=                  (4.2.2)
              𝑎+ 𝑏+ 𝑐+ 𝑑
Way of Experiment & Evaluation   30




4.2 参考 (2)

• 𝐹尺度 (𝐹値) (F-Measure)                    式 2.4 補足

                             1
       𝐹=                                                 4.2.3
                 1                       1
            𝛼       + 1− 𝛼
                再現率                     精度

 ※ α は 再現率と精度の重視比重を表すパラメータ

                       1
[関連]            𝛼=                  4.2.4
                     𝛽2 +1


 ※ 𝛽 は 再現率に対して 精度を何倍重視 するか
Way of Experiment & Evaluation       31




4.2 参考 (3)

• 補間精度            (cf. 2.5)           11点平均精度 - 補間 補足
                                             精度
                                               𝑃


  𝑃(𝑥) = max 𝑃𝑖               4.2.5
         𝑥 ≤ 𝑅𝑖

                                                𝑝(𝑥)



                                                                       𝑥    𝑅
                                                                            再現率
                                                        図4.2 補間精度

More Related Content

Viewers also liked

Device Fingerprinting: オンライン広告効果計測への応用
Device Fingerprinting: オンライン広告効果計測への応用Device Fingerprinting: オンライン広告効果計測への応用
Device Fingerprinting: オンライン広告効果計測への応用Koji Suganuma
 
Google BigQuery クエリの処理の流れ - #bq_sushi
Google BigQuery クエリの処理の流れ - #bq_sushi Google BigQuery クエリの処理の流れ - #bq_sushi
Google BigQuery クエリの処理の流れ - #bq_sushi Google Cloud Platform - Japan
 
スペクトラル・クラスタリング
スペクトラル・クラスタリングスペクトラル・クラスタリング
スペクトラル・クラスタリングAkira Miyazawa
 
Spark Streamingによるリアルタイムユーザ属性推定
Spark Streamingによるリアルタイムユーザ属性推定Spark Streamingによるリアルタイムユーザ属性推定
Spark Streamingによるリアルタイムユーザ属性推定Yoshiyasu SAEKI
 
NINと画像分類
NINと画像分類NINと画像分類
NINと画像分類t dev
 
KafkaとAWS Kinesisの比較
KafkaとAWS Kinesisの比較KafkaとAWS Kinesisの比較
KafkaとAWS Kinesisの比較Yoshiyasu SAEKI
 
これでBigQueryをドヤ顔で語れる!BigQueryの基本
これでBigQueryをドヤ顔で語れる!BigQueryの基本これでBigQueryをドヤ顔で語れる!BigQueryの基本
これでBigQueryをドヤ顔で語れる!BigQueryの基本Tomohiro Shinden
 
ストリーム処理を支えるキューイングシステムの選び方
ストリーム処理を支えるキューイングシステムの選び方ストリーム処理を支えるキューイングシステムの選び方
ストリーム処理を支えるキューイングシステムの選び方Yoshiyasu SAEKI
 
BigQueryの課金、節約しませんか
BigQueryの課金、節約しませんかBigQueryの課金、節約しませんか
BigQueryの課金、節約しませんかRyuji Tamagawa
 
Scikit learnで学ぶ機械学習入門
Scikit learnで学ぶ機械学習入門Scikit learnで学ぶ機械学習入門
Scikit learnで学ぶ機械学習入門Takami Sato
 
Apache Sparkにおけるメモリ - アプリケーションを落とさないメモリ設計手法 -
Apache Sparkにおけるメモリ - アプリケーションを落とさないメモリ設計手法 -Apache Sparkにおけるメモリ - アプリケーションを落とさないメモリ設計手法 -
Apache Sparkにおけるメモリ - アプリケーションを落とさないメモリ設計手法 -Yoshiyasu SAEKI
 
今だからこそ知りたい Docker Compose/Swarm 入門
今だからこそ知りたい Docker Compose/Swarm 入門今だからこそ知りたい Docker Compose/Swarm 入門
今だからこそ知りたい Docker Compose/Swarm 入門Masahito Zembutsu
 
機械学習によるデータ分析まわりのお話
機械学習によるデータ分析まわりのお話機械学習によるデータ分析まわりのお話
機械学習によるデータ分析まわりのお話Ryota Kamoshida
 
機械学習の理論と実践
機械学習の理論と実践機械学習の理論と実践
機械学習の理論と実践Preferred Networks
 

Viewers also liked (16)

Device Fingerprinting: オンライン広告効果計測への応用
Device Fingerprinting: オンライン広告効果計測への応用Device Fingerprinting: オンライン広告効果計測への応用
Device Fingerprinting: オンライン広告効果計測への応用
 
Google BigQuery クエリの処理の流れ - #bq_sushi
Google BigQuery クエリの処理の流れ - #bq_sushi Google BigQuery クエリの処理の流れ - #bq_sushi
Google BigQuery クエリの処理の流れ - #bq_sushi
 
スペクトラル・クラスタリング
スペクトラル・クラスタリングスペクトラル・クラスタリング
スペクトラル・クラスタリング
 
Spark Streamingによるリアルタイムユーザ属性推定
Spark Streamingによるリアルタイムユーザ属性推定Spark Streamingによるリアルタイムユーザ属性推定
Spark Streamingによるリアルタイムユーザ属性推定
 
NINと画像分類
NINと画像分類NINと画像分類
NINと画像分類
 
KafkaとAWS Kinesisの比較
KafkaとAWS Kinesisの比較KafkaとAWS Kinesisの比較
KafkaとAWS Kinesisの比較
 
Google Cloud Dataflow を理解する - #bq_sushi
Google Cloud Dataflow を理解する - #bq_sushiGoogle Cloud Dataflow を理解する - #bq_sushi
Google Cloud Dataflow を理解する - #bq_sushi
 
ゲーム産業講義2015年1月
ゲーム産業講義2015年1月ゲーム産業講義2015年1月
ゲーム産業講義2015年1月
 
これでBigQueryをドヤ顔で語れる!BigQueryの基本
これでBigQueryをドヤ顔で語れる!BigQueryの基本これでBigQueryをドヤ顔で語れる!BigQueryの基本
これでBigQueryをドヤ顔で語れる!BigQueryの基本
 
ストリーム処理を支えるキューイングシステムの選び方
ストリーム処理を支えるキューイングシステムの選び方ストリーム処理を支えるキューイングシステムの選び方
ストリーム処理を支えるキューイングシステムの選び方
 
BigQueryの課金、節約しませんか
BigQueryの課金、節約しませんかBigQueryの課金、節約しませんか
BigQueryの課金、節約しませんか
 
Scikit learnで学ぶ機械学習入門
Scikit learnで学ぶ機械学習入門Scikit learnで学ぶ機械学習入門
Scikit learnで学ぶ機械学習入門
 
Apache Sparkにおけるメモリ - アプリケーションを落とさないメモリ設計手法 -
Apache Sparkにおけるメモリ - アプリケーションを落とさないメモリ設計手法 -Apache Sparkにおけるメモリ - アプリケーションを落とさないメモリ設計手法 -
Apache Sparkにおけるメモリ - アプリケーションを落とさないメモリ設計手法 -
 
今だからこそ知りたい Docker Compose/Swarm 入門
今だからこそ知りたい Docker Compose/Swarm 入門今だからこそ知りたい Docker Compose/Swarm 入門
今だからこそ知りたい Docker Compose/Swarm 入門
 
機械学習によるデータ分析まわりのお話
機械学習によるデータ分析まわりのお話機械学習によるデータ分析まわりのお話
機械学習によるデータ分析まわりのお話
 
機械学習の理論と実践
機械学習の理論と実践機械学習の理論と実践
機械学習の理論と実践
 

More from Tatsuya Coike

rm shredder @ ABPro2016
rm shredder @ ABPro2016rm shredder @ ABPro2016
rm shredder @ ABPro2016Tatsuya Coike
 
Password Timing @ ABPro2015
Password Timing @ ABPro2015Password Timing @ ABPro2015
Password Timing @ ABPro2015Tatsuya Coike
 
主観表現と客観表現を用いたTwitterにおける有益なツイートの推定
主観表現と客観表現を用いたTwitterにおける有益なツイートの推定主観表現と客観表現を用いたTwitterにおける有益なツイートの推定
主観表現と客観表現を用いたTwitterにおける有益なツイートの推定Tatsuya Coike
 
RGB Color Strike Game @ ABPro2014
RGB Color Strike Game @ ABPro2014RGB Color Strike Game @ ABPro2014
RGB Color Strike Game @ ABPro2014Tatsuya Coike
 
話題を考慮した多様性のある情報推薦手法の提案
話題を考慮した多様性のある情報推薦手法の提案話題を考慮した多様性のある情報推薦手法の提案
話題を考慮した多様性のある情報推薦手法の提案Tatsuya Coike
 
Foursquare Introduction
Foursquare IntroductionFoursquare Introduction
Foursquare IntroductionTatsuya Coike
 

More from Tatsuya Coike (6)

rm shredder @ ABPro2016
rm shredder @ ABPro2016rm shredder @ ABPro2016
rm shredder @ ABPro2016
 
Password Timing @ ABPro2015
Password Timing @ ABPro2015Password Timing @ ABPro2015
Password Timing @ ABPro2015
 
主観表現と客観表現を用いたTwitterにおける有益なツイートの推定
主観表現と客観表現を用いたTwitterにおける有益なツイートの推定主観表現と客観表現を用いたTwitterにおける有益なツイートの推定
主観表現と客観表現を用いたTwitterにおける有益なツイートの推定
 
RGB Color Strike Game @ ABPro2014
RGB Color Strike Game @ ABPro2014RGB Color Strike Game @ ABPro2014
RGB Color Strike Game @ ABPro2014
 
話題を考慮した多様性のある情報推薦手法の提案
話題を考慮した多様性のある情報推薦手法の提案話題を考慮した多様性のある情報推薦手法の提案
話題を考慮した多様性のある情報推薦手法の提案
 
Foursquare Introduction
Foursquare IntroductionFoursquare Introduction
Foursquare Introduction
 

Way of Experiment & Evaluation

  • 1. Machine Learning for Natural Language Processing - Way of Experiment & Evaluation – Meiji University Seminar 2 B3 Tatsuya Coike Web : lanevok.com pp. 162-178 2012.10.11 (Thu)
  • 2. Way of Experiment & Evaluation 2 Outline • 1. 実験 (Experiment) 準備/データセット/データの種類/交差検定/ クラスとラベル/分類問題 • 2. 評価 (Evaluation) 分類正解率/適合性/精度と再現率/統合/ 多値分類/正例と不例/マクロ,マイクロ平均 • 3. 検定 (Statistical Test) 統計的検定/考え方/p値の計算方法
  • 3. Way of Experiment & Evaluation 3 1. Experiment
  • 4. Way of Experiment & Evaluation 4 1.1 実験 の 準備 実験プログラムとデータの入手 • WEKA (Data Mining with Open Source Machine Learning Software in Java) • README (Input Format) • Data Set (p.185)
  • 5. Way of Experiment & Evaluation 5 1.2 データセット • 事例 (Instance) • Data Set の 事例数 (= Data Size) ※ データサイズ ≠ データ数 分類 新聞 Wikipedia 事例数 3 データ数 2 記事 (Data Size) Data Set A Data Set B 図 1.2 データサイズとデータ数
  • 6. Way of Experiment & Evaluation 6 1.3 データ の 種類 • 訓練データ (Training Data) … モデルなどの学習に用いる • 評価データ (Test Data) … 分類できたかの評価に用いる • 開発データ (Development Data) … 定数決定の為のデータ ・Naive Bayes Classifier の事前確率 α ・Support Vector Machine (SVM) C
  • 7. Way of Experiment & Evaluation 7 1.4 交差検定 実験→ • Cross-Validation Data Set A1 評価 訓練 訓練 Data Set A2 訓練 評価 訓練 分割 Data Set A Data Set A3 訓練 訓練 評価 図 1.4 交差検定
  • 8. Way of Experiment & Evaluation 8 1.5 クラス と ラベル 赤 赤でない 赤 Class O 青 Class X Class R 分類 Class B 不明 分類 黒 Class E りんご Class K りんご 赤 Data Set A 青 Data Set B 図 1.5.1 クラス 図 1.5.2 ラベル
  • 9. Way of Experiment & Evaluation 9 1.6 分類 二値分類問題 と 多値分類問題 Class > 2 Class = 2 • Class 多クラスデータセット 二値クラスデータセット (Multi-Class Dataset) (Binary-Class Dataset) Label > 1 Class = 1 • Label 複数ラベルデータセット 単一ラベルデータセット (Multi-Label Dataset) (Single-Label Dataset)
  • 10. Way of Experiment & Evaluation 10 2. Evaluation
  • 11. Way of Experiment & Evaluation 11 2.1 分類正解率 • Classification Accuracy • 単に 「正解率」 とも (正解した評価事例数) 分類正解率 =      (2.1) (評価事例総数)
  • 12. Way of Experiment & Evaluation 12 2.2 適合性 • 適合性 (Relevance) 客観的に見て、適合するものを結果として得られたか • 完全性 … 漏れなく結果が得られているか • 正確性 … 適合するものだけ結果が得られているか
  • 13. Way of Experiment & Evaluation 13 𝒅 2.3 精度 と 再現率 𝒃 𝒂 𝒄 二値分類の評価指標 𝑎 予測できた属する数 • 精度 (Precision) = = (2.3.1) 𝑎+𝑏 属すると予測した総数 𝑎 属すると予測した数 • 再現率 (Recall) = = (2.3.2) 𝑎+𝑐 属する総数 • 分割表 (Contingency Table) 表 2.3 分割表 C に属する C に属さない C であると予測 𝑎 𝑏 C でないと予測 𝑐 𝑑
  • 14. Way of Experiment & Evaluation 14 2.4 精度 と 再現率 の 統合 • 精度 と 再現率 は トレードオフの関係 • 𝐹尺度 (𝐹値) (F-Measure) … 調和平均 (逆数の平均の逆数) 2 × (精度) × (再現率) 𝐹=       2.4 (精度) + (再現率) 2×0.9×0.5 Example : A (0.9 , 0.5) = = 0.64 0.9+0.5 2×0.8×0.6 (精度 , 再現率) B (0.8 , 0.6) = = 0.69 0.8+0.6
  • 15. Way of Experiment & Evaluation 15 2.5 よく使われる 評価指標 • 再現率 / 精度 break-even ポイント (Recall / Precision Break-Even Point) → 精度と再現率が一致する点 • 11点平均精度 図 2.5 再現率-精度グラフ (Eleven Point Average Precision) → 再現率が 0.0 , 0.1 , … , 0.9 , 1.0 となる11点における 精度を計算し、算術平均を取る ※補間が必要
  • 16. Way of Experiment & Evaluation 16 2.6 多値分類問題 の 評価 • 分類正解率 (cf. 2.1) りんご 赤 青 複数ラベル の扱い 1. 複数のラベルが すべて予測 できた → 正解 (厳しい) 2. 複数のラベルのうち 一つでも予測 できた → 正解 (甘い)
  • 17. Way of Experiment & Evaluation 17 2.7 二値分類 での 多値分類問題 d c b 𝐶1 𝐶2 𝐶3 𝑎 ① ② ③ Data Set X 𝐶1 𝐶2 𝐶3 図 2.7 多クラス二値分類
  • 18. Way of Experiment & Evaluation 18 2.8 正例 と 負例 • 二値分類問題 そのクラスに属する事例 → 正例 上記以外の事例 → 負例 → クラス数分の分類器を構築 → 実験結果の統合 表 2.8 訓練データ 正クラス 正例 負例 C1 𝒂, 𝒃 𝒄, 𝒅 C2 𝒂, 𝒄 𝒃, 𝒅 C3 𝒅 𝒂, 𝒃, 𝒄
  • 19. Way of Experiment & Evaluation 19 2.9 マクロ平均 と マイクロ平均 • マクロ平均 (Macro Average) → 評価指標の算術平均 𝑓1 +𝑓2 +𝑓3 Example : 各クラスの 𝐹値 を求めて → (2.9) 3 • マイクロ平均 (Micro Average) → 分割表を統合し評価 表 4.3 統合した分割表 各クラスに属する 属さない 各クラスであると予測 𝑎1 + 𝑎2 + 𝑎3 𝑏1 + 𝑏2 + 𝑏3 そうでないと予測 𝑐1 + 𝑐2 + 𝑐3 𝑑1 + 𝑑2 + 𝑑3
  • 20. Way of Experiment & Evaluation 20 2.10 分類正解率 での 平均 • 分類正解率 の マクロ平均 1 𝐶1 正解数 𝐶2 正解数 𝐶3 正解数 𝐴𝑐 𝑚𝑎 = + +   (2.10.1) 3 𝐶1 総数 𝐶2 総数 𝐶3 総数 • 分類正解率 の マイクロ平均 𝐶1 正解数 + 𝐶2 正解数 + 𝐶3 正解数 𝐴𝑐 𝑚𝑖 =    (2.10.2) 𝐶1 総数 + 𝐶2 総数 + 𝐶3 総数
  • 21. Way of Experiment & Evaluation 21 2.11 平均 の 使い分け • マクロ平均 (Macro Average) 各データセットの大きさを無視して平等に扱う • マイクロ平均 (Micro Average) 各データセットの大きさを考慮し、 小さなデータセットの影響は少なくする 「𝐹値」 「分類正解率」 の どちらでも計算可
  • 22. Way of Experiment & Evaluation 22 3. Statistical Test
  • 23. Way of Experiment & Evaluation 23 3.1 統計的検定 とは New 新しい手法の提案をする場合、 0.73 0.82 「既存手法の評価指標の値」 「提案手法の評価指標の値」 を比較する。 実験結果をどの程度信頼してよいか判定。 → 統計的検定 (Statistical Test)
  • 24. Way of Experiment & Evaluation 24 3.2 統計的検定 の 考え方 • 帰無仮説 (Null Hypothesis) … 否定したい仮説 「二つの手法の評価指標が同じ確率分布に従う」 • 𝑝値 (𝑝-value) … 帰無仮説が成り立つとしたときの確率 • 有意水準 (Significance Level) 𝑝値が一定値より低い → 非常に稀な結果 → 仮説× 慣習的に 0.05 , 0.01 を使用
  • 25. Way of Experiment & Evaluation 25 3.3 p値 の 計算方法 • 符号検定 (Sign Test) 結果の差が良いか定義できない場合 分類正解率の検定で使われることが多い • ウィルコクソンの符号付順位和検定 (Wilcoxon’s Signed Rank ST) 結果の差が定義できる場合 → 良さの点数が存在 • t - 検定 (t-Test) 正規分布に従っていると考えられる場合 →代表値間に差があるか
  • 26. Way of Experiment & Evaluation 26 まとめ • 評価指標の向上が何に起因しているか • 提案手法において、ある工夫をした際 「工夫したもの」「工夫していないもの」を それ以外の部分は同じにして比較する • その問題における最先端の手法と比較をする • 言語処理での「素性」 機械学習での「特徴」 が持つ意味を明確にする
  • 27. Thank you for your listening. - Way of Experiment & Evaluation –
  • 28. Way of Experiment & Evaluation 28 4.1 Key Words □ データセット □ 𝐹値 □ 事例 (数) □ break-even ポイント □ 訓練データ □ 11点平均精度 □ 評価データ □ 正例 □ 開発データ □ 負例 □ 交差検定 □ マクロ平均 □ クラス □ マイクロ平均 □ ラベル □ 統計的検定 □ 二値分類 □ 帰無仮説 □ 多値分類 □ 𝑝値 □ 分類正解率 □ 有意水準 □ 精度 □ 符号検定 □ 再現率 □ ウィルコクソンの符号付順位和検定 □ 分割表 □ t - 検定
  • 29. Way of Experiment & Evaluation 29 4.2 参考 (1) 表2.3 について その他の 評価指標 • フォールアウト (Fallout) … 再現率の代わりで使用もする 𝑏 𝐹=           (4.2.1) 𝑏+ 𝑑 • 一般性 (Generality) 𝑎 𝐹=       (4.2.2) 𝑎+ 𝑏+ 𝑐+ 𝑑
  • 30. Way of Experiment & Evaluation 30 4.2 参考 (2) • 𝐹尺度 (𝐹値) (F-Measure) 式 2.4 補足 1 𝐹=       4.2.3 1 1 𝛼 + 1− 𝛼 再現率 精度 ※ α は 再現率と精度の重視比重を表すパラメータ 1 [関連] 𝛼= 4.2.4 𝛽2 +1 ※ 𝛽 は 再現率に対して 精度を何倍重視 するか
  • 31. Way of Experiment & Evaluation 31 4.2 参考 (3) • 補間精度 (cf. 2.5) 11点平均精度 - 補間 補足 精度 𝑃 𝑃(𝑥) = max 𝑃𝑖 4.2.5 𝑥 ≤ 𝑅𝑖 𝑝(𝑥) 𝑥 𝑅 再現率 図4.2 補間精度