はじパタLT Section1

パターン認識
Rで学ぶデータサイエンス
第1章
2013/06/18

祝！
#はじパタ開催！！
祝！
#はじパタ開催！！

お詫び
Rのコードは出てきません

お詫び2
今日は詳しくは語りません

@kenchan0130_aki
学生ニート
自己紹介

@kenchan0130_aki
学生ニート
働いたら負け
自己紹介

@kenchan0130_aki
学生ニート
働いたら負け
自然言語処理
自己紹介

@kenchan0130_aki
学生ニート
働いたら負け
自然言語処理
得意になりたい言語：Ruby
自己紹介

@kenchan0130_aki
学生ニート
働いたら負け
自然言語処理
得意になりたい言語：Ruby 女の子と仲良くなれそう
自己紹介

パターン認識
第1章判別能力の評価
第2章 k-平均法
第3章階層的クラスタリング
第4章混合正規分布モデル
第5章判別分析
第6章ロジスティック回帰
第7章密度推定
第8章 k-近傍法
第9章学習ベクトル量子化
第10章決定木
第11章サポートベクターマシン
第12章正規化とパス追跡
アルゴリズム
第13章ミニマックス確率マシン
第14章集団学習
第15章 2値判別から多値判別へ

• 入力された特徴量からラベルを予測する
問題を「判別問題」といいます.
• ラベルを返す判別器の予測精度を評価
したい！
判別能力の評価

何か評価する指標が欲しい！

• 誤り率
• 損失行列による評価
• 交差検証法による予測精度の推定
• 陽性率, 偽陽性率, ROC曲線, AUC
• 適合率, 再現率, F値
各種指標

誤り率
n個のデータに対する誤り率は
で計算できます.
I[R]は条件Rが真のときは1, それ以外は0となる定義関数

• 学習データに対する誤り率を
「訓練誤差」といいます.
• 未知のテストデータに対する誤り率を
「予測誤差」といいます.
誤り率

• 損失の値をで表し, 成分とする行列を損
失行列とします.
• クラスと判別すべきデータをクラスと誤
ってしまったときの損失を表しています.
損失行列による評価

損失行列による評価
損失の平均は以下のように与えられます.
は真のクラスの不確実性を表す同時確率分布
これを最小とするようなを割り当てるものとなります.

交互検証法による
予測精度の推定

• 学習データを2つに分け, 一方で判別器を推定
します.
• 他方でその精度を評価し, 予測誤差を推定しま
す.
• これをk分割して繰り返す方法を
「k-交差検証法」と呼びます.
交互検証法による予測精度の推定

陽性率, 偽陽性率,
ROC曲線, AUC
陽性率, 偽陽性率,
ROC曲線, AUC

• 陽性率は「第1種の過誤」と思ってもらっていいかもです.
• 偽陽性率は「第2種の過誤」と思ってもらっていいかもで
す. (こっちはヤバイやつ)
• 偽陽性率をある一定の値以下に抑えたとき, 陽性率を最大
化する判別器を採択します.
• 縦軸を真の陽性率, つまり敏感度, 横軸を偽陽性率, つまり
(1−特異度)を尺度としてプロットしたものです.
• AUCはROC曲線下の面積のことです.
分類器の性能の良さを表しています.
陽性率,偽陽性率, ROC曲線, AUC

http://oku.edu.mie-u.ac.jp/ okumura/stat/ROC.html

• 検索結果内に, 実際に目的の情報を含んでいる
ページの割合が「適合率」です.
• 目的の情報を含んでいるページ全体の中で正
しく検索結果の割合が「再現率」です.
適合率, 再現率, F値

はじパタLT Section1

Recommended

Recommended

More Related Content

More from Tadayuki Onishi

More from Tadayuki Onishi (6)

Recently uploaded

Recently uploaded (7)

はじパタLT Section1