Submit Search
Upload
2値分類・多クラス分類
•
9 likes
•
15,969 views
T
t dev
Follow
機械学習の勉強会で発表したもの。 『深層学習』(岡谷貴之)のChapter2.4.3および2.4.4を解説した。
Read less
Read more
Technology
Report
Share
Report
Share
1 of 31
Download now
Download to read offline
Recommended
Union find(素集合データ構造)
Union find(素集合データ構造)
AtCoder Inc.
【解説】 一般逆行列
【解説】 一般逆行列
Kenjiro Sugimoto
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章
Hakky St
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
Deep Learning JP
最適化超入門
最適化超入門
Takami Sato
組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで
Shunji Umetani
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
ohken
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
Recommended
Union find(素集合データ構造)
Union find(素集合データ構造)
AtCoder Inc.
【解説】 一般逆行列
【解説】 一般逆行列
Kenjiro Sugimoto
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章
Hakky St
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
Deep Learning JP
最適化超入門
最適化超入門
Takami Sato
組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで
Shunji Umetani
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
ohken
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
Deep Learning JP
最適輸送の解き方
最適輸送の解き方
joisino
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
GAN(と強化学習との関係)
GAN(と強化学習との関係)
Masahiro Suzuki
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
Kazuyuki Miyazawa
モデル高速化百選
モデル高速化百選
Yusuke Uchida
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
深層学習の数理
深層学習の数理
Taiji Suzuki
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
ぱんいち すみもと
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
RyuichiKanoh
BERT分類ワークショップ.pptx
BERT分類ワークショップ.pptx
Kouta Nakayama
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
Yamato OKAMOTO
能動学習セミナー
能動学習セミナー
Preferred Networks
2019年度チュートリアルBPE
2019年度チュートリアルBPE
広樹 本間
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
動的計画法を極める!
動的計画法を極める!
HCPC: 北海道大学競技プログラミングサークル
最適輸送入門
最適輸送入門
joisino
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Preferred Networks
Infinite SVM [改] - ICML 2011 読み会
Infinite SVM [改] - ICML 2011 読み会
Shuyo Nakatani
Infinite SVM - ICML 2011 読み会
Infinite SVM - ICML 2011 読み会
Shuyo Nakatani
More Related Content
What's hot
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
Deep Learning JP
最適輸送の解き方
最適輸送の解き方
joisino
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
GAN(と強化学習との関係)
GAN(と強化学習との関係)
Masahiro Suzuki
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
Kazuyuki Miyazawa
モデル高速化百選
モデル高速化百選
Yusuke Uchida
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
深層学習の数理
深層学習の数理
Taiji Suzuki
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
ぱんいち すみもと
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
RyuichiKanoh
BERT分類ワークショップ.pptx
BERT分類ワークショップ.pptx
Kouta Nakayama
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
Yamato OKAMOTO
能動学習セミナー
能動学習セミナー
Preferred Networks
2019年度チュートリアルBPE
2019年度チュートリアルBPE
広樹 本間
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
動的計画法を極める!
動的計画法を極める!
HCPC: 北海道大学競技プログラミングサークル
最適輸送入門
最適輸送入門
joisino
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Preferred Networks
What's hot
(20)
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
最適輸送の解き方
最適輸送の解き方
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
GAN(と強化学習との関係)
GAN(と強化学習との関係)
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
モデル高速化百選
モデル高速化百選
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
深層学習の数理
深層学習の数理
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
BERT分類ワークショップ.pptx
BERT分類ワークショップ.pptx
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
能動学習セミナー
能動学習セミナー
2019年度チュートリアルBPE
2019年度チュートリアルBPE
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
動的計画法を極める!
動的計画法を極める!
最適輸送入門
最適輸送入門
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Similar to 2値分類・多クラス分類
Infinite SVM [改] - ICML 2011 読み会
Infinite SVM [改] - ICML 2011 読み会
Shuyo Nakatani
Infinite SVM - ICML 2011 読み会
Infinite SVM - ICML 2011 読み会
Shuyo Nakatani
050 確率と確率分布
050 確率と確率分布
t2tarumi
070 統計的推測 母集団と推定
070 統計的推測 母集団と推定
t2tarumi
情報オリンピック夏合宿発表
情報オリンピック夏合宿発表
Kazuma Mikami
TopCoder SRM614 解説
TopCoder SRM614 解説
EmKjp
第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知
Chika Inoshita
NLPforml5
NLPforml5
Hidekazu Oiwa
Java数値(浮動小数点)課題勉強会
Java数値(浮動小数点)課題勉強会
Tetsuya Yoshida
Re revenge chap03-1
Re revenge chap03-1
裕樹 奥田
Datamining 5th Knn
Datamining 5th Knn
sesejun
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
hirokazutanaka
お披露目会05/2010
お披露目会05/2010
JAVA DM
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
Kenyu Uehara
Datamining 5th knn
Datamining 5th knn
sesejun
【展開用】日曜数学会 Sinc関数の積分について
【展開用】日曜数学会 Sinc関数の積分について
和人 桐ケ谷
数学教材(中間発表)
数学教材(中間発表)
Mizuguchi1205
Sparse models
Sparse models
Daisuke Yoneoka
Sec15 dynamic programming
Sec15 dynamic programming
Keisuke OTAKI
【Unity道場】ゲーム制作に使う数学を学習しよう
【Unity道場】ゲーム制作に使う数学を学習しよう
Unity Technologies Japan K.K.
Similar to 2値分類・多クラス分類
(20)
Infinite SVM [改] - ICML 2011 読み会
Infinite SVM [改] - ICML 2011 読み会
Infinite SVM - ICML 2011 読み会
Infinite SVM - ICML 2011 読み会
050 確率と確率分布
050 確率と確率分布
070 統計的推測 母集団と推定
070 統計的推測 母集団と推定
情報オリンピック夏合宿発表
情報オリンピック夏合宿発表
TopCoder SRM614 解説
TopCoder SRM614 解説
第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知
NLPforml5
NLPforml5
Java数値(浮動小数点)課題勉強会
Java数値(浮動小数点)課題勉強会
Re revenge chap03-1
Re revenge chap03-1
Datamining 5th Knn
Datamining 5th Knn
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
お披露目会05/2010
お披露目会05/2010
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
Datamining 5th knn
Datamining 5th knn
【展開用】日曜数学会 Sinc関数の積分について
【展開用】日曜数学会 Sinc関数の積分について
数学教材(中間発表)
数学教材(中間発表)
Sparse models
Sparse models
Sec15 dynamic programming
Sec15 dynamic programming
【Unity道場】ゲーム制作に使う数学を学習しよう
【Unity道場】ゲーム制作に使う数学を学習しよう
More from t dev
CNNとGAを用いた 組合せ最適化問題
CNNとGAを用いた 組合せ最適化問題
t dev
NINと画像分類 for 人工知能LT祭
NINと画像分類 for 人工知能LT祭
t dev
ディープラーニング入門
ディープラーニング入門
t dev
NINと画像分類
NINと画像分類
t dev
「意味」の意味について考えた
「意味」の意味について考えた
t dev
誤差逆伝播法の計算(ディープラーニング)
誤差逆伝播法の計算(ディープラーニング)
t dev
More from t dev
(6)
CNNとGAを用いた 組合せ最適化問題
CNNとGAを用いた 組合せ最適化問題
NINと画像分類 for 人工知能LT祭
NINと画像分類 for 人工知能LT祭
ディープラーニング入門
ディープラーニング入門
NINと画像分類
NINと画像分類
「意味」の意味について考えた
「意味」の意味について考えた
誤差逆伝播法の計算(ディープラーニング)
誤差逆伝播法の計算(ディープラーニング)
Recently uploaded
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
Recently uploaded
(8)
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
2値分類・多クラス分類
1.
2.4.3 二値分類 Tomomi Daigo 機械学習プロフェッショナルシリーズ『深層学習』(岡谷貴之)の勉強用 2016/05/21
2.
二値分類の例 男 女 ? ・ ・ ・ ・ ・ ・ 0.1 0.2 0.0 ・ ・ ・ 0.1 1 (y
>= 0.5 ) y 0 (y < 0.5 ) 分布
3.
Xn y X1 X2 X3
X・・・ 1 0.5 0 2値分類におけるモデルの入出力のイメージ。 0.5を境にそれ以上は1、以下は0とする。 1 0 イメージ 分布
4.
分類結果を確率で考える p(d=1|x) 「(d=1)となる事後確率」=入力xを受け取ったとき、その正解データdが1である確率 モデルがこの確率を出力することにしたい。 分布
5.
・ ・ ・ ・ ・ ・ NNモデルの出力yは、 p(d=1|x)[あるデータxを受け取った時、その正解データが1である確率] を表す yx y = 1
+ e-u 1 出力のロジスティック関数の値域は [0,1]。 確率とみなす。 p(d=1|x) ≈ y(x;w) (p27上部) 分布
6.
重さ(g) 数(個) 0 分布 100 200 50 25 ex) 100個のイモの重さを調べる 分布
7.
モデルの分布イメージ 正解の分布と近づける Xn d X1 X2 X3
X・・・ 1 0 Xn y X1 X2 X3 X・・・ 1 0.5 0 1 0 正解 訓練モデル 間違い 分布
8.
正解d=1 「事後分布」? d=0の時、事後確率はp(d=0|x) y(x2)を1と判断する確率はこの図で は0.2。裏返すと、y(x2)を0と判断す る確率は、1-0.2=0.8 事後分布 p(d|x;w) モデルのパラメータwのもとで、あるデータxが与えられた時、それが正解dである確率の分布 y X1 1 0.5 0 y X2 1 0.5 0 d=1の時、事後確率はp(d=1|x)。 y(x1)をd、つまり1と判断する確率 はこの図では0.7 0.7 正解d=0 0.2 分類を間違えた例。 y(x3)=0の確率が1-0.7=0.3 本来なら1に近づかせたい。 y X3 1 0.5 0 正解d=0 0.7 分布
9.
d=0の時、事後確率はp(d=0|x) y(x1)を1と判断する確率はこの図で は0.2。裏返すと、y(x1)を0と判断す る確率は、1-0.2=0.8 「確率の分布」って何? 事後分布 p(d|x;w) モデルのパラメータwのもとで、あるデータxが与えられた時、それが正解dである確率の分布 y X1 1 0.5 0 y X1 1 0.5 0 d=1の時、事後確率はp(d=1|x)。 y(x1)を1と判断する確率はこの図 では0.7 0.7 正解d=1 正解d=0 0.2 分類を間違えた例。 y(x1)=0の確率が1-0.7=0.3 本来なら1に近づかせたい。 y X1 1 0.5 0 正解d=0 0.7 X1 1 0.5 0 X2 X3 0.7 0.2 1-0.7=0.3 「事後分布」 0.7,
0.2, 0.3….がモデルのyの事後分布(事後確率の分布)? ちなみに、正解の確率分布は、1,1,1,1,....になる。はず。 正解が正解である確率は常に1だから 正解がd=0の時、正 解である確率は 1-y(x)になることに注 意! 分布
10.
p(d|x) = p(d
= 1|x)d p(d = 0|x)1-d (2.7) あるデータxが与えられた時、それが正解dである確率(の分布) *)d=1ではない場合はd=0である。 ベルヌーイ分布f(k;p) = pk (1-p)1-k と一致している 式で書く 分布
11.
ベルヌーイ分布 成功 or 失敗 f(k;p)
= pk (1-p)1-k ある確率Pで成功する事象が、成功(k=1)または失敗(k=0)する確率の分布。 1回の試行について考えるもの。N回のうちk回成功する確率をnCk pk (1-p)n-k とす る二項分布を導ける。 確率 成功 失敗 p 1-p 分布
12.
p(d|x) = p(d
= 1|x)d p(d = 0|x)1-d (2.7) あるデータxが与えられた時、それが正解d(1または0)である確率 d=1に対応。 あるデータxの正解が d=1のとき、式のこちら側を使う。 あるxを受け取った時、それが正解 d=1である確率の1乗 d=0に対応。 あるデータxの正解が d=0のとき、式のこちら側を使う。 あるxを受け取った時、それが正解 d=0である確率の1-0乗 右辺の片側を使った時、もう片側は xxx の0乗となり、常に1である 右肩のdのイメージは「スイッチ」 分布
13.
p(d|x) = p(d
= 1|x)d p(d = 0|x)1-d (2.7) あるデータxが与えられた時、それが正解d(1または0)である確率 d=1に対応。 あるデータxの正解が d=1のとき、式のこちら側を使う。 あるxを受け取った時、それが正解 d=1である確率の1乗 d=0に対応。 あるデータxの正解が d=0のとき、式のこちら側を使う。 あるxを受け取った時、それが正解 d=0である確率の1-0乗 右辺の片側を使った時、もう片側は xxx の0乗となり、常に1である この表記方法は、d=1,0両方の場合を考えた事後分布を一つの式で表せる 分布
14.
N個のデータ全部を正解させたい ・ ・ ・ ・ ・ ・ y =
dn xn W 全部正解になるようなモデルのパラメー タWを求めたい!一番尤もらしい Wを。 すべての訓練データ{(xn,dn)|n=1,...,N}について、モデルにxnを入力するとき、出力y はその都度dnと一致してほしい。(つまり、全部正解であってほしい。) 正解を出力してくれるWの、尤もらしさ「尤度」を求める 尤度
15.
L(w) = Πp(dn |xn ;w)
= Π{y(xn ;w)}dn {1 - y(xn ;w)} 1-dn p(d|x) = p(d = 1|x)d p(d = 0|x)1-d (2.7) モデルの出力y=[xを受け取ったときのd=1の確率]なので、2.7式と対応。 違いは、訓練データxnに対して、全データ分(n個)の出力を掛けあわせること。 p(d|x)は正解において1をとり、その積であるL(w)は1が最大。 L(w)=1であるとき、すべてのXnについてyが正解を出力したことになる。 n=1 N n=1 N 尤度
16.
L(w) = Πp(dn |xn ;w)
= Π{y(xn ;w)}dn {1 - y(xn ;w)} 1-dn 今、x1が与えられて、正解はd=1だったとする。 モデルは良く出来ていて(wがよい値で)yが0.9を出力した。 この時、d1=1であるため、xxx の項のみがn=1でのL(w)に寄与するが、 yは0.9を出力しているので、n=1でのL(w)は0.9と、非常に尤もらしい。 逆に、d=1であるにもかかわらず、yが0.1を出力したとする(d=0と判断してしまった)。 この場合は、xxx の項を使用するが、yの値は0.1。L(w)全体の掛け合わせの中で、0.1と いう小さい値を掛けあわせることになり、その結果L(w)の値は減少する。 もしも、d=0だったなら、xxx の項がアクティブになり、(1-0.1)=0.9という大きな値が結果に 寄与できたのに・・・。 同様に、すべてのnについて、yがdに近い値を出力すれば、L(w)は1に近づき、wは非常 に尤もらしい。 n=1 N n=1 N (説明) 尤度
17.
( ) 尤度? あるパラメタを指定した時、あるデータが再現できる確率 (http://www.slideshare.net/logics-of-blue/2-2-25620649) ex) パラメタ:コインが表になる確率 データ:1回表、1回裏 1 3 1 3 × 1
-( ) 2 9 = 1 3 パラメタが のとき 1 2 1 2 × 1 - 1 4 = 1 2 パラメタが のとき 尤度 尤度
18.
最小化問題にしたい E(w) = -
∑ [dn log y(xn ;w) + (1 - dn ) log {1 - y(xn ;w)}] (2.8) n=1 N 先ほどの尤度L(w)の式の対数を取れば導出できる。この式を誤差関数と呼ぶ。 値域は、0<=E(w)?最小化は0を目指すことになる 尤度
19.
E(w) = -
∑ [dn log y(xn ;w) + (1 - dn ) log {1 - y(xn ;w)}] (2.8) n=1 N yはモデルの出力なので確率(0~1) L(w) = Πp(dn |xn ;w) = Π{y(xn ;w)}dn {1 - y(xn ;w)} 1-dn ① log(a×b)=log a + log b ② log■x = x log■ の規則で変形可能 ※このマイナスは式変形では導けない。 最小化のために付け加えたもの log yはe(=2.718…)をyにするために必要なべき乗数なので-∞ ~0 (eの-∞乗≒0(近似的に), eの0乗=1) 本当はeを何乗しても0になりませんし、log yの値は小さくてもせいぜい-■▲(2桁)程度だと思います。
20.
E(w) = -
∑ [dn log y(xn ;w) + (1 - dn ) log {1 - y(xn ;w)}] (2.8) n=1 N dnは0または1なので、やはり下線部は(負の数)~0 L(w) = Πp(dn |xn ;w) = Π{y(xn ;w)}dn {1 - y(xn ;w)} 1-dn 元の尤度の式は確率yの積なので0~1しか取らない。 最大化した場合1となる 右側ブロックも同じ計算で、その和∑も(負の数)~0。和はデータ数n分あるので、普通に絶対値の大きい値になる 式全体は頭に-が付いているのでマイナスをかけて(正の値)~0 つまり 0~(正の値)となり、 この式で言う最小化は0を目指すことになる。誤差関数E(w)=0→「誤差がない」
21.
「モデルの出力=確率」の証明 p(x,d=1) p(x,d=0)+p(x,d=1) 条件付き確率の定義 p(d=1|x) = p(d=1∧x)/p(x) より。 p(x)は、xはd=0のものとd=1のものからなるので、その和で書ける。 xxxの意味は、[存在するすべてのxの確率のうち、d=1であるxの割合]。 p(d=1|x)
= p17下部 p(d=1|x) ≈ y(x;w) (p27上部) より、モデルの出力yはxをもらってd=1である確率としていた。 証明
22.
1 + e-u 1 ところで、モデルの出力yにはロジスティック関数をかませていたので・・・ p(x,d=1) p(x,d=0)+p(x,d=1) =p(d=1|x)
= p(x,d=1) p(x,d=0) u ≡ log とおけば、 のはず。 変形して、 u= log p(x,d=1) - log p(x,d=0)をロジスティック関数に代入すると、 exp(loge X)=Xより、xxxとzzzは一致する。 ゆえに、出力をロジスティック関数にすれば、モデルの出力y(x;w)= p(d=1|x) (p17) の 前提は妥当であった。 = y(x;w) 証明
23.
2.4.4 多クラス分類
24.
どのクラスっぽいか? ・ ・ ・ ・ ・ ・ y1 y2 yk LL-1 w11 w12 yk = zk
= ∑ euj euk 例えばMNISTの画像分類のような問題。 k個の 出力yへの入力ukにつき、それぞれソフトマック ス関数を適用する。ソフトマックス関数の値域 も[0,1]。こちらも確率とみなす。 j=1 K (L) (L) u1 u2 uk k個の出力yの総和(=1)のうち、その出力 kが 占める割合。 z1 z2 z3 モデル
25.
・ ・ ・ ・ ・ ・ y1 y2 yk LL-1 w11 w12 p(Ck|x) = yk
= zk = ∑ euj euk j=1 K (L) (L) u1 u2 uk 2値分類同様に考えて、ある xが与えられて、そ れがクラスCkである確率をp(Ck|x)とすると、 0.1 0.7 0.2 モデルの出力ykは、xがそのykの対応クラスCkに属する 確率となる。←の例では p(C1)=0.1, p(C2)=0.7, p(C3)=0.2 このクラスっぽい! モデル
26.
・ ・ ・ ・ ・ ・ y1 y2 yk LL-1 w11 w12u1 u2 uk また、訓練データの正解 dは、 0.1 0.7 0.2 0 1 0 = dn
= [0 1 0]T のように表現する。「ワンホットベクトル」とも呼ぶ。 対応 「ワン・ホット・エンコーディング」という表現法 モデル
27.
モデルの出力=分布 [xを受け取って、そのxがあるクラスである確率](分布)を、一般化する。 p(d|x) = Π
p(Ck|x)dk K k=1 分布 p(Ck |x) = yk = zk (L) モデルの出力を、[xを受け取って、そのxがあるクラスである確率](分布)とする。
28.
この式も右肩のdがスイッチになって、 p(d|x) = Π
p(Ck|x)dk K k=1 = p(C1|x)d1 p(C2|x)d2 p(C3|x)d3 ・・・p(Ck|x)dk クラスC1である確率 クラスC2である確率 クラスC3である確率 クラスCkである確率 各クラス、自分のクラスの順番じゃない時は1になって寄与しないので・・・ → p(C1|x)or p(C2|x) or p(C3|x) or ・・・ or p(Ck|x) のどれかを計算に使う。 dk = [0 1 0...]T であることに注意。 分布
29.
同様に、モデルの出力を考えて、 L(w)=Πp(dn|xn;w) = Π
Π p(Ck|x)dnk = Π Π (yk(xn;w))dnk K k=1 = y1(x1;w)d11 y2(x1;w)d12 y3(x1;w)d13 ・・・yk(x1;w)d1k クラスC1である確率 クラスC2である確率 クラスC3である確率 クラスCkである確率 K k=1 N n=1 K k=1 N n=1 × y1(x2;w)d21 y2(x2;w)d22 y3(x2;w)d23 ・・・yk(x2;w)d2k × y1(x3;w)d31 y2(x3;w)d32 y3(x3;w)d33 ・・・yk(x3;w)d3k ・・・× y1(xn;w)dn1 y2(xn;w)dn2 y3(xn;w)dn3 ・・・yk(xn;w)dnk n=1のブロック n=2のブロック n=3のブロック n=nのブロック 尤度
30.
同様に、モデルの出力を考えて、 L(w)=Πp(dn|xn;w) = Π
Π p(Ck|x)dnk = Π Π (yk(xn;w))dnk K k=1 = y1(x1;w)d11 y2(x1;w)d12 y3(x1;w)d13 ・・・yk(x1;w)d1k クラスC1である確率 クラスC2である確率 クラスC3である確率 クラスCkである確率 K k=1 N n=1 K k=1 N n=1 × y1(x2;w)d21 y2(x2;w)d22 y3(x2;w)d23 ・・・yk(x2;w)d2k × y1(x3;w)d31 y2(x3;w)d32 y3(x3;w)d33 ・・・yk(x3;w)d3k ・・・× y1(xn;w)dn1 y2(xn;w)dn2 y3(xn;w)dn3 ・・・yk(xn;w)dnk n=1のブロック n=2のブロック n=3のブロック n=nのブロック 2値分類同様、正解であるdk(dk=1となっているk)に対応する項のみ寄与し、 また、モデルの出力が不正解(dkの値から離れている)場合には小さな値として寄与して しまう。 結果、不正解のxnが多いほど、L(w)は小さな値を取る。(0に近づく) 正解が多いほど、1に近づく。 尤度が1に近づくようなwを求めれば、モデルは優れた分類ができるようになる。優れた分 類をするモデルのwを求めるために、尤度を使う。最大(極大)値になるwは微分で求めら れる(尤度をwで微分して結果が0になるようなwを求める)。 尤度
31.
最小化する E(w) = -
∑ ∑ dnk log yk (xn ;w) (2.7) 2値分類同様、logをとってマイナスをつける。 KN k=1n=1 交差エントロピーと呼ばれる関数となる。 2値分類同様に、値域が0<=E(w)。最小値は0 尤度
Download now