SlideShare a Scribd company logo
1 of 27
Download to read offline
はじパタ輪読会	
  
10章後半(10.4)	
 
確率モデルによるクラスタリング	
  
2014/3/4	
  
@_kobacky
最初のおことわり	
 m(_	
  _)m	
 
•  本資料は教科書を読んで最初????だった	
  
@_kobacky	
  のような人が勉強するためのとっかかり
となることを目標とします。	
  
•  そのため、なるべく分布を図示して考えたいです。
そこで教科書では	
  d次元のデータについて論じられ
ていますが、図や例は一次元データで考えて作成し
ています。平均ベクトルとか共分散行列は一旦置い
といて、平均値・分散値で考えさせて下さい。	
  
•  本資料は一部、教科書に記載のない、作成者の解釈
による内容を含んでいます。
【STEP1】10.4.1	
  節と全体像	
 
そもそも確率モデルとは何か?確率モデルによるクラ
スタリングとは何をすることなのか理解しましょう。	
  
	
  
【目標!】	
  
•  ハードクラスタリングとの違いを理解する	
  
•  確率モデルについて理解する	
  
•  混合正規分布とそのパラメータについて理解する	
  
•  確率モデルによるクラスタリングとは具体的に何を
求めることなのかについて理解する	
  
確率モデルによるクラスタリング	
 
•  ハードクラスタリング	
  
•  一つのデータは一つのクラスタにのみ分類される	
  
•  クラスタリング結果例	
  
•  データ1はクラスタA	
  
•  データ2はクラスタB	
  

•  確率モデルによるクラスタリング	
  
•  所属するクラスタは確率的に定められる	
  
•  クラスタリング結果例	
  (クラスタ数	
  =	
  3)	
  
•  データ1はクラスタ	
 [A,B,C]	
  に	
  [0.8,0.1,0.1]	
  の確率で
所属する	
  
•  データ2はクラスタ	
 [A,B,C]	
  に	
  [0.1,0.3,0.6]	
  の確率で
所属する	
  

•  「確率モデル」ってなんすか??(次ページ)	
  
クラスタリングにおける確率モデル	
 
•  モデルとして仮定するもの	
  
1.  クラスタ毎のデータ分布モデル	
  
2.  [1]	
  の線形和によって表現される全体のデータ分布モデル	
  

•  よく使われるのは混合正規分布モデル	
  
(%)	
  
	
  
モデルの例	
  
・一次元正規分布	
  
・3クラスタ	
  

x	
  :	
  観測データ	
  
混合正規分布モデルのパラメータ	
 
•  各クラスタの正規分布パラメータ	
  
•  μk	
  :	
  平均	
  
•  Σk	
  :	
  分散(標準偏差でも可)	
  

•  混合するために必要なパラメータ	
  
•  πk	
  :	
  クラスタ毎の正規分布の混合比	
  
混合正規分布	
 

クラスタ1	
  

=	
  π1	
  ×	
  

分散:Σ1	
  	
  

クラスタ3	
  
+	
  	
  π3	
  ×	
  

+	
  	
  π2	
  ×	
  
平均:μ1	
  	
  

せん・けい・わ!	
  

クラスタ2	
  

平均:μ2	
  	
  
分散:Σ2	
  	
  

平均:μ3	
  	
  
分散:Σ3	
  	
  
ちなみに・・	
 
•  本資料の確率モデル図はExcel	
  で下記の通り作成	
  
•  9パラメータでモデルが決定しているのがわかる	
  
•  パラメータを色々変えてモデルの変化をみると面白い
かも・・	
  
•  こちらから	
  DL	
  可能	
  -­‐>	
  hNp://bit.ly/1eJCa4i	
  
	
  
確率モデル(混合正規分布モデル)	
  
によるクラスタリングとは?	
 
•  下記の2つを行うこと	
  
1.  観測データを最もよく表現する確率モデルを推定	
  
•  確率モデルのパラメータ推定(平均・分散・混合比)	
  

2.  推定したモデルによって各データのクラスタを推定	
  
•  各データが各クラスタに所属する確率の演算	
  
•  演算する確率の数は	
  [データ数]	
  ×	
  [クラスタ数]	
  	
  

•  [1][2]の推定を交互に実施し、最適なモデル推定を行
うのが	
  EM	
  アルゴリズム(後述)	
  

x1	
  :	
  [A,B,C]	
  =	
  [0.8,	
  0.1,	
  0.1]	
  
x2	
  :	
  [A,B,C]	
  =	
  [0.1,	
  0.6,	
  0.3]	
  
x3	
  :	
  [A,B,C]	
  =	
  [0.3,	
  0.3,	
  0.4]	
 

[1]Mステップ	
 

[2]Eステップ
【STEP2】10.4.2	
  節〜10.4.4	
  節	
 
確率モデルの推定、確率モデルを用いたクラスタリン
グを実施するための準備。	
  
そのための各種定義について理解しましょう。	
  
	
  
【目標!】	
  
•  各データが所属するクラスタの状態を表現するため
の隠れ変数について理解する	
 
•  モデルパラメータの最尤推定を実施するために・・	
 
•  完全データの定義について理解する	
  
•  確率モデルの尤度について理解する	
  
•  確率モデルのパラメータを最尤推定するための	
 Q	
  関数につ
いて理解する	
  
隠れ変数	
 
•  実際に観測されたデータがどのクラスタに属するか
表現するためのベクトル変数	
  

• z	
  =	
  (z1,z2,z3,・・・,zK)	
  
•  K	
  :	
  クラスタ数	
  
•  データがクラスタk	
  に所属している状態の場合	
  

• z	
  =	
  (0,0,0,・,1,・・,0)	
  	
  →	
  zk	
  =	
  1	
  
k番目	
 

•  p(zk	
  =	
  1)	
  =	
  πk	
  
•  モデル条件下で、k	
  番目のクラスタに所属する確
率はそのクラスタの混合比に一致するため。(教科
書には記載無し。@_kobacky	
  による解釈。)
分布の演算:p(z),	
  p(x|z)	
  ,	
  p(x)	
 
•  式(10.14)	
  〜	
  式(10.17)	
  	
  でやっていること	
  
モデルに従ってxの分布・x
のzに関する条件付き分布
を演算	
  
(図はx=0.6	
  での演算例)	
  
p(z)	
  の分布→	
   ①p(z1=1)=π1	
  	
  

④p(x|z1=1)	
  	
  

クラスタ1	
  

p(x)	
  =	
  ①X④	
  +	
  ②X⑤	
  +	
  ③X⑥	
  	
  
②p(z2=1)=π2	
  	
  

⑤p(x|z2=1)	
  	
  

クラスタ2	
  

③p(z3=1)=π3	
  	
  

⑥p(x|z3=1)	
  	
  

クラスタ3	
  
隠れ変数の事後確率:γ(zk)	
 
•  式(10.18)の演算:γ(z)	
  =	
  p(z)	
  ×	
  p(x	
  |	
  z)	
  /	
  p(x)	
  
k=1	
  (クラスタ1)の場合	
  

γ(z1)	
  =	
  ①X④	
  /	
  ⑦	
  
	
  

p(z)	
  の分布→	
   ①p(z1=1)=π1	
  	
  

④p(x|z1=1)	
  	
  

クラスタ1	
  

⑦	
  p(x)	
  =	
  ①X④	
  +	
  ②X⑤	
  +	
  ③X⑥	
  	
  

②p(z2=1)=π2	
  	
  

⑤p(x|z2=1)	
  	
  

クラスタ2	
  

③p(z3=1)=π3	
  	
  

⑥p(x|z3=1)	
  	
  

クラスタ3	
  
隠れ変数の事後確率:γ(zk)	
 
•  式(10.18)の演算:γ(z)	
  =	
  p(z)	
  ×	
  p(x	
  |	
  z)	
  /	
  p(x)	
  
k=2	
  (クラスタ2)の場合	
  

γ(z2)	
  =	
  ②X⑤	
  /	
  ⑦	
  
	
  

p(z)	
  の分布→	
   ①p(z1=1)=π1	
  	
  

④p(x|z1=1)	
  	
  

クラスタ1	
  

⑦	
  p(x)	
  =	
  ①X④	
  +	
  ②X⑤	
  +	
  ③X⑥	
  	
  

②p(z2=1)=π2	
  	
  

⑤p(x|z2=1)	
  	
  

クラスタ2	
  

③p(z3=1)=π3	
  	
  

⑥p(x|z3=1)	
  	
  

クラスタ3	
  
隠れ変数の事後確率:γ(zk)	
 
•  式(10.18)の演算:γ(z)	
  =	
  p(z)	
  ×	
  p(x	
  |	
  z)	
  /	
  p(x)	
  
k=3	
  (クラスタ3)の場合	
  

γ(z3)	
  =	
  ③X⑥	
  /	
  ⑦	
  
	
  

p(z)	
  の分布→	
   ①p(z1=1)=π1	
  	
  

④p(x|z1=1)	
  	
  

クラスタ1	
  

⑦	
  p(x)	
  =	
  ①X④	
  +	
  ②X⑤	
  +	
  ③X⑥	
  	
  

②p(z2=1)=π2	
  	
  

⑤p(x|z2=1)	
  	
  

クラスタ2	
  

③p(z3=1)=π3	
  	
  

⑥p(x|z3=1)	
  	
  

クラスタ3	
  
隠れ変数に関連して考えたこと	
 
•  データx	
  の隠れ変数z	
  (zk=1)に関する事後確率は、こ
のモデルにおいて	
  x	
  が	
  k番目のクラスタに所属する
確率を示している。	
  
•  	
  前頁までの例において、Σk=1,2,3(γ(zk))	
  =	
  1	
  となること
がわかる。
完全データ	
 
•  データの集合:X	
  
•  X	
  =	
  (x1,x2,・・・,xN)	
  	
  	
  xi	
  =	
  (xi1,xi2,・・・,xid)の転置ベクトル	
  

•  隠れ変数の集合:Z	
  
•  Z	
  =	
  (z1,z2,・・・,zN)	
  	
  	
  zi	
  =	
  (zi1,zi2,・・・,ziK)の転置ベクトル	
  

•  変数定義	
  
•  N	
  :	
  観測データの個数	
  
•  d	
  :	
  観測データの次元数	
  
•  K	
  :	
  クラスタ数	
  

•  完全データ:Y	
  
•  Y	
  =	
  (X,Z)	
  
•  データと隠れ変数を合わせた集合
完全データの尤度	
 
•  完全データの尤度が最大となるように確率モデルに
おけるパラメータを最適化する。	
  
•  完全データの尤度	
  
•  Y	
  =	
  (X,Z)	
  の同時確率	
  

式	
  (10.19)	
  

特定の隠れ変数集合が	
  
生起する確率	
 

xi	
  がクラスタk	
  に属す
る場合のxi	
  生起確率	
 

特定の隠れ変数集合下で
観測データが観測される
確率	
 

確率的に定まる	
  0	
  or	
  1
完全データの対数尤度	
 
•  最尤推定値を求めるために対数尤度関数に変換	
  
•  確率分布関数は対数を取った方が微分しやすい(最尤推定
に関する詳細は	
  4.3節	
 参照)	
  

z

•  ただし隠れ変数	
  ik	
  は確率的に定まるため、この対数尤度
関数から直接最尤推定値を求めることはできない。	
  
•  最尤推定:観測データから、最も尤もらしいモデルのパラ
メータを推定する。	
  
式	
  (10.20)	
  

1かもしれないし、	
  
0かもしれない。
Q	
  関数	
 
•  Q	
  関数	
  
•  対数尤度関数の、隠れ変数に関する期待値	
  
•  対数尤度関数の代わりに最尤推定に用いる	
  
式	
  (10.21)	
  

zik	
  の	
 zik	
  に関する	
  
期待値	
 

式	
  (10.22)	
  

Zik	
  =	
  0	
  の項は全て	
  0	
  になり、
zik=	
  1	
  の項のみ残る	
 

隠れ変数	
 zi	
  の事後確率
Q	
  関数	
 
式	
  (10.23)	
  

モデルが決定すれば
値が定まる
【STEP3】10.4.5	
  節〜10.4.7	
  節	
 
確率モデルのパラメータ推定の方法について学びます。	
  
	
  
【目標!】	
  
•  EM	
  アルゴリズムの考え方を理解する	
  
•  「EM	
  アルゴリズムのパラメータ推定が	
  Q	
  関数の微
分を使ってできるんだなぁ・・へぇ〜」と思う	
  
•  カルバック・ライブラー情報量とは何かを知る	
  
•  EM	
  アルゴリズムにより、モデルによる分布と真の
分布が近づいて行くイメージを持つ	
  
EM	
  アルゴリズム	
 
•  確率モデルのパラメータの最尤推定値を求める手法	
  
•  2種類のステップを交互に実施	
  
1.  Expectafon	
  ステップ(③)	
  
•  確率モデルのパラメータを固定	
  
•  固定された確率モデル下における隠れ変数の事後確率を演算	
  

2.  Maximizafon	
  ステップ(①②)	
  
•  E	
  ステップで得た隠れ変数の事後確率を	
  Q	
  関数に代入	
  
•  Q	
  関数を最大にする	
  (確率モデルの)パラメータを求める	
  

•  Q	
  関数の対数尤度が収束するまで繰り返す	
  
•  局所解には注意。初期値を変えて何度か実施すると良い。	
 

γ11	
  =	
  0.3,	
  γ12	
  =	
  0.4,	
  γ13	
  =	
  0.3	
  
γ21	
  =	
  0.6,	
  γ22	
  =	
  0.1,	
  γ23	
  =	
  0.3	
  
γ31	
  =	
  0.2,	
  γ32	
  =	
  0.7,	
  γ33	
  =	
  0.1	
  

①代入	
 

③演算	
 

②パラメータ
最尤値推定	
 
Q関数が	
  
収束したら	
 

完
EM	
  アルゴリズムの式	
 
•  E	
  ステップ	
  

•  M	
  ステップ	
  
k番目のクラスタ
に属するデータ数
の推定値	
 
平均・分散・混合比
の定義に対して納得
感のある式になって
いると思う。
EM	
  アルゴリズムの式の導出	
 
・・・は、割愛します。	
  
気になる方は	
  10.4.6	
  節をご参照下さい。	
  m(_	
  _)m	
  
•  μk	
  や	
 Σk	
  の推定は、	
  Q	
  関数の(推定対象パラメータに
よる)偏微分	
  =	
  0	
  となるようなパラメータを求めるこ
とで行う。	
  
•  πk	
  の推定はラグランジュ関数とか使ってなんかやっ
てます。。	
  
EM	
  アルゴリズムの性質(1)	
 
•  p(X|θ)	
  =	
  p(X,Z)	
  /	
  p(Z|X,	
  θ)	
  	
  
• 
• 
• 
• 

X	
  :	
 観測データ集合	
  
Z	
  :	
 観測データ集合X	
  に対する隠れ変数集合	
  
θ	
  :	
 確率モデルのパラメータ集合	
  
p(X	
  |	
  θ):パラメータθの確率モデル下における観測データX
の尤度	
  

•  対数尤度	
  =	
  lnp(X|θ)	
  =	
  ・・・	
  =	
  L(q|θ)	
  +	
  KL(q||p)	
  
•  q(Z)	
  :	
  Z	
  に関する任意の分布	
  
•  L(q|θ)	
  =	
  ΣZq(Z)ln(p(X,Z|θ)	
  /	
  q(Z))	
  
•  KL(q||p)	
  =	
  ΣZq(Z)ln(q(Z)	
  /	
  p(Z|X,θ))	
  
•  カルバック・ライブラー情報量	
  
•  真の分布q(Z)	
  と	
  (確率モデル・観測データを元に得られる)事後
分布p(Z|X,θ)	
  の確率変数間の距離(正の値)を表す	
  
EM	
  アルゴリズムの性質(2)	
 
•  L(q|θ)	
  を最大化することで、KL(q||p)	
  を小さくする、
つまり、p(モデルによる隠れ変数の分布)をq(真の分
布)に近づける。	
  
•  E	
  ステップではθを固定して	
  q	
  に関して	
 L(q|θ)	
  を最大化	
  
•  M	
  ステップでは最大化されたqを用いてθに関してL(q|θ)を最
大化。	
  
•  モデルによる隠れ変数の分布が真の分布に近づく。	
  
EステップではL	
  を最大化す
ることでこのラインを上に
押し上げたい!	
  

•  ステップ毎にQ関数の値が大きくなることが示されている。	
  
ありがとうございました!

More Related Content

What's hot

変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
 
数式を使わずイメージで理解するEMアルゴリズム
数式を使わずイメージで理解するEMアルゴリズム数式を使わずイメージで理解するEMアルゴリズム
数式を使わずイメージで理解するEMアルゴリズム
裕樹 奥田
 

What's hot (20)

PRML輪読#3
PRML輪読#3PRML輪読#3
PRML輪読#3
 
ICML 2020 最適輸送まとめ
ICML 2020 最適輸送まとめICML 2020 最適輸送まとめ
ICML 2020 最適輸送まとめ
 
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
 
サポートベクトルマシン(SVM)の勉強
サポートベクトルマシン(SVM)の勉強サポートベクトルマシン(SVM)の勉強
サポートベクトルマシン(SVM)の勉強
 
数式を使わずイメージで理解するEMアルゴリズム
数式を使わずイメージで理解するEMアルゴリズム数式を使わずイメージで理解するEMアルゴリズム
数式を使わずイメージで理解するEMアルゴリズム
 
PRML輪読#6
PRML輪読#6PRML輪読#6
PRML輪読#6
 
はじぱた7章F5up
はじぱた7章F5upはじぱた7章F5up
はじぱた7章F5up
 
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章
 
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半
 
PRML輪読#7
PRML輪読#7PRML輪読#7
PRML輪読#7
 
[PRML] パターン認識と機械学習(第1章:序論)
[PRML] パターン認識と機械学習(第1章:序論)[PRML] パターン認識と機械学習(第1章:序論)
[PRML] パターン認識と機械学習(第1章:序論)
 
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
SMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装するSMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装する
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 

Similar to はじめてのパターン認識輪読会 10章後半

Bishop prml 9.3_wk77_100408-1504
Bishop prml 9.3_wk77_100408-1504Bishop prml 9.3_wk77_100408-1504
Bishop prml 9.3_wk77_100408-1504
Wataru Kishimoto
 
PRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデルPRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデル
Shohei Okada
 
パターン認識 04 混合正規分布
パターン認識 04 混合正規分布パターン認識 04 混合正規分布
パターン認識 04 混合正規分布
sleipnir002
 

Similar to はじめてのパターン認識輪読会 10章後半 (20)

KDD2014 勉強会
KDD2014 勉強会KDD2014 勉強会
KDD2014 勉強会
 
Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3
 
Draftall
DraftallDraftall
Draftall
 
Prml 10 1
Prml 10 1Prml 10 1
Prml 10 1
 
PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)
PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)
PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)
 
PRML輪講用資料10章(パターン認識と機械学習,近似推論法)
PRML輪講用資料10章(パターン認識と機械学習,近似推論法)PRML輪講用資料10章(パターン認識と機械学習,近似推論法)
PRML輪講用資料10章(パターン認識と機械学習,近似推論法)
 
[PRML] パターン認識と機械学習(第3章:線形回帰モデル)
[PRML] パターン認識と機械学習(第3章:線形回帰モデル)[PRML] パターン認識と機械学習(第3章:線形回帰モデル)
[PRML] パターン認識と機械学習(第3章:線形回帰モデル)
 
Bishop prml 9.3_wk77_100408-1504
Bishop prml 9.3_wk77_100408-1504Bishop prml 9.3_wk77_100408-1504
Bishop prml 9.3_wk77_100408-1504
 
異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知
 
みどりぼん読書会 第4章
みどりぼん読書会 第4章みどりぼん読書会 第4章
みどりぼん読書会 第4章
 
PRML10-draft1002
PRML10-draft1002PRML10-draft1002
PRML10-draft1002
 
Oshasta em
Oshasta emOshasta em
Oshasta em
 
PRML_titech 8.1 - 8.2
PRML_titech 8.1 - 8.2PRML_titech 8.1 - 8.2
PRML_titech 8.1 - 8.2
 
PRML2.3.8~2.5 Slides in charge
PRML2.3.8~2.5 Slides in chargePRML2.3.8~2.5 Slides in charge
PRML2.3.8~2.5 Slides in charge
 
PRML輪読#10
PRML輪読#10PRML輪読#10
PRML輪読#10
 
PRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデルPRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデル
 
パターン認識 04 混合正規分布
パターン認識 04 混合正規分布パターン認識 04 混合正規分布
パターン認識 04 混合正規分布
 
【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 16: Metric Predicted Variab...
【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 16: Metric Predicted Variab...【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 16: Metric Predicted Variab...
【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 16: Metric Predicted Variab...
 
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
 
Probabilistic Graphical Models 輪読会 #1
Probabilistic Graphical Models 輪読会 #1Probabilistic Graphical Models 輪読会 #1
Probabilistic Graphical Models 輪読会 #1
 

はじめてのパターン認識輪読会 10章後半

  • 2. 最初のおことわり m(_  _)m •  本資料は教科書を読んで最初????だった   @_kobacky  のような人が勉強するためのとっかかり となることを目標とします。   •  そのため、なるべく分布を図示して考えたいです。 そこで教科書では  d次元のデータについて論じられ ていますが、図や例は一次元データで考えて作成し ています。平均ベクトルとか共分散行列は一旦置い といて、平均値・分散値で考えさせて下さい。   •  本資料は一部、教科書に記載のない、作成者の解釈 による内容を含んでいます。
  • 3. 【STEP1】10.4.1  節と全体像 そもそも確率モデルとは何か?確率モデルによるクラ スタリングとは何をすることなのか理解しましょう。     【目標!】   •  ハードクラスタリングとの違いを理解する   •  確率モデルについて理解する   •  混合正規分布とそのパラメータについて理解する   •  確率モデルによるクラスタリングとは具体的に何を 求めることなのかについて理解する  
  • 4. 確率モデルによるクラスタリング •  ハードクラスタリング   •  一つのデータは一つのクラスタにのみ分類される   •  クラスタリング結果例   •  データ1はクラスタA   •  データ2はクラスタB   •  確率モデルによるクラスタリング   •  所属するクラスタは確率的に定められる   •  クラスタリング結果例  (クラスタ数  =  3)   •  データ1はクラスタ [A,B,C]  に  [0.8,0.1,0.1]  の確率で 所属する   •  データ2はクラスタ [A,B,C]  に  [0.1,0.3,0.6]  の確率で 所属する   •  「確率モデル」ってなんすか??(次ページ)  
  • 5. クラスタリングにおける確率モデル •  モデルとして仮定するもの   1.  クラスタ毎のデータ分布モデル   2.  [1]  の線形和によって表現される全体のデータ分布モデル   •  よく使われるのは混合正規分布モデル   (%)     モデルの例   ・一次元正規分布   ・3クラスタ   x  :  観測データ  
  • 6. 混合正規分布モデルのパラメータ •  各クラスタの正規分布パラメータ   •  μk  :  平均   •  Σk  :  分散(標準偏差でも可)   •  混合するために必要なパラメータ   •  πk  :  クラスタ毎の正規分布の混合比   混合正規分布 クラスタ1   =  π1  ×   分散:Σ1     クラスタ3   +    π3  ×   +    π2  ×   平均:μ1     せん・けい・わ!   クラスタ2   平均:μ2     分散:Σ2     平均:μ3     分散:Σ3    
  • 7. ちなみに・・ •  本資料の確率モデル図はExcel  で下記の通り作成   •  9パラメータでモデルが決定しているのがわかる   •  パラメータを色々変えてモデルの変化をみると面白い かも・・   •  こちらから  DL  可能  -­‐>  hNp://bit.ly/1eJCa4i    
  • 8. 確率モデル(混合正規分布モデル)   によるクラスタリングとは? •  下記の2つを行うこと   1.  観測データを最もよく表現する確率モデルを推定   •  確率モデルのパラメータ推定(平均・分散・混合比)   2.  推定したモデルによって各データのクラスタを推定   •  各データが各クラスタに所属する確率の演算   •  演算する確率の数は  [データ数]  ×  [クラスタ数]     •  [1][2]の推定を交互に実施し、最適なモデル推定を行 うのが  EM  アルゴリズム(後述)   x1  :  [A,B,C]  =  [0.8,  0.1,  0.1]   x2  :  [A,B,C]  =  [0.1,  0.6,  0.3]   x3  :  [A,B,C]  =  [0.3,  0.3,  0.4] [1]Mステップ [2]Eステップ
  • 9. 【STEP2】10.4.2  節〜10.4.4  節 確率モデルの推定、確率モデルを用いたクラスタリン グを実施するための準備。   そのための各種定義について理解しましょう。     【目標!】   •  各データが所属するクラスタの状態を表現するため の隠れ変数について理解する •  モデルパラメータの最尤推定を実施するために・・ •  完全データの定義について理解する   •  確率モデルの尤度について理解する   •  確率モデルのパラメータを最尤推定するための Q  関数につ いて理解する  
  • 10. 隠れ変数 •  実際に観測されたデータがどのクラスタに属するか 表現するためのベクトル変数   • z  =  (z1,z2,z3,・・・,zK)   •  K  :  クラスタ数   •  データがクラスタk  に所属している状態の場合   • z  =  (0,0,0,・,1,・・,0)    →  zk  =  1   k番目 •  p(zk  =  1)  =  πk   •  モデル条件下で、k  番目のクラスタに所属する確 率はそのクラスタの混合比に一致するため。(教科 書には記載無し。@_kobacky  による解釈。)
  • 11. 分布の演算:p(z),  p(x|z)  ,  p(x) •  式(10.14)  〜  式(10.17)    でやっていること   モデルに従ってxの分布・x のzに関する条件付き分布 を演算   (図はx=0.6  での演算例)   p(z)  の分布→   ①p(z1=1)=π1     ④p(x|z1=1)     クラスタ1   p(x)  =  ①X④  +  ②X⑤  +  ③X⑥     ②p(z2=1)=π2     ⑤p(x|z2=1)     クラスタ2   ③p(z3=1)=π3     ⑥p(x|z3=1)     クラスタ3  
  • 12. 隠れ変数の事後確率:γ(zk) •  式(10.18)の演算:γ(z)  =  p(z)  ×  p(x  |  z)  /  p(x)   k=1  (クラスタ1)の場合   γ(z1)  =  ①X④  /  ⑦     p(z)  の分布→   ①p(z1=1)=π1     ④p(x|z1=1)     クラスタ1   ⑦  p(x)  =  ①X④  +  ②X⑤  +  ③X⑥     ②p(z2=1)=π2     ⑤p(x|z2=1)     クラスタ2   ③p(z3=1)=π3     ⑥p(x|z3=1)     クラスタ3  
  • 13. 隠れ変数の事後確率:γ(zk) •  式(10.18)の演算:γ(z)  =  p(z)  ×  p(x  |  z)  /  p(x)   k=2  (クラスタ2)の場合   γ(z2)  =  ②X⑤  /  ⑦     p(z)  の分布→   ①p(z1=1)=π1     ④p(x|z1=1)     クラスタ1   ⑦  p(x)  =  ①X④  +  ②X⑤  +  ③X⑥     ②p(z2=1)=π2     ⑤p(x|z2=1)     クラスタ2   ③p(z3=1)=π3     ⑥p(x|z3=1)     クラスタ3  
  • 14. 隠れ変数の事後確率:γ(zk) •  式(10.18)の演算:γ(z)  =  p(z)  ×  p(x  |  z)  /  p(x)   k=3  (クラスタ3)の場合   γ(z3)  =  ③X⑥  /  ⑦     p(z)  の分布→   ①p(z1=1)=π1     ④p(x|z1=1)     クラスタ1   ⑦  p(x)  =  ①X④  +  ②X⑤  +  ③X⑥     ②p(z2=1)=π2     ⑤p(x|z2=1)     クラスタ2   ③p(z3=1)=π3     ⑥p(x|z3=1)     クラスタ3  
  • 15. 隠れ変数に関連して考えたこと •  データx  の隠れ変数z  (zk=1)に関する事後確率は、こ のモデルにおいて  x  が  k番目のクラスタに所属する 確率を示している。   •   前頁までの例において、Σk=1,2,3(γ(zk))  =  1  となること がわかる。
  • 16. 完全データ •  データの集合:X   •  X  =  (x1,x2,・・・,xN)      xi  =  (xi1,xi2,・・・,xid)の転置ベクトル   •  隠れ変数の集合:Z   •  Z  =  (z1,z2,・・・,zN)      zi  =  (zi1,zi2,・・・,ziK)の転置ベクトル   •  変数定義   •  N  :  観測データの個数   •  d  :  観測データの次元数   •  K  :  クラスタ数   •  完全データ:Y   •  Y  =  (X,Z)   •  データと隠れ変数を合わせた集合
  • 17. 完全データの尤度 •  完全データの尤度が最大となるように確率モデルに おけるパラメータを最適化する。   •  完全データの尤度   •  Y  =  (X,Z)  の同時確率   式  (10.19)   特定の隠れ変数集合が   生起する確率 xi  がクラスタk  に属す る場合のxi  生起確率 特定の隠れ変数集合下で 観測データが観測される 確率 確率的に定まる  0  or  1
  • 18. 完全データの対数尤度 •  最尤推定値を求めるために対数尤度関数に変換   •  確率分布関数は対数を取った方が微分しやすい(最尤推定 に関する詳細は  4.3節 参照)   z •  ただし隠れ変数 ik  は確率的に定まるため、この対数尤度 関数から直接最尤推定値を求めることはできない。   •  最尤推定:観測データから、最も尤もらしいモデルのパラ メータを推定する。   式  (10.20)   1かもしれないし、   0かもしれない。
  • 19. Q  関数 •  Q  関数   •  対数尤度関数の、隠れ変数に関する期待値   •  対数尤度関数の代わりに最尤推定に用いる   式  (10.21)   zik  の zik  に関する   期待値 式  (10.22)   Zik  =  0  の項は全て  0  になり、 zik=  1  の項のみ残る 隠れ変数 zi  の事後確率
  • 20. Q  関数 式  (10.23)   モデルが決定すれば 値が定まる
  • 21. 【STEP3】10.4.5  節〜10.4.7  節 確率モデルのパラメータ推定の方法について学びます。     【目標!】   •  EM  アルゴリズムの考え方を理解する   •  「EM  アルゴリズムのパラメータ推定が  Q  関数の微 分を使ってできるんだなぁ・・へぇ〜」と思う   •  カルバック・ライブラー情報量とは何かを知る   •  EM  アルゴリズムにより、モデルによる分布と真の 分布が近づいて行くイメージを持つ  
  • 22. EM  アルゴリズム •  確率モデルのパラメータの最尤推定値を求める手法   •  2種類のステップを交互に実施   1.  Expectafon  ステップ(③)   •  確率モデルのパラメータを固定   •  固定された確率モデル下における隠れ変数の事後確率を演算   2.  Maximizafon  ステップ(①②)   •  E  ステップで得た隠れ変数の事後確率を  Q  関数に代入   •  Q  関数を最大にする  (確率モデルの)パラメータを求める   •  Q  関数の対数尤度が収束するまで繰り返す   •  局所解には注意。初期値を変えて何度か実施すると良い。 γ11  =  0.3,  γ12  =  0.4,  γ13  =  0.3   γ21  =  0.6,  γ22  =  0.1,  γ23  =  0.3   γ31  =  0.2,  γ32  =  0.7,  γ33  =  0.1   ①代入 ③演算 ②パラメータ 最尤値推定 Q関数が   収束したら 完
  • 23. EM  アルゴリズムの式 •  E  ステップ   •  M  ステップ   k番目のクラスタ に属するデータ数 の推定値 平均・分散・混合比 の定義に対して納得 感のある式になって いると思う。
  • 24. EM  アルゴリズムの式の導出 ・・・は、割愛します。   気になる方は  10.4.6  節をご参照下さい。  m(_  _)m   •  μk  や Σk  の推定は、  Q  関数の(推定対象パラメータに よる)偏微分  =  0  となるようなパラメータを求めるこ とで行う。   •  πk  の推定はラグランジュ関数とか使ってなんかやっ てます。。  
  • 25. EM  アルゴリズムの性質(1) •  p(X|θ)  =  p(X,Z)  /  p(Z|X,  θ)     •  •  •  •  X  : 観測データ集合   Z  : 観測データ集合X  に対する隠れ変数集合   θ  : 確率モデルのパラメータ集合   p(X  |  θ):パラメータθの確率モデル下における観測データX の尤度   •  対数尤度  =  lnp(X|θ)  =  ・・・  =  L(q|θ)  +  KL(q||p)   •  q(Z)  :  Z  に関する任意の分布   •  L(q|θ)  =  ΣZq(Z)ln(p(X,Z|θ)  /  q(Z))   •  KL(q||p)  =  ΣZq(Z)ln(q(Z)  /  p(Z|X,θ))   •  カルバック・ライブラー情報量   •  真の分布q(Z)  と  (確率モデル・観測データを元に得られる)事後 分布p(Z|X,θ)  の確率変数間の距離(正の値)を表す  
  • 26. EM  アルゴリズムの性質(2) •  L(q|θ)  を最大化することで、KL(q||p)  を小さくする、 つまり、p(モデルによる隠れ変数の分布)をq(真の分 布)に近づける。   •  E  ステップではθを固定して  q  に関して L(q|θ)  を最大化   •  M  ステップでは最大化されたqを用いてθに関してL(q|θ)を最 大化。   •  モデルによる隠れ変数の分布が真の分布に近づく。   EステップではL  を最大化す ることでこのラインを上に 押し上げたい!   •  ステップ毎にQ関数の値が大きくなることが示されている。