SlideShare a Scribd company logo
1 of 22
Download to read offline
1




PRML 8章 1節	
発表者 松田
2




Agenda	
•  グラフィカルモデル概論
•  ベイジアンネットワーク
  •  グラフィカルモデル記述のルールについて
 •  多項式曲線フィッティング
    •  1章でみた多項式フィッティングをグラフィカルモデルで表
       してみる
    •  (ここまで分かればたぶんOKです)
 •  生成モデル
 •  離散変数
    •  複雑なモデルにおけるパラメータ数について
 •  線形ガウスモデル
    •  今日は省略
3




グラフィカルモデル概論	
•  確率モデルをグラフで表すことは有用
   •  構造を可視化できる
   •  グラフの構造から、モデルの性質を調べることができ
      る
   •  (HMMなどの)複雑なモデルにおける学習や推論を、
      グラフ上の操作として表現できる
•  グラフとは?
   •  ノード(node, vertex)
  •  確率変数 もしくは確率変数の集合
 •  リンク(link, edge, arc)
    •  確率変数間の関係
 •  の組
4




グラフィカルモデル	
• ベイジアンネットワーク
•  有向グラフ
•  確率変数同士の因果関係
• マルコフ確率場
•  無向グラフ
•  確率変数同士のゆるい束縛関係
 •  具体的には・・・
    •  「となりあったノード同士は近い値をとりやすい」など
5




ベイジアンネットワーク	

 p(a, b, c) = p(c | a, b)p(a, b)
            = p(c | a, b)p(b | a)p(a)!(8.2)


K個の確率変数の上の同時分布は、確率の乗法定理より、以下のように書ける	
p(x1,!, xK ) = p(xK | x1,!, xK!1 )! p(x2 | x1 )p(x1 ) !(8.3)

                     すべてのノードの組がリンクを持つ(全結合)の場合	
                     乗法定理をどの順番で適用するかは任意
6




全結合ではない場合	
             p(x1, x2 ,…x7 ) =
             p(x1 )p(x2 )p(x3 )p(x4 | x1, x2 , x3 )p(x5 | x1, x3 )p(x6 | x4 )p(x7 | x4 , x5 ) !(8.4)
             一般形としては、次の形で表される	
                            K
              p(x) = ∏ p( xk | pak )  (8.5)
                           k =1

   図 8.2	
                            ただしpak:xkの親ノードの集合

ここで考えているのは有向閉路を持たないグラフ(DAG; directed acyclic graph)	


             大きい番号のノードから小さい番号のノードへリンクが存在しない
             ようにノードに番号をふることが可能	
                                   (トポロジカルソートというらしいです:演習8.2)
7




演習 8.1	
          K
p(x) = ! p(xk | pak ) !(8.5)
          k=1
個々の条件付き分布が規格化されていると仮定して、(8.5)が規格化されている
ことを示す。つまり、	
                              K

!...! p(x) = !...!" p(x                  k   | pak ) = 1   を示したい。まずxkについて周辺化	
x1   xK             x1   xK k=1
                                                K"1

!...! p(x) = !...! p(x              K   | paK )# p(xk | pak )
x1   xK             x1   xK                      k=1
                              K"1                          周辺化を
                = !...! # p(xk | pak )                     繰り返していくと最後にx1が残るので、	
                    x1   xK"1 k=1
                              K"2                          ! p(x ) = 1
                                                                 1

                = !... ! # p(xk | pak )                     x1

                    x1   xK"2 k=1                           よって(8.5)は規格化されている。	
                !
8


                                                   a	
         b	
         c	
     p(a,b,c)	
演習 8.3 (1)	
                                       0	
         0	
         0	
      0.192	
                                                   0	
         0	
         1	
      0.144	
p(a, b) ! p(a)p(b) を示す	
                           0	
         1	
         0	
      0.048	
p(a = 1) = 0.192 + 0.064 + 0.048 + 0.096 = 0.4
                                                   0	
         1	
         1	
      0.216	
p(a = 0) = 0.6
                                                   1	
         0	
         0	
      0.192	
p(b = 1) = 0.048 + 0.216 + 0.048 + 0.096 = 0.408
                                                   1	
         0	
         1	
      0.064	
p(b = 0) = 0.592
                                                   1	
         1	
         0	
      0.048	
p(a = 0)p(b = 0) = 0.6 * 0.592 = 0.3552
p(a = 0)p(b = 1) = 0.6 * 0.408 = 0.2448            1	
         1	
      1	
         0.096	
p(a = 1)p(b = 0) = 0.4 * 0.592 = 0.2368                                表 8.2	
p(a = 1)p(b = 1) = 0.4 * 0.408 = 0.1632                  a	
         b	
         p(a,b)	
p(a,b,c)をcに対して周辺化したものと合わないので	
                           0	
         0	
         0.336	
p(a, b) ! p(a)p(b)                                       0	
         1	
         0.264	
                                                         1	
         0	
         0.256	
                                                         1	
         1	
         0.144	

                                                     表 8.2をcに対して周辺化
9


                                                      a	
    b	
     c	
       p(a,b,c)	
 演習 8.3 (2)	
                                         0	
    0	
     0	
        0.192	
                                                      0	
    0	
     1	
        0.144	
p(a, b | c) = p(a | c)p(b | c) を示す	
                                                      0	
    1	
     0	
        0.048	
 a	
   b	
   c	
   p(a,b|c)	
 p(a|c)p(b|c)	
          0	
    1	
     1	
        0.216	
 0	
   0	
   0	
     0.4	
        0.4                 1	
    0	
     0	
        0.192	
 0	
   0	
   1	
   0.2768	
     0.2768	
              1	
    0	
     1	
        0.064	
 0	
   1	
   0	
     0.1	
        0.1	
               1	
    1	
     0	
        0.048	
 0	
   1	
   1	
   0.4152	
     0.4152	
              1	
    1	
     1	
        0.096	
 1	
   0	
   0	
     0.4	
        0.4	
                             表 8.2	
 1	
   0	
   1	
   0.1228	
     0.1228	
 1	
   1	
   0	
     0.1	
        0.1	
        b	
   c	
 p(b|c)	
     a	
     c	
 p(a|c)	

 1	
   1	
   1	
   0.1842	
     0.1842	
       0	
   0	
    0.8	
     0	
     0	
        0.5	
                                               0	
   1	
    0.4	
     0	
     1	
       0.692	
       p(a=1)=0.4, p(a=0)=0.6                  1	
   0	
    0.2	
     1	
     0	
        0.5	
       p(b=1)=0.4, p(b=0)=0.6
                                               1	
   1	
    0.6	
     1	
     1	
       0.307	
       p(c=1)=0.52, p(c=0)=0.48	
                                                       cのもとでの条件付き確率
10


                                                          a	
   b	
    c	
      p(a,b,c)	
 演習 8.4	
                                                 0	
   0	
    0	
       0.192	
                                                          0	
   0	
    1	
       0.144	
p(a, b, c) = p(a)p(c | a)p(b | c)         を計算	
                                                          0	
   1	
    0	
       0.048	
p(a=1)=0.4, p(a=0)=0.6                                    0	
   1	
    1	
       0.216	
 b	
   c	
 p(b|c)	
    a	
   c	
 p(c|a)	
                 1	
   0	
    0	
       0.192	
 0	
   0	
   0.8	
     0	
   0	
         0.4	
            1	
   0	
    1	
       0.064	
 0	
   1	
   0.4	
     0	
   1	
         0.6	
            1	
   1	
    0	
       0.048	
 1	
   0	
   0.2	
     1	
   0	
         0.4	
            1	
   1	
    1	
       0.096	
                       1	
   1	
         0.6	
                        表 8.2	
 1	
   1	
   0.6	


                                   a	
                  c	


                                                       aとbは独立ではないが、
                                                       cで条件付けられることにより独立になる
                                                 b	
   (head-to-tail) => 8章2節で議論
11




8.1.1 多項式曲線フィッティング	
• 観測データtは重みベクトルwに依存する
•  と、ひとまず簡略化
•  多数のノードを陽に書き下すのは不便	
                          N
          p(t, w ) = p(w )∏ p(t n | w )  (8.6)
      w                  n =1

                       プレートの導入	
 t1               tN

                                          ↑プレート
                                          (N個のtがある)

 簡単に書けるようになったので、モデルのパラメータも書きこんでみましょう
12




8.1.1 多項式曲線フィッティング	
モデルのパラメータを書きこむと次のように表せる	
                                N
p(t, w | x, α , σ ) = p(w | α )∏ p(t n | w, xn , σ 2 )
                2

                                n =1
                                            x : 入力データ
                                            σ2 : ノイズの分散
                                            α : wのガウス事前分布のパラメータ	
                                        値が決定しているパラメータ	

                                        隠れ変数(観測されていないが、tが
                                        与えられれば事後分布を求めることができる)	
                                                         N
                                        p(w | t ) ∝ p(w )∏ p(t n | w )  (8.7)
                                                         n =1
                                        観測されたパラメータ
13




8.1.1 多項式曲線フィッティング	
• 最終目的は新しい入力値に対する予測
を行うこと
•  t,xから学習したw
 •  新しい入力x’に対するt’を予測する	

   ˆ                          ⎡ N                    ⎤             ˆ ˆ
 p(t , t, w | x, x, α , σ ) = ⎢∏ p(tn | xn , w, σ 2 )⎥ p(w | α ) p(t | x, w, σ 2 )
              ˆ        2

                              ⎣ n=1                  ⎦
                                                                               ・・・(8.8)	
 実際にベイズ予測を行うには、wを積分消去して	
   ˆ ˆ                          ˆ
 p(t | x, x, t, α , σ 2 ) ∝ ∫ p(t , t, w | x, x,α ,σ 2 )dw
                                           ˆ
                                                            でt’の予測分布が求められる
14




演習 8.5	
• RVMの有向グラフィカルモデル
 •  RVMとは何ぞや、というのはおいておいて・・・	
                   N
 p(t | X, w, ! ) = ! p(tn | x n , w, ! )!(7.79)
                   n=1

             M
 p(w | !) = # ! (wi | 0, " i"1 )!(7.80)
             i=1

X: 入力ベクトルXの行列(N個)
t:対応する出力値
w:パラメータベクトル
α:ガウス事前分布の精度ベクトル(M個)
β:ノイズの分散の逆数(精度)
ただし M = N + 1
15




8.1.2 生成モデル	
•  伝承サンプリング(ancestral sampling)
   •  同時分布に従うサンプルを生成する方法
   •  番号の小さいノードから順番にサンプルを生成
   •  詳しくは後の章で

•  画像が生成される過程を表すグラフィカルモデル
   •  Image(ベクトル)は、Object(離散), Position(連続),
      Orientation(連続)に依存した分布をもつ
   •  Imageが与えられた状態でPositionとOrientationについて積分消
    去することで、Objectに関する事後分布が得られる
 •  物体認識
16




8.1.2 生成モデル	
•  観測データと同じ分布に従う架空のデータを発
生させることができるモデル
 •  架空のデータ:モデルの性質を理解する上で有用
 •  ほんとかな・・・?
•  NLP的には・・・
   •  言語モデル : p(w1,w2,….,wn)に対する生成モデル :
      日本語っぽい文章を生成できる
   •  文書モデル:文書は特定のトピックについて述べられ
      ている、という仮定のもとでの生成モデル
•  Generative-model vs Discriminative-model
   •  このへんにまつわる話は面白いので、研究に支障が
      出ない範囲で調べてみると良いかも
17




8.1.2 生成モデル	
• p77
 •  グラフの末端ノードに対応する大きい番号が
    ふられた変数が観測値を表し、小さい番号
    がふられたノードが潜在変数に対応する
 •  観測された値から、潜在変数の分布を推測
    する問題に落とすことが多い
  •  pLSI(Probabilistic Latent Semantic Indexing)
     •  Hofmann 1999

        M個のドキュメントそれぞれからN個の隠れ変数、といった感じ
18




8.1.3 離散変数	
• パラメータ数について議論	
K個の状態をとりうる離散変数xの確率分布
                        K
           p( x | µ) = ∏ µ kxk  (8.9)
                        k =1                  K-1個のパラメータ	
2つのK状態離散変数x1及びx2がある場合
                               K     K
           p( x1 , x2 | µ) = ∏∏ µ kl1k x2 k
                                  x

                               k =1 l =1      K2-1個のパラメータ	

        変数M個の時:KM-1個のパラメータ→指数的に増大
19




8.1.3 離散変数	

             a) 全結合 パラメータは K2-1個	



             a) 独立と仮定 パラメータは 2(K-1)個	

リンクを除去することによって、パラメータの数を減らすことが可能
ただし、独立と仮定してしまうので、モデルの表現力は減少	




全結合だとパラメータが多すぎる。独立性を仮定しすぎると表現力が失われる。
折衷案として、例えば上のような連鎖を考えると
K-1+(M-1)K(K-1)個のパラメータ ・・・・ O(K2M)
20




8.1.3 離散変数	
• パラメータを減らす別の方法: 共有
•  parameter sharing, parameter tying 	
     p(x i | x i-1 ) が同じパラメータを共有するという考え方	

たとえば、ディリクレ事前分布をそれぞれのノードパラメータに対して導入
それぞれのノードが別々の事前分布を持つモデルはパラメータが多すぎる場合
事前分布を共有することでパラメータ数が削減できる	




                     tying!
21




8.1.4 線形ガウスモデル	
•  省略・・・ (最後のほうだけちょっと読みましょう)	
 ガウス変数xの平均µに関する共役事前分布はガウス分布
 xおよびµ上の同時分布もガウス分布になる

  µ上の分布の平均は事前分布を制御するパラメータなので,
                  超パラメータとみなされる.


超パラメータの値自体が未知なので,超パラメータにも事前分布を導入する.
                            (超事前分布)


   これもガウス分布とすれば,ベイズ的取り扱いが可能
                   →階層ベイズモデルの一例
22




次いってみよう

More Related Content

What's hot

PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門tmtm otm
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデルMasahiro Suzuki
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -tmtm otm
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理Taiji Suzuki
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep LearningSeiya Tokui
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明Haruka Ozaki
 
[DL輪読会]Relational inductive biases, deep learning, and graph networks
[DL輪読会]Relational inductive biases, deep learning, and graph networks[DL輪読会]Relational inductive biases, deep learning, and graph networks
[DL輪読会]Relational inductive biases, deep learning, and graph networksDeep Learning JP
 
AutoEncoderで特徴抽出
AutoEncoderで特徴抽出AutoEncoderで特徴抽出
AutoEncoderで特徴抽出Kai Sasaki
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...joisino
 
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Preferred Networks
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習Eiji Uchibe
 
【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine IntelligenceDeep Learning JP
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion ModelsDeep Learning JP
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
PRML 8.2 条件付き独立性
PRML 8.2 条件付き独立性PRML 8.2 条件付き独立性
PRML 8.2 条件付き独立性sleepy_yoshi
 

What's hot (20)

PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
EMアルゴリズム
EMアルゴリズムEMアルゴリズム
EMアルゴリズム
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
HiPPO/S4解説
HiPPO/S4解説HiPPO/S4解説
HiPPO/S4解説
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 
[DL輪読会]Relational inductive biases, deep learning, and graph networks
[DL輪読会]Relational inductive biases, deep learning, and graph networks[DL輪読会]Relational inductive biases, deep learning, and graph networks
[DL輪読会]Relational inductive biases, deep learning, and graph networks
 
AutoEncoderで特徴抽出
AutoEncoderで特徴抽出AutoEncoderで特徴抽出
AutoEncoderで特徴抽出
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
 
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
PRML 8.2 条件付き独立性
PRML 8.2 条件付き独立性PRML 8.2 条件付き独立性
PRML 8.2 条件付き独立性
 

Similar to 研究室内PRML勉強会 8章1節

Stochastic complexities of reduced rank regression証明概略
 Stochastic complexities of reduced rank regression証明概略 Stochastic complexities of reduced rank regression証明概略
Stochastic complexities of reduced rank regression証明概略Xiangze
 
「トピックモデルによる統計的潜在意味解析」読書会 2章前半
「トピックモデルによる統計的潜在意味解析」読書会 2章前半「トピックモデルによる統計的潜在意味解析」読書会 2章前半
「トピックモデルによる統計的潜在意味解析」読書会 2章前半koba cky
 
Infer net wk77_110613-1523
Infer net wk77_110613-1523Infer net wk77_110613-1523
Infer net wk77_110613-1523Wataru Kishimoto
 
Image interpolation
Image interpolationImage interpolation
Image interpolationKokuiSai
 
量子アニーリングを用いたクラスタ分析
量子アニーリングを用いたクラスタ分析量子アニーリングを用いたクラスタ分析
量子アニーリングを用いたクラスタ分析Shu Tanaka
 

Similar to 研究室内PRML勉強会 8章1節 (8)

Stochastic complexities of reduced rank regression証明概略
 Stochastic complexities of reduced rank regression証明概略 Stochastic complexities of reduced rank regression証明概略
Stochastic complexities of reduced rank regression証明概略
 
「トピックモデルによる統計的潜在意味解析」読書会 2章前半
「トピックモデルによる統計的潜在意味解析」読書会 2章前半「トピックモデルによる統計的潜在意味解析」読書会 2章前半
「トピックモデルによる統計的潜在意味解析」読書会 2章前半
 
Infer net wk77_110613-1523
Infer net wk77_110613-1523Infer net wk77_110613-1523
Infer net wk77_110613-1523
 
Image interpolation
Image interpolationImage interpolation
Image interpolation
 
量子アニーリングを用いたクラスタ分析
量子アニーリングを用いたクラスタ分析量子アニーリングを用いたクラスタ分析
量子アニーリングを用いたクラスタ分析
 
Binary indexed tree
Binary indexed treeBinary indexed tree
Binary indexed tree
 
Ssaw08 0916
Ssaw08 0916Ssaw08 0916
Ssaw08 0916
 
CG2013 06
CG2013 06CG2013 06
CG2013 06
 

More from Koji Matsuda

Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...Koji Matsuda
 
KB + Text => Great KB な論文を多読してみた
KB + Text => Great KB な論文を多読してみたKB + Text => Great KB な論文を多読してみた
KB + Text => Great KB な論文を多読してみたKoji Matsuda
 
Large-Scale Information Extraction from Textual Definitions through Deep Syn...
Large-Scale Information Extraction from Textual Definitions through Deep Syn...Large-Scale Information Extraction from Textual Definitions through Deep Syn...
Large-Scale Information Extraction from Textual Definitions through Deep Syn...Koji Matsuda
 
知識を紡ぐための言語処理と、 そのための言語資源
知識を紡ぐための言語処理と、そのための言語資源知識を紡ぐための言語処理と、そのための言語資源
知識を紡ぐための言語処理と、 そのための言語資源Koji Matsuda
 
「今日から使い切る」 ための GNU Parallel による並列処理入門
「今日から使い切る」ための GNU Parallelによる並列処理入門「今日から使い切る」ための GNU Parallelによる並列処理入門
「今日から使い切る」 ための GNU Parallel による並列処理入門Koji Matsuda
 
場所参照表現タグ付きコーパスの 構築と評価
場所参照表現タグ付きコーパスの構築と評価 場所参照表現タグ付きコーパスの構築と評価
場所参照表現タグ付きコーパスの 構築と評価 Koji Matsuda
 
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介Koji Matsuda
 
いまさら聞けない “モデル” の話 @DSIRNLP#5
いまさら聞けない “モデル” の話 @DSIRNLP#5いまさら聞けない “モデル” の話 @DSIRNLP#5
いまさら聞けない “モデル” の話 @DSIRNLP#5Koji Matsuda
 
Practical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architecturesPractical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architecturesKoji Matsuda
 
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk  : A Unified Approach forMeasuring Semantic Simil...Align, Disambiguate and Walk  : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...Koji Matsuda
 
Joint Modeling of a Matrix with Associated Text via Latent Binary Features
Joint Modeling of a Matrix with Associated Text via Latent Binary FeaturesJoint Modeling of a Matrix with Associated Text via Latent Binary Features
Joint Modeling of a Matrix with Associated Text via Latent Binary FeaturesKoji Matsuda
 
Vanishing Component Analysis
Vanishing Component AnalysisVanishing Component Analysis
Vanishing Component AnalysisKoji Matsuda
 
A Machine Learning Framework for Programming by Example
A Machine Learning Framework for Programming by ExampleA Machine Learning Framework for Programming by Example
A Machine Learning Framework for Programming by ExampleKoji Matsuda
 
Information-Theoretic Metric Learning
Information-Theoretic Metric LearningInformation-Theoretic Metric Learning
Information-Theoretic Metric LearningKoji Matsuda
 
Unified Expectation Maximization
Unified Expectation MaximizationUnified Expectation Maximization
Unified Expectation MaximizationKoji Matsuda
 
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)Koji Matsuda
 
研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節Koji Matsuda
 
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)Koji Matsuda
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPKoji Matsuda
 

More from Koji Matsuda (19)

Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
 
KB + Text => Great KB な論文を多読してみた
KB + Text => Great KB な論文を多読してみたKB + Text => Great KB な論文を多読してみた
KB + Text => Great KB な論文を多読してみた
 
Large-Scale Information Extraction from Textual Definitions through Deep Syn...
Large-Scale Information Extraction from Textual Definitions through Deep Syn...Large-Scale Information Extraction from Textual Definitions through Deep Syn...
Large-Scale Information Extraction from Textual Definitions through Deep Syn...
 
知識を紡ぐための言語処理と、 そのための言語資源
知識を紡ぐための言語処理と、そのための言語資源知識を紡ぐための言語処理と、そのための言語資源
知識を紡ぐための言語処理と、 そのための言語資源
 
「今日から使い切る」 ための GNU Parallel による並列処理入門
「今日から使い切る」ための GNU Parallelによる並列処理入門「今日から使い切る」ための GNU Parallelによる並列処理入門
「今日から使い切る」 ための GNU Parallel による並列処理入門
 
場所参照表現タグ付きコーパスの 構築と評価
場所参照表現タグ付きコーパスの構築と評価 場所参照表現タグ付きコーパスの構築と評価
場所参照表現タグ付きコーパスの 構築と評価
 
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
 
いまさら聞けない “モデル” の話 @DSIRNLP#5
いまさら聞けない “モデル” の話 @DSIRNLP#5いまさら聞けない “モデル” の話 @DSIRNLP#5
いまさら聞けない “モデル” の話 @DSIRNLP#5
 
Practical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architecturesPractical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architectures
 
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk  : A Unified Approach forMeasuring Semantic Simil...Align, Disambiguate and Walk  : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
 
Joint Modeling of a Matrix with Associated Text via Latent Binary Features
Joint Modeling of a Matrix with Associated Text via Latent Binary FeaturesJoint Modeling of a Matrix with Associated Text via Latent Binary Features
Joint Modeling of a Matrix with Associated Text via Latent Binary Features
 
Vanishing Component Analysis
Vanishing Component AnalysisVanishing Component Analysis
Vanishing Component Analysis
 
A Machine Learning Framework for Programming by Example
A Machine Learning Framework for Programming by ExampleA Machine Learning Framework for Programming by Example
A Machine Learning Framework for Programming by Example
 
Information-Theoretic Metric Learning
Information-Theoretic Metric LearningInformation-Theoretic Metric Learning
Information-Theoretic Metric Learning
 
Unified Expectation Maximization
Unified Expectation MaximizationUnified Expectation Maximization
Unified Expectation Maximization
 
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
 
研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節
 
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
 

研究室内PRML勉強会 8章1節

  • 2. 2 Agenda •  グラフィカルモデル概論 •  ベイジアンネットワーク •  グラフィカルモデル記述のルールについて •  多項式曲線フィッティング •  1章でみた多項式フィッティングをグラフィカルモデルで表 してみる •  (ここまで分かればたぶんOKです) •  生成モデル •  離散変数 •  複雑なモデルにおけるパラメータ数について •  線形ガウスモデル •  今日は省略
  • 3. 3 グラフィカルモデル概論 •  確率モデルをグラフで表すことは有用 •  構造を可視化できる •  グラフの構造から、モデルの性質を調べることができ る •  (HMMなどの)複雑なモデルにおける学習や推論を、 グラフ上の操作として表現できる •  グラフとは? •  ノード(node, vertex) •  確率変数 もしくは確率変数の集合 •  リンク(link, edge, arc) •  確率変数間の関係 •  の組
  • 4. 4 グラフィカルモデル • ベイジアンネットワーク •  有向グラフ •  確率変数同士の因果関係 • マルコフ確率場 •  無向グラフ •  確率変数同士のゆるい束縛関係 •  具体的には・・・ •  「となりあったノード同士は近い値をとりやすい」など
  • 5. 5 ベイジアンネットワーク p(a, b, c) = p(c | a, b)p(a, b) = p(c | a, b)p(b | a)p(a)!(8.2) K個の確率変数の上の同時分布は、確率の乗法定理より、以下のように書ける p(x1,!, xK ) = p(xK | x1,!, xK!1 )! p(x2 | x1 )p(x1 ) !(8.3) すべてのノードの組がリンクを持つ(全結合)の場合 乗法定理をどの順番で適用するかは任意
  • 6. 6 全結合ではない場合 p(x1, x2 ,…x7 ) = p(x1 )p(x2 )p(x3 )p(x4 | x1, x2 , x3 )p(x5 | x1, x3 )p(x6 | x4 )p(x7 | x4 , x5 ) !(8.4) 一般形としては、次の形で表される K p(x) = ∏ p( xk | pak )  (8.5) k =1 図 8.2 ただしpak:xkの親ノードの集合 ここで考えているのは有向閉路を持たないグラフ(DAG; directed acyclic graph) 大きい番号のノードから小さい番号のノードへリンクが存在しない ようにノードに番号をふることが可能 (トポロジカルソートというらしいです:演習8.2)
  • 7. 7 演習 8.1 K p(x) = ! p(xk | pak ) !(8.5) k=1 個々の条件付き分布が規格化されていると仮定して、(8.5)が規格化されている ことを示す。つまり、 K !...! p(x) = !...!" p(x k | pak ) = 1 を示したい。まずxkについて周辺化 x1 xK x1 xK k=1 K"1 !...! p(x) = !...! p(x K | paK )# p(xk | pak ) x1 xK x1 xK k=1 K"1 周辺化を = !...! # p(xk | pak ) 繰り返していくと最後にx1が残るので、 x1 xK"1 k=1 K"2 ! p(x ) = 1 1 = !... ! # p(xk | pak ) x1 x1 xK"2 k=1 よって(8.5)は規格化されている。 !
  • 8. 8 a b c p(a,b,c) 演習 8.3 (1) 0 0 0 0.192 0 0 1 0.144 p(a, b) ! p(a)p(b) を示す 0 1 0 0.048 p(a = 1) = 0.192 + 0.064 + 0.048 + 0.096 = 0.4 0 1 1 0.216 p(a = 0) = 0.6 1 0 0 0.192 p(b = 1) = 0.048 + 0.216 + 0.048 + 0.096 = 0.408 1 0 1 0.064 p(b = 0) = 0.592 1 1 0 0.048 p(a = 0)p(b = 0) = 0.6 * 0.592 = 0.3552 p(a = 0)p(b = 1) = 0.6 * 0.408 = 0.2448 1 1 1 0.096 p(a = 1)p(b = 0) = 0.4 * 0.592 = 0.2368 表 8.2 p(a = 1)p(b = 1) = 0.4 * 0.408 = 0.1632 a b p(a,b) p(a,b,c)をcに対して周辺化したものと合わないので 0 0 0.336 p(a, b) ! p(a)p(b) 0 1 0.264 1 0 0.256 1 1 0.144 表 8.2をcに対して周辺化
  • 9. 9 a b c p(a,b,c) 演習 8.3 (2) 0 0 0 0.192 0 0 1 0.144 p(a, b | c) = p(a | c)p(b | c) を示す 0 1 0 0.048 a b c p(a,b|c) p(a|c)p(b|c) 0 1 1 0.216 0 0 0 0.4 0.4 1 0 0 0.192 0 0 1 0.2768 0.2768 1 0 1 0.064 0 1 0 0.1 0.1 1 1 0 0.048 0 1 1 0.4152 0.4152 1 1 1 0.096 1 0 0 0.4 0.4 表 8.2 1 0 1 0.1228 0.1228 1 1 0 0.1 0.1 b c p(b|c) a c p(a|c) 1 1 1 0.1842 0.1842 0 0 0.8 0 0 0.5 0 1 0.4 0 1 0.692 p(a=1)=0.4, p(a=0)=0.6 1 0 0.2 1 0 0.5 p(b=1)=0.4, p(b=0)=0.6 1 1 0.6 1 1 0.307 p(c=1)=0.52, p(c=0)=0.48 cのもとでの条件付き確率
  • 10. 10 a b c p(a,b,c) 演習 8.4 0 0 0 0.192 0 0 1 0.144 p(a, b, c) = p(a)p(c | a)p(b | c) を計算 0 1 0 0.048 p(a=1)=0.4, p(a=0)=0.6 0 1 1 0.216 b c p(b|c) a c p(c|a) 1 0 0 0.192 0 0 0.8 0 0 0.4 1 0 1 0.064 0 1 0.4 0 1 0.6 1 1 0 0.048 1 0 0.2 1 0 0.4 1 1 1 0.096 1 1 0.6 表 8.2 1 1 0.6 a c aとbは独立ではないが、 cで条件付けられることにより独立になる b (head-to-tail) => 8章2節で議論
  • 11. 11 8.1.1 多項式曲線フィッティング • 観測データtは重みベクトルwに依存する •  と、ひとまず簡略化 •  多数のノードを陽に書き下すのは不便 N p(t, w ) = p(w )∏ p(t n | w )  (8.6) w n =1 プレートの導入 t1 tN ↑プレート (N個のtがある) 簡単に書けるようになったので、モデルのパラメータも書きこんでみましょう
  • 12. 12 8.1.1 多項式曲線フィッティング モデルのパラメータを書きこむと次のように表せる N p(t, w | x, α , σ ) = p(w | α )∏ p(t n | w, xn , σ 2 ) 2 n =1 x : 入力データ σ2 : ノイズの分散 α : wのガウス事前分布のパラメータ 値が決定しているパラメータ 隠れ変数(観測されていないが、tが 与えられれば事後分布を求めることができる) N p(w | t ) ∝ p(w )∏ p(t n | w )  (8.7) n =1 観測されたパラメータ
  • 13. 13 8.1.1 多項式曲線フィッティング • 最終目的は新しい入力値に対する予測 を行うこと •  t,xから学習したw •  新しい入力x’に対するt’を予測する ˆ ⎡ N ⎤ ˆ ˆ p(t , t, w | x, x, α , σ ) = ⎢∏ p(tn | xn , w, σ 2 )⎥ p(w | α ) p(t | x, w, σ 2 ) ˆ 2 ⎣ n=1 ⎦ ・・・(8.8) 実際にベイズ予測を行うには、wを積分消去して ˆ ˆ ˆ p(t | x, x, t, α , σ 2 ) ∝ ∫ p(t , t, w | x, x,α ,σ 2 )dw ˆ でt’の予測分布が求められる
  • 14. 14 演習 8.5 • RVMの有向グラフィカルモデル •  RVMとは何ぞや、というのはおいておいて・・・ N p(t | X, w, ! ) = ! p(tn | x n , w, ! )!(7.79) n=1 M p(w | !) = # ! (wi | 0, " i"1 )!(7.80) i=1 X: 入力ベクトルXの行列(N個) t:対応する出力値 w:パラメータベクトル α:ガウス事前分布の精度ベクトル(M個) β:ノイズの分散の逆数(精度) ただし M = N + 1
  • 15. 15 8.1.2 生成モデル •  伝承サンプリング(ancestral sampling) •  同時分布に従うサンプルを生成する方法 •  番号の小さいノードから順番にサンプルを生成 •  詳しくは後の章で •  画像が生成される過程を表すグラフィカルモデル •  Image(ベクトル)は、Object(離散), Position(連続), Orientation(連続)に依存した分布をもつ •  Imageが与えられた状態でPositionとOrientationについて積分消 去することで、Objectに関する事後分布が得られる •  物体認識
  • 16. 16 8.1.2 生成モデル •  観測データと同じ分布に従う架空のデータを発 生させることができるモデル •  架空のデータ:モデルの性質を理解する上で有用 •  ほんとかな・・・? •  NLP的には・・・ •  言語モデル : p(w1,w2,….,wn)に対する生成モデル : 日本語っぽい文章を生成できる •  文書モデル:文書は特定のトピックについて述べられ ている、という仮定のもとでの生成モデル •  Generative-model vs Discriminative-model •  このへんにまつわる話は面白いので、研究に支障が 出ない範囲で調べてみると良いかも
  • 17. 17 8.1.2 生成モデル • p77 •  グラフの末端ノードに対応する大きい番号が ふられた変数が観測値を表し、小さい番号 がふられたノードが潜在変数に対応する •  観測された値から、潜在変数の分布を推測 する問題に落とすことが多い •  pLSI(Probabilistic Latent Semantic Indexing) •  Hofmann 1999 M個のドキュメントそれぞれからN個の隠れ変数、といった感じ
  • 18. 18 8.1.3 離散変数 • パラメータ数について議論 K個の状態をとりうる離散変数xの確率分布 K p( x | µ) = ∏ µ kxk  (8.9) k =1 K-1個のパラメータ 2つのK状態離散変数x1及びx2がある場合 K K p( x1 , x2 | µ) = ∏∏ µ kl1k x2 k x k =1 l =1 K2-1個のパラメータ 変数M個の時:KM-1個のパラメータ→指数的に増大
  • 19. 19 8.1.3 離散変数 a) 全結合 パラメータは K2-1個 a) 独立と仮定 パラメータは 2(K-1)個 リンクを除去することによって、パラメータの数を減らすことが可能 ただし、独立と仮定してしまうので、モデルの表現力は減少 全結合だとパラメータが多すぎる。独立性を仮定しすぎると表現力が失われる。 折衷案として、例えば上のような連鎖を考えると K-1+(M-1)K(K-1)個のパラメータ ・・・・ O(K2M)
  • 20. 20 8.1.3 離散変数 • パラメータを減らす別の方法: 共有 •  parameter sharing, parameter tying p(x i | x i-1 ) が同じパラメータを共有するという考え方 たとえば、ディリクレ事前分布をそれぞれのノードパラメータに対して導入 それぞれのノードが別々の事前分布を持つモデルはパラメータが多すぎる場合 事前分布を共有することでパラメータ数が削減できる tying!
  • 21. 21 8.1.4 線形ガウスモデル •  省略・・・ (最後のほうだけちょっと読みましょう) ガウス変数xの平均µに関する共役事前分布はガウス分布 xおよびµ上の同時分布もガウス分布になる µ上の分布の平均は事前分布を制御するパラメータなので, 超パラメータとみなされる. 超パラメータの値自体が未知なので,超パラメータにも事前分布を導入する. (超事前分布) これもガウス分布とすれば,ベイズ的取り扱いが可能 →階層ベイズモデルの一例