Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

逐次ベイズ学習 - サンプリング近似法の場合 -

12,034 views

Published on

第 5 回『トピックモデルによる統計的潜在意味解析』読書会での発表資料です。

スライド 41 ページの説明は誤っていると思われるので取り消します。

Published in: Technology
  • Follow the link, new dating source: ❤❤❤ http://bit.ly/39sFWPG ❤❤❤
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Dating direct: ❶❶❶ http://bit.ly/39sFWPG ❶❶❶
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • ..............ACCESS that WEBSITE Over for All Ebooks ................ ......................................................................................................................... DOWNLOAD FULL PDF EBOOK here { https://urlzs.com/UABbn } ......................................................................................................................... Download Full EPUB Ebook here { https://urlzs.com/UABbn } .........................................................................................................................
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • ..............ACCESS that WEBSITE Over for All Ebooks ................ ......................................................................................................................... DOWNLOAD FULL PDF EBOOK here { https://urlzs.com/UABbn } ......................................................................................................................... Download Full EPUB Ebook here { https://urlzs.com/UABbn } .........................................................................................................................
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • ..............ACCESS that WEBSITE Over for All Ebooks ................ ......................................................................................................................... DOWNLOAD FULL PDF EBOOK here { https://urlzs.com/UABbn } ......................................................................................................................... Download Full EPUB Ebook here { https://urlzs.com/UABbn } .........................................................................................................................
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

逐次ベイズ学習 - サンプリング近似法の場合 -

  1. 1. 3.5 逐次ベイズ学習 -サンプリング近似法の場合- 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 2015/08/27
  2. 2. 自己紹介 名前 ◦ 内山 雄司 職業 ◦ エンジニア(プログラマ) アカウント ◦ ツイッター @y__uti ◦ ブログ http://y-uti.hatenablog.jp 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 2
  3. 3. 発表の構成 復習:周辺化ギブスサンプリング ◦ 周辺化ギブスサンプリング ◦ 逐次学習のイメージ 3.5.1 粒子フィルタ ◦ 粒子フィルタの概要 ◦ 逐次更新式の導出 ◦ リサンプリング 3.5.2 LDA の粒子フィルタ ◦ モデルの説明 ◦ 逐次更新式の導出 ◦ LDA のリサンプリング 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 3
  4. 4. 復習:周辺化ギブスサンプリング 教科書 57 ページの図 3.2 (右側) 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 4
  5. 5. 周辺化ギブスサンプリング ◦ 入力 = 文書の集合 (コーパス) ◦ パラメータ α, β の初期化 ◦ 適当に決めて固定する ◦ パラメータ更新は教科書 3.6 節で 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 5 すもも も 桃 も 桃 の うち 。 本日 は 晴天 なり 。 我輩 は 猫 で ある 。
  6. 6. 周辺化ギブスサンプリング ◦ トピックの割り当ての初期化 ◦ ランダムに割り当てる ◦ トピック数は事前に決めておく 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 6 すもも も 桃 も 桃 の うち 。 本日 は 晴天 なり 。 我輩 は 猫 で ある 。
  7. 7. 周辺化ギブスサンプリング 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 7 すもも も 桃 も 桃 の うち 。 本日 は 晴天 なり 。 我輩 は 猫 で ある 。 2 3 3 3 1 1 3 1 2 。 ある うち すもも で なり の は も 我輩 晴天 桃 猫 本日 3 0 0 0 0 1 0 0 0 1 1 1 1 0 0 0 0 0 0 0 1 1 1 0 0 1 0 1 0 1 1 1 1 0 0 1 1 0 0 0 0 0 nd,k nk,v
  8. 8. 周辺化ギブスサンプリング 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 8 すもも も 桃 も 桃 の うち 。 本日 は 晴天 なり 。 我輩 は 猫 で ある 。 2 3 3 3 1 1 2 1 2 。 ある うち すもも で なり の は も 我輩 晴天 桃 猫 本日 3 0 0 0 0 1 0 0 0 0 1 1 1 0 0 0 0 0 0 0 1 1 1 0 0 1 0 1 0 1 1 1 1 0 0 1 1 0 0 0 0 0 zd,i
  9. 9. 周辺化ギブスサンプリング 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 9 すもも も 桃 も 桃 の うち 。 本日 は 晴天 なり 。 我輩 は 猫 で ある 。 2 3 3 3 1 1 2 1 2 。 ある うち すもも で なり の は も 我輩 晴天 桃 猫 本日 3 0 0 0 0 1 0 0 0 0 1 1 1 0 0 0 0 0 0 0 1 1 1 0 0 1 0 1 0 1 1 1 1 0 0 1 1 0 0 0 0 0 nd,k d,i nk,v d,i 式 (3.38) の確率で zd,i を決め直す zd,i
  10. 10. 周辺化ギブスサンプリング 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 10 すもも も 桃 も 桃 の うち 。 本日 は 晴天 なり 。 我輩 は 猫 で ある 。 2 3 3 3 1 1 2 1 3 。 ある うち すもも で なり の は も 我輩 晴天 桃 猫 本日 3 0 0 0 0 1 0 0 0 0 1 1 1 0 0 0 0 0 0 0 1 1 1 0 0 1 0 1 0 1 1 1 1 0 0 1 1 1 0 0 0 0 zd,i
  11. 11. 周辺化ギブスサンプリング 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 11 すもも も 桃 も 桃 の うち 。 本日 は 晴天 なり 。 我輩 は 猫 で ある 。 2 3 3 3 1 1 2 0 3 。 ある うち すもも で なり の は も 我輩 晴天 桃 猫 本日 3 0 0 0 0 1 0 0 0 0 1 1 1 0 0 0 0 0 0 0 1 0 1 0 0 1 0 1 0 1 1 1 1 0 0 1 1 1 0 0 0 0 zd,i
  12. 12. 周辺化ギブスサンプリング 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 12 すもも も 桃 も 桃 の うち 。 本日 は 晴天 なり 。 我輩 は 猫 で ある 。 2 3 3 3 1 1 2 0 3 。 ある うち すもも で なり の は も 我輩 晴天 桃 猫 本日 3 0 0 0 0 1 0 0 0 0 1 1 1 0 0 0 0 0 0 0 1 0 1 0 0 1 0 1 0 1 1 1 1 0 0 1 1 1 0 0 0 0 zd,i 以下省略
  13. 13. 周辺化ギブスサンプリング 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 13 すもも も 桃 も 桃 の うち 。 本日 は 晴天 なり 。 我輩 は 猫 で ある 。 1 3 4 3 0 2 1 2 3 。 ある うち すもも で なり の は も 我輩 晴天 桃 猫 本日 2 0 0 0 0 0 0 0 0 0 1 0 1 1 0 0 0 0 1 0 1 1 0 0 0 2 0 0 1 1 1 1 0 1 0 1 2 1 0 0 0 0 zd,i
  14. 14. 周辺化ギブスサンプリング 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 14 すもも も 桃 も 桃 の うち 。 本日 は 晴天 なり 。 我輩 は 猫 で ある 。 1 3 4 3 0 2 1 2 3 。 ある うち すもも で なり の は も 我輩 晴天 桃 猫 本日 2 0 0 0 0 0 0 0 0 0 1 0 1 1 0 0 0 0 1 0 1 1 0 0 0 2 0 0 1 1 1 1 0 1 0 1 2 1 0 0 0 0 zd,i これで s のループ一回分
  15. 15. 周辺化ギブスサンプリング 一括 (バッチ) 学習 ◦ 最初に全文書を読み込む ◦ 学習中は全文書の情報を保持する ◦ 最後にまとめて全文書のトピック分布が得られる ⇔ 逐次学習 ◦ 一文書ずつ順番に読み込まれる ◦ その文書のトピック分布を学習する ◦ 学習が終わったら文書は捨てる ◦ 統計量のみを保持する 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 15
  16. 16. 逐次学習のイメージ 文書を一つずつ読み込んで学習 ◦ これまでの学習で蓄積された nk,v を保持 ◦ 文書そのものは学習が済んだら捨ててしまう 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 16 。 ある うち で なり の は も 我輩 晴天 猫 本日 18 30 4 74 20 80 93 28 7 0 28 0 25 2 9 60 0 101 80 58 1 9 0 18 20 3 0 48 3 20 74 31 0 2 4 2 nk,v
  17. 17. 逐次学習のイメージ 文書中の単語を走査する ◦ 一つずつ確率的にトピックを決めていく 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 17 。 ある うち で なり の は も 我輩 晴天 猫 本日 18 30 4 74 20 80 93 28 7 0 28 0 25 2 9 60 0 101 80 58 1 9 0 18 20 3 0 48 3 20 74 31 0 2 4 2 も 桃 も 桃 の うち 。すもも 0 0 0 zd,i
  18. 18. 逐次学習のイメージ 文書中の単語を走査する ◦ 一つずつ確率的にトピックを決めていく 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 18 桃 も 桃 の うち 。すもも も 0 1 0 zd,i 。 ある うち で なり の は も 我輩 晴天 猫 本日 すもも 18 30 4 74 20 80 93 28 7 0 28 0 0 25 2 9 60 0 101 80 58 1 9 0 18 1 20 3 0 48 3 20 74 31 0 2 4 2 0
  19. 19. 逐次学習のイメージ 文書中の単語を走査する ◦ 一つずつ確率的にトピックを決めていく 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 19 も 桃 の うち 。すもも も 桃 0 2 0 zd,i 。 ある うち で なり の は も 我輩 晴天 猫 本日 すもも 18 30 4 74 20 80 93 28 7 0 28 0 0 25 2 9 60 0 101 80 59 1 9 0 18 1 20 3 0 48 3 20 74 31 0 2 4 2 0
  20. 20. 逐次学習のイメージ 文書中の単語を走査する ◦ 一つずつ確率的にトピックを決めていく 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 20 桃 の うち 。すもも も 桃 も 0 3 0 zd,i 。 ある うち で なり の は も 我輩 晴天 猫 本日 すもも 桃 18 30 4 74 20 80 93 28 7 0 28 0 0 0 25 2 9 60 0 101 80 59 1 9 0 18 1 1 20 3 0 48 3 20 74 31 0 2 4 2 0 0
  21. 21. 逐次学習のイメージ 文書中の単語を走査する ◦ 一つずつ確率的にトピックを決めていく 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 21 の うち 。すもも も 桃 も 桃 0 3 1 zd,i 。 ある うち で なり の は も 我輩 晴天 猫 本日 すもも 桃 18 30 4 74 20 80 93 28 7 0 28 0 0 0 25 2 9 60 0 101 80 59 1 9 0 18 1 1 20 3 0 48 3 20 74 32 0 2 4 2 0 0
  22. 22. 逐次学習のイメージ 文書中の単語を走査する ◦ 一つずつ確率的にトピックを決めていく 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 22 うち 。すもも も 桃 も 桃 の 0 4 1 zd,i 。 ある うち で なり の は も 我輩 晴天 猫 本日 すもも 桃 18 30 4 74 20 80 93 28 7 0 28 0 0 0 25 2 9 60 0 101 80 59 1 9 0 18 1 2 20 3 0 48 3 20 74 32 0 2 4 2 0 0
  23. 23. 逐次学習のイメージ 文書中の単語を走査する ◦ 一つずつ確率的にトピックを決めていく 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 23 。すもも も 桃 も 桃 の うち 1 4 1 zd,i 。 ある うち で なり の は も 我輩 晴天 猫 本日 すもも 桃 18 30 4 74 20 81 93 28 7 0 28 0 0 0 25 2 9 60 0 101 80 59 1 9 0 18 1 2 20 3 0 48 3 20 74 32 0 2 4 2 0 0
  24. 24. 逐次学習のイメージ 文書中の単語を走査する ◦ 一つずつ確率的にトピックを決めていく 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 24 すもも も 桃 も 桃 の うち 。 1 5 1 zd,i 。 ある うち で なり の は も 我輩 晴天 猫 本日 すもも 桃 18 30 4 74 20 81 93 28 7 0 28 0 0 0 25 2 9 60 0 101 80 59 1 9 0 18 1 2 20 3 0 48 3 20 74 32 0 2 4 2 0 0
  25. 25. 逐次学習のイメージ 学習結果が得られる ◦ 学習が終われば文書をそれ以上保持する必要はない 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 25 すもも も 桃 も 桃 の うち 。 1 6 1 。 ある うち で なり の は も 我輩 晴天 猫 本日 すもも 桃 18 30 4 74 20 81 93 28 7 0 28 0 0 0 26 2 9 60 0 101 80 59 1 9 0 18 1 2 20 3 0 48 3 20 74 32 0 2 4 2 0 0
  26. 26. 逐次学習のイメージ こんな安直な方法でまともに学習できるのか? ◦ できない ◦ では、どうすればよいか? = 今日の話 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 26 すもも も 桃 も 桃 の うち 。 1 6 1 。 ある うち で なり の は も 我輩 晴天 猫 本日 すもも 桃 18 30 4 74 20 81 93 28 7 0 28 0 0 0 26 2 9 60 0 101 80 59 1 9 0 18 1 2 20 3 0 48 3 20 74 32 0 2 4 2 0 0
  27. 27. 3.5.1 粒子フィルタ 教科書 100 ~ 105 ページ 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 27
  28. 28. 粒子フィルタとは? 動的システムにおいて潜在変数を逐次的にサンプリングする手法 動的システムのモデル例(状態空間モデル or 隠れマルコフモデル) 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 28 zt-1 zt zt+1 xtxt-1 xt+1 zt ~ p(zt|zt-1) xt ~ p(xt|zt) ◦ x1:t を観測したもとで潜在変数 z1:t ~ p(z1:t|x1:t) をサンプリングしたい 図 3.7 (a) より
  29. 29. 粒子フィルタの動作イメージ 事後分布 p(z1:t|x1:t) をたくさんの重み付きサンプルで近似する ◦ 時刻 t-1 で事後分布 p(z1:t-1|x1:t-1) からサンプルが得られているとする 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 29 zt-1 zt zt+1 xtxt-1 xt+1 zt ~ p(zt|zt-1) xt ~ p(xt|zt)
  30. 30. 粒子フィルタの動作イメージ 事後分布 p(z1:t|x1:t) をたくさんの重み付きサンプルで近似する ◦ zt ~ p(zt|zt-1) により時刻 t での事前分布からのサンプルを得る 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 30 zt zt+1 xtxt-1 xt+1 zt-1 zt ~ p(zt|zt-1) xt ~ p(xt|zt)
  31. 31. 粒子フィルタの動作イメージ 事後分布 p(z1:t|x1:t) をたくさんの重み付きサンプルで近似する ◦ p(xt|zt) で重み付けして時刻 t での事後分布からのサンプルを得る 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 31 zt-1 zt zt+1 xtxt-1 xt+1 zt ~ p(zt|zt-1) xt ~ p(xt|zt)
  32. 32. 粒子フィルタの動作イメージ 事後分布 p(z1:t|x1:t) をたくさんの重み付きサンプルで近似する ◦ zt+1 ~ p(zt+1|zt) により時刻 t+1 での事前分布からのサンプルを得る 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 32 zt-1 zt zt+1 xtxt-1 xt+1 zt ~ p(zt|zt-1) xt ~ p(xt|zt) ◦ 以下繰り返し
  33. 33. 重点サンプリング 積分計算が困難な確率分布 p(x) からのサンプリング手法 ◦ サンプリングが容易な提案分布 q(x) から x ~ q(x) をサンプリング ◦ 得られたサンプル x を w(x) = p(x) / q(x) で重み付け 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 33 p(x) q(x) q(x) からのサンプルでは少ない ⇒ w(x) = p(x)/q(x) > 1 で調整 q(x) からのサンプルが多い ⇒ w(x) = p(x)/q(x) < 1 で調整
  34. 34. 逐次更新式の導出 時刻 t での事後分布 p(z1:t|x1:t) が次式で近似されているとする 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 34 ◦ ただし 式 (3.161), 式 (3.162) より 式 (3.162) より
  35. 35. 逐次更新式の導出 時刻 t+1 での潜在変数 zt+1 の事前分布を近似する 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 35 式 (3.165) より
  36. 36. 逐次更新式の導出 提案分布を次式のようにおく 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 36 ◦ 次式を仮定したことに相当する ◦ 確率の乗法の定理からは次式が成り立つので 式 (3.167) より 103 ページ本文より 103 ページ本文より
  37. 37. 逐次更新式の導出 時刻 t+1 での事後分布 p(z1:t+1|x1:t+1) を次式で近似したい 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 37 ◦ ただし 式 (3.161), 式 (3.162) より; 時刻を t+1 に進めたもの
  38. 38. 逐次更新式の導出 重みの更新式の計算 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 38 ◦ ここで分母を次式のようにおけば ◦ 重みの更新式は次式のように簡単な形で求められる 式 (3.168) より 式 (3.169) より 103 ページ本文より
  39. 39. リサンプリング 時刻 t が進むにつれて一部の粒子に重みが集中する ◦ 有限の S 個の粒子で p(z1:t|x1:t) をうまく近似できなくなってくる 重みが集中したら ω(z1:t) の確率で S 個の粒子をサンプリングする ◦ イメージ:重い粒子を分割することで各粒子の重みを 1/S に揃える Effective Sample Size (ESS) : 重みの集中の度合い 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 39 (s) ◦ 適当な閾値を定めて ESS が閾値を下回ったらリサンプリングする 式 (3.170) より
  40. 40. 3.5.2 LDA の粒子フィルタ 教科書 105 ~ 110 ページ 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 40
  41. 41. 粒子フィルタのための文書モデル 文書の集合を隠れマルコフモデルと仮定する ◦ トピック = 潜在変数 ◦ 単語 = 観測データ 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 41 w1,1 我輩 z1,1 z1,2 z1,3 w1,2 は w1,3 猫 w1,4 で w1,5 ある w1,6 。 w2,1 本日 w2,2 は z1,4 z1,5 z1,6 z2,1 z2,2 z(1,4), w(1,4) z(2,2), w(2,2) 図 3.9 + 図 3.7 (a) に対応 このスライドは恐らくいろいろと間違っています
  42. 42. LDA の逐次更新式 次式よりトピック zd,i を S 個サンプリングする 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 42 ◦ LDA では wd,i = v 観測後の分布(事後分布)からサンプリング可能 式 (3.172) より; 56 ページの式 (3.38) と比較
  43. 43. LDA の逐次更新式 重みの更新 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 43 式 (3.175), 式 (3.176) より zd,i のサンプリングのために式 (3.172) で計算済み
  44. 44. トピック分布 重み付きサンプルでトピック分布を近似する 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 44 式 (3.177) より
  45. 45. LDA のリサンプリング "Rejuvenates old topic assignments in light of new data" ◦ 過去の観測列から R 個の wl,m を選ぶ ◦ トピック zl,m を次式でリサンプリングする 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 45 文献 15) Canini et al., (2009) より 式 (3.179) より; 56 ページの式 (3.38) と比較 ◦ 過去の観測列に対して少しだけギブスサンプリングするイメージ
  46. 46. 近似精度と実行速度 LDA の粒子フィルタの超パラメータ ◦ S 粒子数 ◦ R 活性化サンプル数 値が大きいほど ◦ 近似精度 高 ◦ 実行時間 大 ◦ 1 単語あたりの計算量は O(SR) R 個の活性化サンプルをどの範囲からサンプリングするか ◦ 範囲が広いほどメモリ使用量が増える 2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 46

×