ベイズファクターとモデル選択

ベイズファクターと
モデル選択

自己紹介
• 前田和寛(MAEDA Kazuhiro)
• 比治山大学短期大学部総合生活デザイン学科
• kazum@hijiyama-u.ac.jp
• http://kz-md.net/
• Twitter: @kazutan #ビールうめぇ

本日の内容
• ベイズの定理について考える
• ベイズファクターとモデル選択
※イメージを掴んでもらうことを意識してます
• 細かいところで用語が不適切な場合があるかもしれません

ベイズの定理について考える

ベイズの式
𝑃 𝐴|𝐵 =
𝑃(𝐵|𝐴)𝑃(𝐴)
𝑃(𝐵)
• 𝑃 𝐴
• ある事象Aが起こる確率
• 𝑃 𝐵
• ある事象Bが起こる確率
• 𝑃 𝐵 𝐴
• ある事象Aが起こった上での
事象Bが起こる確率
• 𝑃 𝐴 𝐵
• ある事象Bが起こった上での
事象Aが起こる確率
A B

ベイズの式(例)
𝑃 𝐴|𝐵 =
𝑃(𝐵)
• 𝑃 𝐴
• 事象「カープのホームゲーム」が
起こる確率
• 𝑃 𝐵
• 事象「カープが勝つ」が起こる確
率
• 𝑃 𝐵 𝐴
• 「カープのホームゲーム」という
条件での「カープが勝った」確率
• 𝑃 𝐴 𝐵
• 「カープが勝った」という条件で
の「カープのホームゲーム」確率
A B

実際に計算してみる(1)
勝負計
ホーム 18 7 25
アウェイ 12 14 26
計 30 21 51
• 𝑃 𝐴 = 0.49
• 事象「カープのホームゲーム」が
起こる確率
• 𝑃 𝐵 = 0.59
• 事象「カープが勝つ」が起こる確
率
• 𝑃 𝐵 𝐴 =
0.35
0.49
= 0.72
• 「カープのホームゲーム」という
条件での「カープが勝った」確率
• 𝑃 𝐴 𝐵 =
0.72∗0.49
0.59
= 0.60
• 「カープが勝った」という条件で
の「カープのホームゲーム」確率
勝負計
ホーム 0.35 0.14 0.49
アウェイ 0.24 0.27 0.51
計 0.59 0.41 1.00
※ 2014年5月末までの成績で算出してます

事前確率と事後確率
𝑃 𝐴|𝐵 =
𝑃(𝐵)
• Aを「原因」となる事象、Bを
「結果」となる事象として考え
ると…
• 𝑃 𝐴
• 結果が起こる前、つまり事前の状
態の確率・・・事前確率
• 𝑃 𝐵
• 得られた(測定した)結果
• 𝑃 𝐵 𝐴
• 原因があった時(条件下)での、結
果が発生する確率
• 𝑃 𝐴 𝐵
• その結果が起こった後、つまり事
後の状態の確率・・・事後確率
A B

よぉわからんけぇカープで例えてくれ
𝑃 𝐴|𝐵 =
𝑃(𝐵)
• A:「カープのホームゲーム」
B:「カープが勝利」
• 𝑃 𝐴
• 「カープがホームゲーム」である
確率
• 𝑃 𝐵
• カープが勝つ確率
• 𝑃 𝐵 𝐴
• 「ホームゲーム」で行われたなら
ば「カープが勝つ」確率
• 𝑃 𝐴 𝐵
• 「カープが勝った」というニュー
スから、「ホームゲーム」であっ
た確率
A B

仮説(H)とデータ(D)で考えてみよう
𝑃 𝐻|𝐷 =
𝑃(𝐷|𝐻)𝑃(𝐻)
𝑃(𝐷)
• H:なんらかの仮説
D:得られたデータ
• 𝑃 𝐻
• (データを取る前の)仮説の確率
• 𝑃 𝐷
• そのデータが得られる確率
• 𝑃 𝐷 𝐻
• その仮説が正しいとするときに、
そのデータが得られる確率
• 𝑃 𝐻 𝐷
• データが得られた後での、仮説
が正しい確率
H D

よぉわからんけぇカープで(ry
𝑃 𝐻|𝐷 =
𝑃(𝐷|𝐻)𝑃(𝐻)
𝑃(𝐷)
• 6月1日「カープが勝った」が、
この試合が「ホームゲーム」で
ある確率は?
• H:「6/1はホームゲーム」
D:「カープが勝つ」
• ホームゲームの確率は0.49
• 5月末カープの勝率は0.59
• 同ホームでの勝率は0.72
• 𝑃 𝐻
• ホームゲームが開催される確率
• 𝑃 𝐷
• カープの勝率
• 𝑃 𝐷 𝐻
• ホームでのカープの勝率
• 𝑃 𝐻 𝐷
• 「カープが勝った」ときのホーム
ゲームである確率
• さあ計算してみよう!
• (てかもう答え前に出してる)

𝑃(𝐷|𝐻)について踏み込んでみよう
• 仮説Hが正しいとした時に得られるデータ(D)の確率
• カープで(ry : ホームゲーム(仮説H)である時の、5月末までの成績(デー
タ)で得られるカープの勝率
• 言い換えれば…
得られたデータから、その仮説がどのくらい「もっともなのか」を表
す確率
• この6/1の勝利ゲームが「ホームゲーム」だった、と仮定しよう
• ホームゲームは0.49だけ行われてる…からそのまま考えたらこのとおりだけど…
• それじゃあ、ホームゲームで今のところ実際にどれだけ勝ってる?→0.72
• てことは、データからみたら、この仮定はこの確率くらい「もっともらしい」よ
ね。
• この𝑃(𝐷|𝐻)は、尤度と言われる
• 母数を含む仮説モデルの場合。データ分布とも。

事前分布・事後分布・尤度
• ベイズの式は、以下のように表現できます
• 事後確率 =
尤度 × 事前確率
基準化定数
• 基準化定数はさっきの分母P(D)のこと。
「全事象の確率の総和は1である」という制約から、そうなるように設定
…つまり「定数」です
• 定数は定数なので、更に書き換えると…
• [事後確率] ∝ [尤度]×[事前確率]
• 事後確率は、尤度と事前確率をかけたものに比例する
• つまりこの2つが重要となっている！

ベイスファクターと
モデル選択

ホーム(H0)とアウェー(H1)で考えてみる
• 仮説H0 :ホームゲーム
𝑃 𝐻0|𝐷 =
𝑃(𝐷|𝐻0)𝑃(𝐻0)
𝑃(𝐷)
• さっきまで説明したものと同一
• 仮説H1 :アウェーゲーム
𝑃 𝐻1|𝐷 =
𝑃(𝐷)
• 仮説「アウェー」になっている
• それ以外は同一
どっちがいい仮説(モデル)なの?

ベイズファクター
• さっきの2つの仮説(モデル)について、事後確率を比べてみる
(比を取る)
𝑃 𝐻1|𝐷
𝑃 𝐻0|𝐷
=
=
𝑃(𝐷|𝐻1)
𝑃(𝐷|𝐻0)
×
𝑃(𝐻1)
𝑃(𝐻0)
• これは、[事後確率の比]=[尤度の比]×[事前確率の比]となります
• この式を変形すると…
• [尤度の比(ベイズファクター)] =
[事後確率の比(事後オッズ)]
[事前確率の比(事前オッズ)]
• つまり、「2つの仮説(モデル)のもっともらしさを比較したもの」
がベイズファクター！

なにがどうなればいいの?
• ベイズファクターは簡単に言うと
「2つのモデルそれぞれのもっとらしさを比べた指標」
• 先の例で言うと…
• ベイズファクターが1より大きい
→ H1のモデルの方が(相対的に)もっともらしい、となる
• ベイズファクターが1より小さい
→H0 のモデルの方が(相対的に)もっともらしい、となる
• ではカープで…
•
𝑃 𝐻1|𝐷
𝑃 𝐻0|𝐷
=
0.47
0.72
=0.65
• これってどうなの?

ベイズファクターの基準
• Kass & Raftery(1995)の基準
• 基準というか「目安」
• 他にも有名なものが色々あり
• 大切なのは、「有意水準」
みたいにズバッと切るもの
ではないこと
• そもそもそれに問題提起され
て広がってきた側面もあるん
ですしね・・・
BF 2logBF M0と比べた
M1に対する判断
BF < 1 2logBF < 0 M0の方が良い
1 < BF < 3 0 < 2logBF <2 かろうじて優れてい
る
3 < BF < 12 2 < 2logBF < 5 優れている
12 < BF < 150 5 < 2logBF < 10 かなり優れている
150 < BF 10 < 2logBF 非常に優れている
追記: 先の式で大きい方を分子に持ってきて、
その上でBFを見たほうがスムーズです。
あと基準(目安)はいろいろあります。

ベイズファクターの問題点
• 2つのモデルの相対的比較である
• ベイズファクターの式: 2つのモデルの「もっとらしさの比」
→数値の大小は、「2つを比較してどっちがいいか」にしかならない
• 複数の指標を算出して、トータルで考えていくべし
→ この後紹介します
• 計算が鬼(になることが多い)
• 詳細は省略します…
• パラメータが増えたり、事前分布などによって大変になるようです

他のモデル指標も考えよう BIC
• Bayes information criterion(ベイズ情報量基準)
𝐵𝐼𝐶ℎ = −2 log 𝑃 𝐷 𝜃ℎ, 𝑀ℎ + 𝐾ℎ log 𝐼
𝜃ℎはモデル𝑀ℎのもとでのパラメータの最尤推定値
𝐾ℎはパラメータの数、𝐼はサンプルサイズ
• 2つのモデルでそれぞれ算出された𝐵𝐼𝐶0と𝐵𝐼𝐶1の差が、
2logBFの近似となる
• 算出が比較的カンタンなので、用いられることも多い
• ただし、これはベイズファクターとは別物だということには注意

他のモデル指標も考えよう DIC
• Deviance information criterion(偏差情報量基準)
𝐷𝐼𝐶ℎ = −
2
𝑇
𝑡=1
𝑇
log 𝑃 𝐷 𝜃ℎ
(𝑡)
, 𝑀ℎ + 2𝐾ℎ
• 𝜃ℎ
(𝑡)
はパラメータ𝜃の事後分布から得られたT個の無作為標本
• この𝜃ℎ
(𝑡)
にマルコフ連鎖の連鎖要素をそのまま持ってこれる
→ MCMCとの相性がいい
• 2つのモデルについてDICを算出し、値が小さいモデルのほうが
データに対する当てはまりがいいと評価
• また、この指標も相対的な比較のための指標

他のモデル指標も考えよう事後予測p
値
• 事後分布が算出されるんだから、それに基づく分布から標本分
布をだせるんでね?
→ 事後予測分布
• そしたらこの分布と元データの分布は近くなるはずでね?
→ 指標化したのが事後予測p値
• 0.5に近ければモデルのデータへの当てはまりがいい
• 2つのモデル比較ではなく、1つのモデルに対するデータへの当てはま
りを見る指標
• ただし、実際に事後予測p値を用いるときには、ベイズファクターなど
を補完するものとしたほうが無難とのこと

そもそもなんでベイズファクターを…?
• 帰無仮説の呪縛からの開放
• 伝統的な検定は「帰無仮説」と「対立仮説」という構図
• でもベイズファクターなら「独立する2つのモデル(仮説)」を比較
・・・別に「帰無仮説」なんてなくていい
• 正規分布の呪縛からの開放
• このベイズの式には、事前分布を組み込んでいる
• 「事前分布は正規分布でなくていい」
→ より柔軟な統計モデルをあてはめて検討可能
・・・ベイズ推定が利用される
※ この先は、あとのメンバーにお任せします

さいごに
ベイズファクターは2つの対立する仮説について，データが支持
する程度の比を直接数量化した量である。100倍支持するのであ
れば十分であり， 1.04倍支持するのでは不十分だ，ということに
は多くの研究者が同意するだろう。しかしながら，文献中には
明確なガイドラインはなく，また我々もそれを提供しない。な
ぜならば，恣意的な決定規則を与えたくはないからだ。
p値についてのよく知られた警句を思い出すとよい：
『神はp＜.05をp＜.06と等しく，そして同じくらい強く愛してく
ださる』
Rosnow & Rosenthal (1989)の一部より(岡田, 2014)

参考資料(主なもののみ記載)
• 涌井良幸「道具としてのベイズ時計」
• 入門書としてまず読んでみるにはちょうどいいです
• 今回の前半部分を作成するのに参考にさせていただきました
• 大久保街亜・岡田謙介「伝えるための心理統計」
• 本書の6章2節にベイズ統計学に関する説明があります
• ベイズファクターを用いた具体例も記載してあります
• 豊田秀樹(編)「マルコフ連鎖モンテカルロ法」
• 通称MCMC本。
• 本書の3章2節にベイズファクター及びモデル指標の説明があります
• 岡田謙介 (2014). ベイズ統計による情報仮説の評価は分散分析にとって代
わるのか？基礎心理学研究, 32(2), 223-231

ベイズファクターとモデル選択

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (8)

ベイズファクターとモデル選択