SlideShare a Scribd company logo
1 of 26
Download to read offline
はじめての統計データ分析勉強会 【#2】
MCMC と正規分布の推測
藤田 元
(合同会社 カノープス/上智大学)
今日取り扱う項目
前回の復習(サラッと)
マルコフ連鎖モンテカルロ法(MCMC)
事後分布(とその代表値)
予測分布
ベイズ的推測と「『信頼区間』と『確信区間』の違い」
生成量(とそこから導き出される各種指標の分布)
ベイズ統計における「仮説検証」
前回の復習(サラッと)
連続型確率変数における期待値と分散
積率系と分位系
ベイズの定理
無情報事前分布:一様分布
ベイズ統計と頻度論的統計学の考え方の違い
連続型確率変数における期待値と分散
連続型確率変数:
各値の確率は定義できず確率密度で表される
確率密度関数で確率分布を表現する
期待値:確率密度関数の期待値
式:
分散:確率密度関数の期待値
式:
確率:確率密度関数の面積で表現される
積率系と分位系の記述統計量
積率系(moment):データの関数の平均
代表値:平均値(mean)
散布度:分散(variance)、標準偏差(SD)
分位系(quantile):順序
代表値:中央値(median)・最頻値(mode)
分位点:四分位点、パーセンタイル点など
積率系は累乗変換に対して不変でない
一次変換には不変
ベイズの定理
ベイズの定理
x=(x1, x2, …, xn) [データ]
θ=(θ1, θ2, …, θm) [パラメタ]とするとき
以下のように定義される
このとき f(x|θ) を尤度、f(θ) を事前分布とよぶ
無情報事前分布
ベイズ統計は、事前分布の選択が恣意的であるという批判が
あった(主観確率)
無情報事前分布:事前分布が事後分布に出来るだけ景況しな
いような確率分布
具体的には:一様分布
事前分布に一様分布を仮定すると、事後分布は尤度のみに影
響をうける
ベイズ統計と頻度論的統計学
頻度論的統計学 ベイズ統計
パラメタ (未知の)固定の値 確率分布
パラメタの推定 最尤推定法(MLE) EAP, MED, MAP
データ 確率分布 所与
事前分布 仮定しない 仮定する(※)
マルコフ連鎖モンテカルロ法
略して、MCMC
MCMCとは:多変量の確率分布からサンプルを抽出(= 乱数を生成す
る)ためのアルゴリズムのことである(岩波データサイエンス 1:17)
事後分布に従う乱数を(大量に)発生させ、事後分布そのものをデー
タとして手にする
同時事後分布に従う乱数を、継続的に発生させ第m期に発生した乱数
を、θ(m)と表記する
幾つかの手法がある
ギブスサンプリング法(GS法)
メトロポリス・ヘイスティング法(MH法)
ハミルトニアンモンテカルロ法(HMC法)
ここではHMC法を利用する(詳しくは豊田(2015)を参照)
マルコフ連鎖モンテカルロ法
乱数の生成に際しては、パラメタの事前分布として一様分布を仮定
( µ 〜 U(0,1000), σ 〜U(0,100) )
バーンイン:生成された乱数のうち初期に生成された乱数 → 同時事後
分布に従わない
事後分布の性質を調べるには、バーンイン以降の有効な乱数を用いる
(m = B+1, B+2, … , M)
チェイン(Chain):乱数列
チェイン数:乱数列の数
図 1-4(p.15)は T=10000 (= [M=(21000-1000)]×5)個の有効な乱数を
用いて描いた散布図
乱数列は、θ(t)(t = 1, 2, …, T) のように表記する
トレースプロット:事後分布から乱数が発生しているか視覚的に評価
マルコフ連鎖モンテカルロ法
乱数列の数値的評価
収束判定指標( ):事後分布から乱数が発生しているかを判
定する指標(チェイン間とチェイン内の散らばりを比較する)
→ チェイン間の散らばりが大きい場合には事後分布から乱数が
発生していないことが疑われる( が望ましい)
有効標本数(neff):生成された乱数が「理想的に無関係である
乱数」の何個分に相当するかの推定値
事後分布とその代表値
事後分布:データが得られた時のパラメタ(母数)の確率分布
データはMCMCによって得る
母数(パラメタ)に関する情報は、すべて事後分布に含まれる
点推定:母数の事後分布を点で代表させる
3つの代表的な点推定量
EAP(θeap):事後分布の平均値
MED(θmed):事後分布の中央値
MAP(θmap):事後分布の最頻値(最大値)
事後分散・事後標準偏差:事後分布の分散と標準偏差 (post.sd)
事後分布の散布度(分散・標準偏差)が小さいと、それだけ点推定の精度が高いと
いうこと
事後標準偏差( , post.sd)は、θ の標準偏差:事後分布がどれだけ
で代表されているか、を表現
事後分布とその代表値
実際に観測できる、EAP( )は、事後分布の平均値であり、推定
値:MCMCをするたびに異なる値になる
一方で真のEAP( )は未知なる固定値
推定量( )の分布を標本分布といい、標本分布の標準偏差を標準
誤差(S.E.)と呼ぶ(推定の精度)
「事後標準偏差」と「標本誤差」の区別
事後標準偏差( )は、事後分布の標準偏差で、標準誤差は標
本分布(複数回 を推定した時の、 の分布の標準偏差)
事後標準偏差も標準誤差も小さいほうが好ましい
事後標準偏差( )が大きい場合 → データ(n)を増やす
標準誤差( )が大きい場合 → 乱数(T)を増やす
事後分布とその代表値
カーネル密度推定によってデータから確率密度関数を推定
予測分布
予測分布:将来観測されるであろうデータ x* の確率分布
2種類の予測分布
事後予測分布:f(x*|x)
→ 事後分布 f(θ|x) による f(x*|θ) の平均
→ パラメタ(θ)が与えられた時の x* の分布
→ 問題はパラメタ(θ)自体が確率的に変動する
→ MCMC をおこなうごとに、パラメタの推定値を計算し、そこから事後予測分布を
求める必要がある(x*(t)
~ f(θ(t)
))
→ 煩雑で取り扱いづらい
条件付き予測分布:
→ パラメタの推定値( )を所与とした時の未来のデータ x* の条件付き確率
→ 点推定値にのみ依存するので、取り扱いやすい
ベイズ的推測
リサーチクエスチョン(RQ)を自覚することが重要
常にRQを自覚し、実質科学的知見を最大限利用すること(cf. 事
前分布・主観確率)
どんなRQがありうるのか?
RQ1:平均値の点推定(µ の点推定)
RQ2:平均値の区間推定(µ の区間推定)
RQ3:平均値の片側区間推定
RQ4:標準偏差の点推定・区間推定(σ の点推定)
RQ5:予測分布の区間推定( x* の区間推定)
→ RQ1-4:母集団のパラメタに関する推測
→ RQ5:将来のデータの分布に関する推測
ベイズ的推測
平均値(µ)に関する推測
EAP:80.6
S.E.:0.01
post.sd:1.9
2.5%:76.8
5%:77.5
50%:80.6
95%:83.7
97.5%:84.4
ベイズ的推測
平均値(µ)に関する推測
点推定(EAP, MED, MAP):
→ EAP = MED = MAP = 80.6(RQ1への答え)
区間推定:µ(t) の平均値である は、µ の事前分布の型状にかかわらず
、正規分布に従う
→ µeap が母平均である母集団からの、µ の無限回の標本抽出と考えるこ
とができる(中心極限定理)
→ 標本分布の2.5%点〜97.5% 点の面積が信頼区間(標準正規分布におい
て信頼区間は -1.96×SD 〜 1.96×SD)
→ SD(標本の標準偏差:S.E.) = 0.01 → 80.6 ± 1.96 × 0.01
→ 信頼区間:[80.58, 80.62](95%信頼区間)(RQ2への答え)
→ 確信区間:[76.8, 84.4](95%確信区間:事後分布の面積が95%)
「信頼区間」と「確信区間」
信頼区間:「Aの信頼区間」というとき、Aは未
知なる固定点(頻度論的)
標本抽出を無限回おこない、同様の区間構成
をしたとき、そのうち95%の回数(サンプリ
ング)は、真値Aを含む
確信区間(信用区間):「Aの確信区間」という
ときA自身が分布する(ベイズ的)
データから確信区間を計算するとき、パラメ
タ自身が95%の確率でその区間に存在する
ベイズ的推測
平均値(σ)に関する推測
EAP:5.6
MED:5.5
MAP:4.7(= MLE)
S.E.:0.01
post. sd:
2.5%:3.6
5%:3.8
50%:5.5
95%:9.0
97.5%:10.1
ベイズ的推測
平均値(σ)に関する推測
EAP:80.6
S.E.:(0.02)
post.sd:6.4
2.5%:68.0
5%:70.4
50%:80.6
95%:90.9
97.5%:93.3
ベイズ的推測
RQへの答え
RQ4:
(1) 標準偏差の点推定
[a] EAP:5.6
[b] MED:5.5
[c] MAP:4.7
(2) 標準偏差の区間推定
[a] 確信区間:[3.6, 10.1]
RQ5:
予想分布の区間推定
[a] 確信区間:[68.0, 93.3]
ベイズ的推測(2):生成量
生成量:MCMC法による標本(データ)θ(t) の関数 g(θ(t))
θ(t) を原料に作られたものが生成量
ここで g は任意の関数
例:g(θ) のEAP推定量は g(θ(t)) から計算可能
生成量を利用すると以下のRQに答えることが可能
RQ6:分散の点推定・区間推定
RQ7:変動係数の点推定・区間推定
RQ8:効果量の点推定
RQ9:効果量の区間推定・片側区間推定の下限・上限
RQ10:%点の点推定・区間推定
RQ11:基準点未満の測定値が観測される確率
RQ12:基準点との比の点推定・区間推定
推定量・区間推定の考え方は前述と同じ、推定結果は p. 47 表2.4 を参照
ベイズ統計における「仮説検証」
研究仮説の真偽を表現する2値変数を利用すると
、研究仮説(U)が正しい確率を調べることがで
きる
頻度論的な仮説検定では、(対立)仮説が正しい
確率を調べることはできなかった
真: :θ(t)
に関して研究仮説が真
偽: :それ以外の場合
ベイズ統計における「仮説検証」
「店舗Bの牛丼の具の重さの平均が85」
研究仮説:Uµ<85
>
> otherwise
ベイズ統計における「仮説検証」
研究仮説:Uµ<85
Uµ<85 が正しい確率は
98.5%
→ 研究仮説が正しいこと
はほぼ検証された

More Related Content

What's hot

トピックモデルの基礎と応用
トピックモデルの基礎と応用トピックモデルの基礎と応用
トピックモデルの基礎と応用Tomonari Masada
 
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法Ken'ichi Matsui
 
ハミルトニアンモンテカルロ法についての説明
ハミルトニアンモンテカルロ法についての説明ハミルトニアンモンテカルロ法についての説明
ハミルトニアンモンテカルロ法についての説明KCS Keio Computer Society
 
3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布Junya Saito
 
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布Nagayoshi Yamashita
 
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?hoxo_m
 
[PRML] パターン認識と機械学習(第2章:確率分布)
[PRML] パターン認識と機械学習(第2章:確率分布)[PRML] パターン認識と機械学習(第2章:確率分布)
[PRML] パターン認識と機械学習(第2章:確率分布)Ryosuke Sasaki
 
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!takehikoihayashi
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデルYohei Sato
 
ベータ分布の謎に迫る
ベータ分布の謎に迫るベータ分布の謎に迫る
ベータ分布の謎に迫るKen'ichi Matsui
 
基礎からのベイズ統計学 3章(3.1~3.3)
基礎からのベイズ統計学 3章(3.1~3.3)基礎からのベイズ統計学 3章(3.1~3.3)
基礎からのベイズ統計学 3章(3.1~3.3)TeranishiKeisuke
 
ベイズファクターとモデル選択
ベイズファクターとモデル選択ベイズファクターとモデル選択
ベイズファクターとモデル選択kazutantan
 
2 4.devianceと尤度比検定
2 4.devianceと尤度比検定2 4.devianceと尤度比検定
2 4.devianceと尤度比検定logics-of-blue
 
心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理するHiroshi Shimizu
 
MCMCでマルチレベルモデル
MCMCでマルチレベルモデルMCMCでマルチレベルモデル
MCMCでマルチレベルモデルHiroshi Shimizu
 
Hyperoptとその周辺について
Hyperoptとその周辺についてHyperoptとその周辺について
Hyperoptとその周辺についてKeisuke Hosaka
 

What's hot (20)

トピックモデルの基礎と応用
トピックモデルの基礎と応用トピックモデルの基礎と応用
トピックモデルの基礎と応用
 
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
 
階層ベイズとWAIC
階層ベイズとWAIC階層ベイズとWAIC
階層ベイズとWAIC
 
coordinate descent 法について
coordinate descent 法についてcoordinate descent 法について
coordinate descent 法について
 
ハミルトニアンモンテカルロ法についての説明
ハミルトニアンモンテカルロ法についての説明ハミルトニアンモンテカルロ法についての説明
ハミルトニアンモンテカルロ法についての説明
 
3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布
 
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
 
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
 
[PRML] パターン認識と機械学習(第2章:確率分布)
[PRML] パターン認識と機械学習(第2章:確率分布)[PRML] パターン認識と機械学習(第2章:確率分布)
[PRML] パターン認識と機械学習(第2章:確率分布)
 
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!
 
Stan超初心者入門
Stan超初心者入門Stan超初心者入門
Stan超初心者入門
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデル
 
ベータ分布の謎に迫る
ベータ分布の謎に迫るベータ分布の謎に迫る
ベータ分布の謎に迫る
 
基礎からのベイズ統計学 3章(3.1~3.3)
基礎からのベイズ統計学 3章(3.1~3.3)基礎からのベイズ統計学 3章(3.1~3.3)
基礎からのベイズ統計学 3章(3.1~3.3)
 
ベイズファクターとモデル選択
ベイズファクターとモデル選択ベイズファクターとモデル選択
ベイズファクターとモデル選択
 
2 4.devianceと尤度比検定
2 4.devianceと尤度比検定2 4.devianceと尤度比検定
2 4.devianceと尤度比検定
 
心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する
 
MCMCでマルチレベルモデル
MCMCでマルチレベルモデルMCMCでマルチレベルモデル
MCMCでマルチレベルモデル
 
潜在クラス分析
潜在クラス分析潜在クラス分析
潜在クラス分析
 
Hyperoptとその周辺について
Hyperoptとその周辺についてHyperoptとその周辺について
Hyperoptとその周辺について
 

MCMCと正規分布の推測