なぜベイズ統計はリスク分析に向いているのか？その哲学上および実用上の理由

2010.6.17国環研生物系若手セミナー＊ブログup用改変版＊

なぜベイズ統計は
リスク分析に向いているのか？
∼その哲学上および実用上の理由∼
(ver 2.0)

林岳彦
国立環境研究所環境リスク研究センター
hayashi.takehiko@nies.go.jp

今日の話
ベイズにまつわる
エトセトラ

確率概念
ベイズ
仮説検定

リスク分析

本日のメニュー
概念的
35min I.「確率」の哲学的諸概念と
リスク解釈にとっての意味

II. 仮説検定の｢筋違い｣さ統計的
30min とベイズの本質的な利点

25min
III.デフォルトあるいは糊代実務的
としての事前分布の利用

I.「確率」の哲学的諸概念と
リスク解釈にとっての意味
1-1「確率」とは何か？

1-2 確率概念とリスクの解釈

I-1.「確率」とは何か？
・コインを投げてオモテが出る確率
・クロロホルムによってガンになる確率
・2050年までに地球の気温が2度以上上昇
する確率
・人為的な温室効果ガスが温暖化の原因で
ある確率 (IPCC曰く90%)
・今年広島カープが優勝する確率
・国環研任期付がパーマネントになる確率

・クロロホルムによってガンになる確率
・2050年までに地球の気温が2度以上上昇
Risk = f(Eﬀect,Probability)
する確率
発がんリスクが
-6
10
・国環研任期付がパーマネントになる確率


伝統的統計学ベイズ統計学

頻度型確率確信度型確率

確率概念の分類
・古典確率・確率の公理
頻度説
頻度型確率 Frequency theory

Frequency-type probability
傾向説
Propensity theory
確率
Probability 論理説
Logical theory

確信度型確率個人説
Belief-type probability Personal theory

間個人説
Inter-personal theory
用語法はHacking (2001)に基づく

確率の公理
コルモゴルフの確率測度の定義（公理）
http://ja.wikipedia.org/wiki/確率空間より引用

http://en.wikipedia.org/wiki/Image:Kolmogorov-m.jpg
第一公理
全ての事象の起こる確率は
０と１の間である
第二公理

全事象Sの起きる確率は１である

AN Kolmogolov 第三公理
(1903-1987)
可算個の排反事象に対する
和の法則が成り立つ

古典的確率概念
「場合の数の比」としての確率
http://en.wikipedia.org/wiki/File:Pierre-Simon_Laplace.jpg

その事柄の起こりうる
場合の数
ある事柄の
起こる確率 =
同程度に起こりうる
全体の場合の数

PS Laplace
(1749-1827)


1/52


理由不十分の原理

http://bsoza.com/money_02.php

頻度説
「ある事柄が起こる頻度」としての確率
http://en.wikipedia.org/wiki/File:Karl_Pearson_2.jpg http://en.wikipedia.org/wiki/File:R._A._Fischer.jpg

K Pearson RA Fisher
(1857-1936) (1890-1962)

例：コインを投げてオモテがでる確率

頻度説

オ
モ
テ
が p→0.5
出
た
割 N→
合
2/5=0.4?
形而上学的跳躍

コイン投げの試行数

頻度説

オ
http://en.wikipedia.org/wiki/
File:John_Maynard_Keynes.jpg
In a long run,
モ we are all dead
テ
が p→0.5
出
た
割 N→
合
2/5=0.4?
形而上学的跳躍

コイン投げの試行数

頻度説
頻度説は繰り返し事象にのみ適用可
・2050年までに地球の気温が2度以上
上昇する確率
・容疑者Xが犯人である確率

傾向説
「対象に内在する傾向」としての確率
http://en.wikipedia.org/wiki/File:Karl_Popper.jpg

コインを投げて表がでる確率
コインの物理的性質

ウランの同位体の分裂確率
K Popper ウランの物理的性質
(1902-1994)

あくまでも我々の認識作用に関わらない
ものとして確率を定義

論理説
「合理的信念の度合い」としての確率

条件E→Xである確率が
50%

E→Xの
JM Kaynes 確からしさ
(1983-1946)
の定量的記述
「確率論」1921

論理説
演繹的推論

前提E→Xである確率が
100%
帰納的推論
JM Kaynes
(1983-1946) 条件E→Xである確率が
「確率論」1921
中間的な%

論理説

(条件E→Xという)

論理的関係に
内在するもの
主観的なものでは
全くない！
JM Kaynes 理由不十分の原理
(1983-1946)
あるいは優れた知性による直感
「確率論」1921

論理説

歪んだコインの問題

オモテ・ウラ・ヨコ？

http://bsoza.com/money_02.php

個人説
「個人が持つ信念の度合い」としての確率
http://sms.cam.ac.uk/institution/PHIL

(条件E→Xという)
個人的な信念の度合い
FP Ramsey の記述としての確率
(1903-1930)
http://it.wikipedia.org/wiki/Bruno_de_Finetti

異なる個人は
異なる信念の度合いを
持ちうる
B de Finetty
(1906-1985)

個人説
「個人が持つ信念の度合い」としての確率
うろこ雲→次の日雨

画像画像
30%
10% 70%

画像画像画像

個人説
数値化の問題は「賭けの枠組み」で解決

心理学者A Bさん

画像
pを選んで
画像 p=0.3

次の日雨→ p 1000円個人確率
not次の日雨→ (1-p) 1000円

＊各種認知バイアスにも注意

個人説
個人確率の適用範囲は広い

・2050年までに地球の気温が2度以上
上昇する確率
ある確率
・容疑者Xが犯人である確率

個人説
個人確率に数学は適用できるの？
http://sms.cam.ac.uk/institution/PHIL

できますとも！
http://it.wikipedia.org/wiki/Bruno_de_Finetti

ラムジー＝デ・フィネッティの定理 (Dutch book argument)
「必敗の賭け」にはならない合理的な賭け比率の選び方を
する限りその個人確率はコルモゴルフの確率の公理を満たす

確率論数学OK！

間個人説
「ある集団が持つ信念の度合い」としての確率
個人集団

個人確率間個人
確率
個人確率

個人確率
間個人
個人確率確率

間個人説
「ある集団が持つ信念の度合い」としての確率
個人集団

個人確率間個人
人為的な温室効果ガスが温暖化の原因で
ある確率は90% (IPCC) 確率
個人確率

個人確率
間個人
個人確率確率

例：ボールが青である確率
一個色を見ずに
BOX 取り出す

Bag

2/10

例：ボールが青である確率
一個色を見ずに
BOX 取り出す

Bag

2/10
もう一個取り出したら
青だった
1/9

I-Iのまとめ
頻度説

傾向説
Propensity theory
確率 Frequency
Logical theory


間個人説
Degree of belief Inter-personal theory

I-Iのまとめ
・古典確率
リスクの解釈に与える影響は？頻度説

傾向説
Propensity theory
確率 Frequency
Logical theory


間個人説
Degree of belief Inter-personal theory

I-2.確率概念とリスクの解釈

単一事象

リスク認知
X 4つの例
交換可能性

情報量

例をもとに考えてみる１
サイコロを1000回振ります。
1の目がでる一回あたりの確率は？

1/6
頻度説傾向説個人説間個人説

if rational

例をもとに考えてみる２
room
ロシアンルーレット
をやってください画像

A 実弾は6弾中１弾のみ
シリンダーは回す
頻度説 0or1
個人説 1/6 Aさんが死ぬ確率は？

例をもとに考えてみる３
room
実弾は6弾中１弾のみ
シリンダーは固定する
A→B→C→D→E→Fの順
A B C
リスク評価者
D E F K
頻度説 0or1
リスクは一人あたり
個人説 1/6 1/6

例をもとに考えてみる４
room
1/2
実弾は6弾中１弾のみ
シリンダーは固定する
A→B→C→D→E→Fの順
メモメモ 0
A B C
1/6
D E F K
頻度説 0or1 リスクは一人あたり
個人説 1/6
0,1/6,1/2

ふりかえってみる１
単一事象
ロシアン
サイコロ的問題ルーレット的問題

頻度説頻度説

化学物質のリスクってどっち？

ふりかえってみる２
リスク認知交換可能性

A B C
リスク評価者
D E F K

外から見ることが「科学的」なの？

ふりかえってみる３
情報量
1/2
メモメモ 0
A B C
1/6
D E F K 1/6
どれが正しいリスク評価なの？

一回まとめてみる
頻度的確率個人確率

一義性一義的人それぞれも可

情報に依存しない依存する
繰り返し事象にしか
困る点適用できない非論理的でありうる

リスク認知の問題まで
良い点科学的だと思われている
扱える

確率的計算適用可
= 適用可

リスクどっちが向いてるかな？

1 事実上個人確率としかいいようがない

暴露の分布感受性の分布

外挿外挿
-6
10
外挿外挿

外挿外挿

外挿外挿

PRTRデータなど試験動物の毒性試験

1 事実上個人確率としかいいようがない

暴露の分布感受性の分布

外挿外挿
-6
10
外挿外挿

計算結果としての「確率論的リスク」は外挿
外挿
専門家の合意に基づく一連の推定手順
により構成された（間）個人確率に基づく
外挿外挿
リスクの表現だと思う

PRTRデータなど試験動物の毒性試験

2 いろいろ利点があるから
・繰り返し事象も非繰り返し事象もOK
（特定個人のリスク評価も可能）

・情報量の違いに対応可
・リスク認知の問題も扱える
個人確率
個人確率間個人個人
個人確率確率
間個人個人確率
個人集団確率個人確率

人はfrequencyではなくdegree of beliefで動く

リスク評価が主観確率でいいの？

私はあなたと違って
客観的に物事を
画像見れるんです

頻度的確率
（a.k.a客観確率）

リスク評価が主観確率でいいの？

客観性の高い
(間)個人確率

Evidence Logic Transparency

I全体のまとめ
確率概念は大きく分けて確信度型と頻度型
の２つある

頻度型確率は繰り返し事象における比率
→厳密だが、適用範囲は狭い

個人確率は信念の度合い
→柔軟であり、適用範囲は広い

化学物質のリスク評価における確率概念は
どっち？→個人確率だと私は思う

IIのpreview

伝統的統計学ベイズ統計学

頻度型確率確信度型確率

II.仮説検定の｢筋違い｣さと
ベイズの本質的な利点
II-1 仮説検定とは

II-2 仮説検定はなぜ｢筋違い｣か

II-3 ベイズの本質的な利点

そもそも統計とは
数え上げることにより
現象の法則性を発見する

国勢調査
記述統計学全数調査
State→statistics

部分全体
統計的推測
帰納的推論
経験科学の発展の礎

頻度論的な統計的推測の枠組み

未知ではあるが
母集団固定された
パラメータ値

難
し
標本抽出推測い
数演
学
繹
標本モデル
（母集団は対数正規分布
するとか）

仮説検定の論理構成
「２群間に差があるか？」
差がないと仮定する（帰無仮説）
t検定, U検定, F検定,
カイ二乗検定, etc...
データから統計量Xを求める

「データから求めたX」以上に極端となるXの値が
帰無仮説が正しいという仮定のもとで得られる確率pを計算

p>有意水準 p<有意水準

帰無仮説は棄却不可帰無仮説は棄却
（差があるとはいえないと判断）（差があると判断）

仮想例：発病率に差があるか？
発病率暴露群 1000人中
^ 16人発病
θ=0.01 θ=0.016
(既知) (n=1000)
暴露群もθ=0.01だと仮定する（帰無仮説）

発病者数 (r=16) が統計量

帰無仮説（θ=0.01）が正しいとき
n=1000で発病者数rが16以上となる確率を計算


0.12
帰
無 0.10

仮
0.08

説 p<0.05
r.series

の
0.06

基 ^
0.04

で θ=0.016
の r=16
0.02

確
0.00

率 0 5 10 15 20 25 30

発病者数 r(n=1000）
Index

帰無仮説のもとでは5%以下の確率で
0.12
帰
しか起こらない稀な事象が起こった
無 0.10

仮
0.08

説 p<0.05
r.series

の暴露群は有意に発病率が高い
0.06

基 ^
0.04

で θ=0.016
の r=16
0.02

確
0.00

率 0 5 10 15 20 25 30

発病者数 r(n=1000）
Index

ちなみに：p値の意味は？
p<0.05で
帰無仮説が棄却

帰無仮説が正しい確率が
5%以下
対立仮説が正しい確率が
95%以上

帰無仮説が正しいときに
（全く同じ調査方法で）
今回のデータが得られる確率が5%以下

デミングの批判
http://ja.wikipedia.org/wiki/ファイル:W._Edwards_Deming.jpg

WE Deming
(1900-1993)
品質管理の神
日本復興の立役者

デミングの批判
http://ja.wikipedia.org/wiki/ファイル:W._Edwards_Deming.jpg

WE Deming
(1900-1993)
品質管理の神
日本復興の立役者

実際の問題はAとB、二つの処理の違いが有意か
どうかなどではない。（両者に）差異があるとす
ると・・その差異がどんなにわずかなものであっ
ても実験をかなりの回数くり返せば有意となる。

サルツブルグ「統計学を拓いた異才たち」より引用


0.12
帰
無 0.10

仮
0.08

説 p<0.05
r.series

の
0.06

基 ^
0.04

で θ=0.016
の r=16
0.02

確
0.00

率 0 5 10 15 20 25 30

発病者数 (サンプル数1000人中）
Index

暴露群は有意に発病率が高い
0.12
帰
無 0.10

仮
0.08

説 p<0.05
r.series

の
0.06

基 ^
0.04

で θ=0.016
の r=16
0.02

確
0.00

率 0 5 10 15 20 25 30

Index


帰
無 0.15 p<0.05
仮
説
0.10
r.series

の ^
基 θ=0.016
で r=8
0.05

の
確
0.00

率
0 5 10 15

Index

暴露群の発病率は有意差なし
帰
無 0.15
p<0.05
仮
説
0.10
r.series

の ^
基 θ=0.016
で r=8
0.05

の
確
0.00

率
0 5 10 15

Index


0.012
帰
無 0.010

仮
0.008
r=1050
説 p<0.05
r.series

0.006

の
基 ^
θ=0.016
0.004

で r=1600
の
0.002

確
0.000

率
800 1000 1200 1400 1600 1800 2000

Index


0.012
暴露群は有意に発病率が高い
帰
無 0.010

仮
r=10500.008

説 p<0.05
r.series

0.006

の
基 ^
θ=0.016
0.004

で r=1600
の
0.002

確
0.000

率
800 1000 1200 1400 1600 1800 2000

Index

有意差の意味って？
有意差リスク
^
n=1000, θ=0.16 ありあり？
^
n=500, θ=0.16 なしなし？？
^ あり？
n=100000, θ=0.16 あり
^ あり
n=100000, θ=0.106 あり？？

｢有意差｣はリスクの指標とはならない！

そもそも：目的が違う
仮説検定リスク分析

データデータ

帰無仮説 vs 対立仮説予測・制御
科学の文法
架空の敵
K.Pearson
真理実利
あるいはその近似としての効用を最大化する
最も尤もらしい仮説意思決定の支援

リスク解析のゴール統計的推論の３つのフェーズ
定量的推定

バラメータ値の
定量的推定

情報量規準仮説検定

データマイニング探索的データ解析

リスク解析のゴール統計的推論の３つのフェーズ
定量的推定

バラメータ値の
定量的推定

情報量規準仮説検定
リスク分析の専門書には
仮説検定の話は殆んど全く出てこない
データマイニング探索的データ解析

仮説検定の実害（１）
不毛かつ非本質的な議論の元凶の一つ

｢有意差なし｣と｢リスクなし｣の混同

0/1的リスク認識の一つの源

薬剤疫学 J nJP ama o pd mil 1()D c20：2
p h r c e ie o, 22 e 07 5

報告

特別シンポジウム
誰得？
「インフルエンザ罹患後の異常行動と薬剤疫学」
開催報告

「ある特定区間における有意差のあるなし」
特別シンポジウム組織委員会：
八重ゆかり（東京大学大学院疫学・予防保学博士後期課程)
津谷喜一郎（東京大学大学院薬学系研究科医薬政策学)
大橋靖雄（東京大学大学院医学系研究科共康医学専攻生物統計学)

仮説検定の実害（２）
筋違いな適用が多すぎ
データが正規分布に従うか？
適合度検定しよう
有意差なし
正規分布でOK!
正規分布を仮定したモデル
でリスクの予測
予測が目的ならモデル選択等を使って！

さよなら仮説検定：生態リスク
ワークショプの結論：
1. 無影響濃度は毒性試験のサマリー
としては段階的に廃止していくべきである
Unclassified ENV/MC/CHEM(98)18
Organisation de Coopération et de Développement Economiques OLIS : 27-Jan-1998
Organisation for Economic Co-operation and Development Dist. : 28-Jan-1998
__________________________________________________________________________________________
Or. Eng.
ENVIRONMENT DIRECTORATE
Unclassified
ENV/MC/CHEM(98)18

CHEMICALS GROUP AND MANAGEMENT COMMITTEE

1998
Report of the OECD Workshop on
Statistical Analysis of Aquatic Toxicity
OECD SERIES ON TESTING AND ASSESSMENT
Number 10

Report of the OECD Workshop on Statistical Analysis of Aquatic Toxicity Data

さよなら仮説検定：生態リスク
毒性の強さの指標：無影響濃度

有意差あり
*
無影響濃度 *
対照区 *
死亡率

０ 4 16 64 256 1024
化学物質濃度(mg/L)

さよなら仮説検定：ヒト健康 EPA/630/R-94/007
February 1995

無毒性量よりもベンチマーク容量
を毒性指標として使っていくべきである

EPA/630/R-94/007
February 1995

THE USE OF THE BENCHMARK DOSE APPROACH
IN HEALTH RISK ASSESSMENT
1995
THE USE OF THE BENCHMARK DOSE
APPROACH IN HEALTH RISKTHE USE OF THE BENCHMARK DOSE APPROACH
IN HEALTH RISK ASSESSMENT

Risk Assessment Forum
U.S. Environmental Protection Agency
Washington, DC 20460

さよなら仮説検定：保全生態学

2003

信頼区間を考えよう
暴露群における発病率θの90%信頼区間
type-I type-II
n=500 ●

n=1000 ●

n=100000 ●

0.000 0.005 0.010 0.015 0.020 0.025 0.030

発病率θ

ちなみに：区間推定の解釈
90%信頼区間が
0.013 < θ < 0.029

θの真の値が0.013∼0.029
の間にある確率が90%

全く同じ方法で調査および
信頼区間の算出を繰り返したときに
100回中90回はθの真の値がそれらの区間に含まれる

わかりにくい！

II-2のまとめ
仮説検定とリスク分析はそもそもの
目的が違うので相性が悪い

有意性は誤解の元になりやすい指標

結論：仮説検定は使わないのが吉

区間推定的／モデル選択的な方向で！
頻度主義は区間的推定に向かないと思う

頻度論的な統計的推測の枠組み

未知ではあるが
母集団固定された
パラメータ値

難
し
標本抽出推測い
数
学

標本モデル
（母集団は対数正規分布
するとか）

ベイズにとってパラメータとは
未知ではあるが未知パラメータ
固定されたは確率的に
パラメータ値分布する

？
確確
率率

パラメータの値パラメータの値

頻度主義ベイズ主義（個人確率）


？分からなさ

確確
率率




？全く分からない
確確
率率




？とてもよく分かってます

確確
率率



ベイズによる統計的推測の枠組み
事前分布事後分布

確
率＋データ

ベイズの定理

ベイズの定理
事後分布尤度＊事前分布
f (data | param) p( param)
p( param | data) =
" f (data | param) p( param)dparam

データを得た後の
!
データを得る前の
確信の度合い確信の度合い
パラメータとデータの
適合ぐあい（モデル）

仮想例：発病率の推定
暴露群
^ 1000人中16人発病
θ=0.016
事後分布＝尤度＊事前分布
f (r = 16 | θ ) p(θ )
p(θ | r = 16) =
∫ f (r = 16 | θ ) p(θ )θ

p(θ | r = 16) ∝ Be(16 +1,1000 −16 +1)
€
事後分布！

暴露群
^ 1000人中16人発病
θ=0.016
100

x <- seq(0, 0.04, length=100)
y <- dbeta(x,1+16,1000-16+1)
plot(x, y,type="h")
事後分布
80
60
y

40
20
0

0.00 0.01 0.02 0.03 0.04

発病率θ x

暴露群
^ 1000人中16人発病
θ=0.016
100

x <- seq(0, 0.04, length=100)
y <- dbeta(x,1+16,1000-16+1)
plot(x, y,type="h")
事後分布
80
60
y

90%信用
40

区間
20
0

0.00 0.01 0.02 0.03 0.04

発病率θ x

ベイズ的な区間推定の解釈
90%信用区間が
0.011 < θ < 0.024

θが0.011∼0.024の間に
ある確率が90%

わかりやすい！

ベイズとリスク分析の相性の良さ
事前分布 Probability 事後分布

100
80
1.4

Probability
1.2

60
+データ→
Effect size
Effect Size

y
1.0
y

40
0.8

20
0.6

0.00 0.01 0.02 0.03 0.04

0
x

発病率θ 0.00 0.01 0.02 0.03 0.04

発病率θ
x

常にEffect sizeとProbabilityの
情報の全体を取り扱う


100
80
1.4

Probability
1.2

60
+データ→
Effect size
Effect Size

y
1.0
y

40
0.8

20
0.6

0.00 0.01 0.02 0.03 0.04

0
x

発病率θ 0.00 0.01 0.02 0.03 0.04

発病率θ
x

Risk = f(Effect size,Probability)


100
トミー

80
1.4

Probability
1.2

マツ

60
+データ画像
→
Effect size
Effect Size

y
1.0
y

40
0.8

20
0.6

0.00 0.01 0.02 0.03 0.04

0
x

発病率θ 0.00 0.01 0.02 0.03 0.04

発病率θ
x

ベイズとリスクの相性はばっちり
Risk = f(Effect size,Probability)

それぞれの手法の見ているもの
y

100
80
60
40
20
0
ベイズ

0.00 0.01 0.02 0.03 0.04

発病率θ x

y

100
80
60
40
20
0
ベイズ

0.00 0.01 0.02 0.03 0.04

発病率θ 区間推定
x


仮説検定
y

100
80
60
40
20
0
ベイズ

0.00 0.01 0.02 0.03 0.04

発病率θ 区間推定
x

＊本質論じゃなくて実用的な話

100
80
60
y

40
20
0

0.00 0.01 0.02 0.03 0.04

発病率θ
x

発病率θ
Bootstrap 最尤法でも良くね？

乱暴に言うと実はbootstrapとMCMCって
ユーザー視点から見ると実は似てるかも
ベイズ
bootstrap （MCMC）
データデータセットをデータ尤度と事前情報に
応じてパラメータを
セット乱数的に生成セット乱数的に生成

データ
ｄｄｄｄ
セット
最尤推定
100

100
Probability Eﬀect Probability Eﬀect
80

80
60

60
y

y
40

40
20

20
0

0

0.00 0.01 0.02 0.03 0.04 0.00 0.01 0.02 0.03 0.04

x x

パラメータの推定分布パラメータの事後分布

＊本質論じゃなくて実用的な話

100
80
60
y

40
20
0

0.00 0.01 0.02 0.03 0.04

発病率θ
x

発病率θ
Bootstrap 最尤法でも良いかも
＊ただし事前分布を積極的に利用しない場合に限る

II全体のまとめ
仮説検定の枠組みはリスク分析には向かな
い→区間推定的／モデル選択的方向で

ベイズ推定は常にprobabilityとeﬀect size全体
の情報を取り扱う→リスク分析に向く！

実用上はbootstrapとベイズは大差ないか
もしれない →事前分布の利用がキモ

IIIへ

III.デフォルトあるいは糊代として
の事前分布の利用
III-1 リスク分析と事前分布

III-2 助け合いvia事前分布：階層ベイズ

III-3 糊代としての事前分布の利用

事前分布とは
データを得る前のパラメータの値に
関する確信の度合いを示す

事前分布事後分布

確
率＋データ

事前分布とは
データを得る前のパラメータの値に
関する確信の度合いを示す

データがない場合の推定値

デフォルト値！

デフォルト値をベイズ的に眺める
よくある
リスク評価手法
データがないデフォルト値

1.0
0.8
0.6
y
1.4

0.4
ベイズ解析

0.2
1.2

0.0
0.00 0.01 0.02 0.03 0.04
1.0
y

x
0.8
0.6

0.00 0.01 0.02 0.03 0.04

x

事前分布リスク分析

デフォルト値をベイズ的に眺める
よくある
リスク評価手法
データがないデフォルト値

1.0
事前分布はリスク評価において

0.8
0.6
より好ましい性質をもつ

y
1.4

0.4
ベイズ解析

0.2
1.2

デフォルトである

0.0
0.00 0.01 0.02 0.03 0.04
1.0
y

x
0.8
0.6

0.00 0.01 0.02 0.03 0.04

x

事前分布リスク分析

ちなみに：事前分布とデータの関係

事前分布データ事後分布
n=500

80
70

60
60
50

40
y
40
y

30
40

20
20
10
30

0

0
0.00 0.01 0.02 0.03 0.04
0.00 0.01 0.02 0.03 0.04
20
y

x

x
10

n=10000
0

100 150 200 250 300 350
0.00 0.01 0.02 0.03 0.04
300

x
250
200
150
y

y
100
50

50
0

0.00 0.01 0.02 0.03 0.04

0
x
0.00 0.01 0.02 0.03 0.04

x

ちなみに：事前分布とデータの関係

事前分布データ事後分布
n=500

80
70

60
60
データが多い場合も少ない場合も
50

40
y
40
y

30
40

20
一貫したやり方で対応できる
20
10
30

0

0
0.00 0.01 0.02 0.03 0.04
0.00 0.01 0.02 0.03 0.04

リスク分析の枠組みが構築可能
20
y

x

x
10

n=10000
0

100 150 200 250 300 350
0.00 0.01 0.02 0.03 0.04
300

x
250
200
150
y

y
100
50

50
0

0.00 0.01 0.02 0.03 0.04

0
x
0.00 0.01 0.02 0.03 0.04

x

事前分布はどう決める？
1 無情報分布（平らな分布）
最尤法とほぼ同等の結果が得られる

2 他のものから決める
・過去の研究・知見など
・歴史的コンセンサス
・専門家へのインタビュー
猫の手も借りたいときの奥の手

3 データそのものから決める
階層ベイズモデル

III-1のまとめ
事前分布は柔軟なデフォルトである
→リスク分析の枠組みと親和性が高い

事前分布の決め方はいろいろある
→データそのものから決める III-2へ

例：地域別発病率仮想データの解析
仮想データの作成

発病率一定 2000地域
人口は100∼10000
θ=0.0001 人の一様分布

2000地域の発病率の仮想データを
乱数的に作成


0.0030
●

●

●

発
●
0.0020

病
●
●
z1.new

●
●

率
●
0.0010

●
●
●
●● ● ●
● ●●
●●
● ● ●
●
●● ●● ●● ●
●●
● ●●
●● ●
●●
●
●●
● ●● ●
●● ● ● ● ●● ●● ●
●●
●● ● ●● ●
●●
●●
●●
●●●
●●
●●
●●
● ●●
●● ●
●● ●
●● ●
● ●●●●●●
● ● ●● ● ● ● ● ●● ●●
● ●● ●
●
●● ● ●
●● ● ●
●●●
●●●
●●●●
●●●●●
●● ●●●
●●●●●
● ●●●●
●●●●●● ● ● ●● ●● ● ●●●●
● ●●●●●
●●●●●●●
●● ●●●● ● ● ●●
● ●●●●●●●●● ●
●●●●●●●● ●
●
● ● ● ●● ●
●●●●●●●●● ● ● ●●
● ●
0.0000

●● ●●●●●●
● ●●●●●●●
●● ● ●●●●●●
● ●●● ●●●●●
● ●●●●●●●●●●●●●●●
● ●●●●● ●●●●●●●●●●
● ●●●●●●●●●●●●●●
●●●●●●●●●●● ●●●
● ● ●●● ●●
● ●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●● ●●●●●●●●●●●●●● ●●●●●●●●●●● ●●●● ●● ●● ●●●●●● ●
● ●●●●● ●●●● ● ●●
●●● ● ●● ● ●●● ●●●● ● ● ● ●● ●

0 2000 4000 6000 8000 10000

人口 y.new


0.0030
●

● 人口が小さいほど
高リスク？
●

発
●
0.0020

病
●
●
z1.new

●
●

率
●
0.0010

●
●
●
●● ● ●
● ●●
●●
● ● ●
●
●● ●● ●● ●
●●
● ●●
●● ●
●●
●
●●
● ●● ●
●● ● ● ● ●● ●● ●
●●
●● ● ●● ●
●●
●●
●●
●●●
●●
●●
●●
● ●●
●● ●
●● ●
●● ●
● ●●●●●●
● ● ●● ● ● ● ● ●● ●●
● ●● ●
●
●● ● ●
●● ● ●
●●●
●●●
●●●●
●●●●●
●● ●●●
●●●●●
● ●●●●
●●●●●● ● ● ●● ●● ● ●●●●
● ●●●●●
●●●●●●●
●● ●●●● ● ● ●●
● ●●●●●●●●● ●
●●●●●●●● ●
●
● ● ● ●● ●
●●●●●●●●● ● ● ●●
● ●
0.0000

●● ●●●●●●
● ●●●●●●●
●● ● ●●●●●●
● ●●● ●●●●●
● ●●●●●●●●●●●●●●●
● ●●●●● ●●●●●●●●●●
● ●●●●●●●●●●●●●●
●●●●●●●●●●● ●●●
● ● ●●● ●●
● ●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●● ●●●●●●●●●●●●●● ●●●●●●●●●●● ●●●● ●● ●● ●●●●●● ●
● ●●●●● ●●●● ● ●●
●●● ● ●● ● ●●● ●●●● ● ● ● ●● ●

0 2000 4000 6000 8000 10000

人口 y.new


0.0030
p=0.002,
●

●

●
有意だ！大変だ！
発
●
0.0020

病
●
●
z1.new

●
●

率
●
0.0010

●
●
●
●● ● ●
● ●●
●●
● ● ●
●
●● ●● ●● ●
●●
● ●●
●● ●
●●
●
●●
● ●● ●
●● ● ● ● ●● ●● ●
●●
●● ● ●● ●
●●
●●
●●
●●●
●●
●●
●●
● ●●
●● ●
●● ●
●● ●
● ●●●●●●
● ● ●● ● ● ● ● ●● ●●
● ●● ●
●
●● ● ●
●● ● ●
●●●
●●●
●●●●
●●●●●
●● ●●●
●●●●●
● ●●●●
●●●●●● ● ● ●● ●● ● ●●●●
● ●●●●●
●●●●●●●
●● ●●●● ● ● ●●
● ●●●●●●●●● ●
●●●●●●●● ●
●
● ● ● ●● ●
●●●●●●●●● ● ● ●●
● ●
0.0000

●● ●●●●●●
● ●●●●●●●
●● ● ●●●●●●
● ●●● ●●●●●
● ●●●●●●●●●●●●●●●
● ●●●●● ●●●●●●●●●●
● ●●●●●●●●●●●●●●
●●●●●●●●●●● ●●●
● ● ●●● ●●
● ●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●● ●●●●●●●●●●●●●● ●●●●●●●●●●● ●●●● ●● ●● ●●●●●● ●
● ●●●●● ●●●● ● ●●
●●● ● ●● ● ●●● ●●●● ● ● ● ●● ●

0 2000 4000 6000 8000 10000

人口 y.new


0.0030
●

●

●
バイアスを避けたい！
発
●
0.0020

病疾病地図における
●
●
z1.new

●
●
小地域問題
率
●
0.0010

●
●
●
●● ● ●
● ●●
●●
● ● ●
●
●● ●● ●● ●
●●
● ●●
●● ●
●●
●
●●
● ●● ●
●● ● ● ● ●● ●● ●
●●
●● ● ●● ●
●●
●●
●●
●●●
●●
●●
●●
● ●●
●● ●
●● ●
●● ●
● ●●●●●●
● ● ●● ● ● ● ● ●● ●●
● ●● ●
●
●● ● ●
●● ● ●
●●●
●●●
●●●●
●●●●●
●● ●●●
●●●●●
● ●●●●
●●●●●● ● ● ●● ●● ● ●●●●
● ●●●●●
●●●●●●●
●● ●●●● ● ● ●●
● ●●●●●●●●● ●
●●●●●●●● ●
●
● ● ● ●● ●
●●●●●●●●● ● ● ●●
● ●
0.0000

●● ●●●●●●
● ●●●●●●●
●● ● ●●●●●●
● ●●● ●●●●●
● ●●●●●●●●●●●●●●●
● ●●●●● ●●●●●●●●●●
● ●●●●●●●●●●●●●●
●●●●●●●●●●● ●●●
● ● ●●● ●●
● ●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●● ●●●●●●●●●●●●●● ●●●●●●●●●●● ●●●● ●● ●● ●●●●●● ●
● ●●●●● ●●●● ● ●●
●●● ● ●● ● ●●● ●●●● ● ● ● ●● ●

0 2000 4000 6000 8000 10000

人口 y.new

経験ベイズ法を使ってみよう
地域ごとの発病率 θは連続的
に分布すると仮定

地域ごとの
データそのもの
頻度から最尤推定

発病率 θ 事前分布
として利用

経験ベイズ法を使ってみよう
地域ごとの発病率 θは連続的
に分布すると仮定

250
2000地点の

200
データそのもの

150
y.temp
から最尤推定頻度

100
50
0
0.000 0.005 0.010 0.015 0.020 0.025 0.030

Gamma(0.1,1115)
x

発病率 θ

事前分布を使って解析してみる
事前分布
Gamma(0.1,11 事後分布
15)
250

頻

400
200

地点ごと
＋のデータ

300
150

度

y.temp
y.temp

200
100

100
50

0
0

0.000 0.005 0.010 0.015 0.020 0.025 0.030 0.000 0.005 0.010 0.015 0.020 0.025 0.030

x x

発病率 θ
ベイズの定理

なぜベイズ統計はリスク分析に向いているのか？その哲学上および実用上の理由

なぜベイズ統計はリスク分析に向いているのか？その哲学上および実用上の理由

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from takehikoihayashi

More from takehikoihayashi (11)

Recently uploaded

Recently uploaded (7)