More Related Content
Similar to StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章 (20)
More from Shushi Namba (12)
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
- 6. これまでの (心理) 統計
• 因子分析の前提=データが正規分布して
いること (松尾・中村、2002)
• 分散分析の前提=データが正規分布して
いること(村山先生のHP
我々=すでに正規分布のフレンズ
- 42. ベータ分布
• パラメータ: α、β=正の実数
• 範囲:θ=[0,1]の範囲の実数
• 平均:
α
α+β
• 標準偏差:
√αβ
α+β √α+β+1
• 範囲 0-1 の連続型分布=確率θ生成分布
→ 尤度がベルヌーイ・二項分布時に利用可能
+その他の [0, 1] の範囲の変数にも適用可能
- 57. 使用例:ソフトマックス回帰
• 店Aに3つの商品 (チョコ、飴、グミ) があると
する (K = 3)。
• その選択に関わりそうな説明変数=性別のみと
する。 すると以下のモデル式が提案可能。
• μ[n] = a + b*Sex[n] n = 個人
• θ[n] = softmax (μ[n]) = ベクトル
• Y[n] ~ Categorical(θ[n])
長さKのベクトル=3商品
の選択に関する線形結合
※softmax関数=expを用いて [-∞, ∞] をとりう
る値を正の値にしてから、合計が1になる (カテ
ゴリカル分布にあう) ように規格化するもの
- 67. 6.7 ディリクレ分布
• 確率密度関数
• Dirichlet (θ|α) =
1
B(α) 𝑘=1
K
θ 𝑘
α 𝑘−1
正規化定数 カーネル
Q. 正規化定数?カーネル?
A. 前者は積分を1にするための定数 (定義は本家)
後者は確率分布の本質的な部分
- 68. ディリクレ分布
• パラメータ: K=2以上の正の整数、
α=各要素は正の実数。
• 範囲:θ=長さKのベクトル。各要素は (0,1)
の範囲の実数で合計すると1になる
• 平均: θk の平均=α 𝑘/αsum
• 分散共分散:
θk の分散=α 𝑘 αsum − α 𝑘 / α 𝑠𝑢𝑚
2
(α 𝑠𝑢𝑚+1)
θk と θk’ の共分散 (k ≠ k’)=−α 𝑘α 𝑘‘/(α 𝑠𝑢𝑚
2 (α 𝑠𝑢𝑚+1))
※ 𝑘=1
𝐾
α 𝑘 = α 𝑠𝑢𝑚とする
- 72. 具体例
• 店Aの例 (3商品:チョコ、飴、グミ) で
いうとグミだけ選ばれやすいαの事前分
布の例は以下。
• θ = Dirichlet (α1 = 1, α2 = 1, α3 = 8)
• Y ~ Categorical(θ)
チョコ 飴 グミ
- 75. 6.8 指数分布
• 確率密度関数
• Exponential (y|λ) = λexp(−λ𝑦)
超参照(指数分布とポアソン分布のいけない関係):
http://www.slideshare.net/teramonagi/ss-11296227
※ 本家ではλではなくβですが、後でポアソン分布との関係をわ
かりやすくするためあえてλとしています。
※λ𝑒
− λ𝑦
- 79. 無記憶性の例
Pr(y > s+t | y > t) = P(y > s)
例: 指数分布に従うワイングラス
が壊れるまでの時間
→ 3年 (t) 使っても壊れない
→ その先1年 (s+t) で壊れる確率
= 使い始め1年 (s) で壊れる確率
2日連続で
記憶失う人
- 84. 6.9 ポアソン分布
• 確率密度関数
• Poisson (y|λ) =
1
𝑦!
λ 𝑦
exp(−λ)
参照=tera-monagi様の「指数分布とポアソン分布のいけない
関係」:http://www.slideshare.net/teramonagi/ss-11296227
- 85. ポアソン分布
• パラメータ: λ=正の実数
• 範囲:y=0,1,2…のいずれかの整数値
• 平均: λ
• 標準偏差:√λ
ただ一つのパラメーター
だけで特徴づけられる
パラメータ=平均なので
「パラメータλのポアソン分布」
or「平均λのポアソン分布」
呼び方
- 109. 正規分布の再生性
• 確率変数y1 ~ Normal(μ1, σ1) と
y2 ~ Normal(μ2, σ2) が独立で生成される
→ その和=Normal(μ1+ μ2, √ σ1 + σ2) に従う
• 例:子供の身長+タケノコ
μ1=100 μ2=30
+ =
μ1 + μ2=130
- 135. 使用例
• 分散パラメタの事前分布として
Cauchy (0, 2.5), Cauchy (0, 5)など
• 外れ値を含むモデルとして
ごくまれに出現する外れ値を許容するモデル
y[n] ~ cauchy (a + b * X[n], σ)
Cf. y[n] ~ normal(a + b * X[n], σ)
広島大学平川先生の資料より拝借
(Hirodai.stan発表非公開資料
7.9節へ
- 144. 6.16 二重指数分布 (ラプラス
分布)
• 確率密度関数
• DoubleExponential(y|μ, σ)
=
1
2σ
𝑒𝑥𝑝 −
𝑦−μ
σ
• 指数分布を二つ貼り合わせた
ような分布=二重指数分布
← p75
- 152. 1.確率分布の包括的理解に
• Lawrence et al. (2008: title=Univariate
Distribution Relationships)
• http://www.math.wm.edu/~leemis/chart/U
DR/UDR.html
分布同士の関係
が見れたり、分
布の詳細を見れ
たり出来るゾ!
- 154. Enjoy R & Stan !
And… Bayesian
Modeling!!
- 155. 参考文献①
• 当然アヒル本
• 各ページに記載されてるURLや資料
• 各分布のWiki
• ややこしい離散分布に関するまとめ
http://machine-
learning.hatenablog.com/entry/2016/03/26/21110
6
• 多項分布とディリクレ分布のまとめと可視化
http://y-
mattu.hatenablog.com/entry/2016/03/03/143451
- 156. 参考文献②
• 松尾太加志・中村知靖(2002) 誰も教えてく
れなかった因子分析-数式が 絶対に出てこな
い因子分析入門- 北大路書房
• 村山先生によるANOVAに関する解説
http://koumurayama.com/koujapanese/anova.h
tm
• 様々な確率分布probability distributions - 数理
的思考 - 中川雅央 【知と情報の科学】
http://www.biwako.shiga-
u.ac.jp/sensei/mnaka/ut/statdist.html