SlideShare a Scribd company logo
1 of 19
Download to read offline
20140610	
  
第3回「データ解析のための統計モデリング入門」読書会	
  
@siero5335	
  
一般化線形モデル	
  (GLM)	
  
ポアソン回帰:前半
Twitter ID: @siero5335
仕事: 某大学で
   化学物質曝露影響の解析
   測定法の開発してます
   専門: 環境化学、分析化学
R→ 測定結果のまとめに使用
 自己紹介
 3章前半アウトライン
目的
・モデリングの手順
・一般化線形モデル (GLM) の結果の見かた
実際の内容	
  
	
  
・データ取り込み	
  
	
  
・データの可視化	
  
	
  
・結果の確認	
  
	
  
・モデルをプロット上に書いて確認	
  
 d	
  <-­‐	
  read.csv("h=p://hosho.ees.hokudai.ac.jp/~kubo/stat/iwanamibook/fig/poisson/data3a.csv")
 3章で使うデータ
 3章で使うデータ	
  (可視化)
plot(d$x,	
  d$y,	
  pch	
  =	
  c(21,	
  19)[d$f])	
  
legend("topleV",	
  legend	
  =	
  c	
  ("C",	
  "T"),	
  pch	
  =	
  c	
  (21,	
  19))
体サイズが大きくなると種子数yが増加する…ような
 3章で使うデータ	
  (可視化)
plot(d$f,	
  d$y)
施肥処理の効果fはあんまり種子数と関係がなさそう
個体ごとの平均種子数yを	
  	
  
体サイズxや施肥処理fから推定したい	
  
	
  
可視化の結果、施肥処理はあんまり関係がなさそう
だったので、ひとまず体サイズと種子数の関係を解析	
  
	
  
ある個体iにおいて種子数がyiである確率	
  
p(yi|λi)はポアソン分布に従っていて	
  
	
  
	
  
	
  
と仮定する。	
  
 モデルの目的
p(yi | λi ) =
λi
yi
exp(−λi )
yi !
一般化線形モデル:	
  Generalized	
  linear	
  model	
  
	
  
GLMの特徴	
  
	
  
線形予測子	
  	
  
誤差構造に正規分布以外の確率分布を指定できる	
  	
  
リンク関数が使える	
  
	
  
 一般化線形モデル	
  (GLM)
 線形予測子
λi = exp(β1 + β2 xi )
切片 傾き
λi = exp(β1 + β2 xi )
線形予測子
定数項および説明変数の係数と説明変数の積からなる
 GLMでよく使われる確率分布
“gaussian”	
  
	
  
“poisson”	
  
	
  
“binomial”	
  
	
  
“Gamma”	
  
	
  
	
  
連続変数,	
  -­‐∞	
  ∼	
  +∞	
  
	
  
離散変数,	
  	
  0	
  ∼	
  +∞	
  
	
  
離散変数,	
  0	
  ∼	
  +∞	
  
	
  
連続変数で正の値,	
  ∼	
  +∞	
  
	
  
glm(formula,	
  family	
  =	
  gaussian	
  (link	
  =	
  “idenaty”),	
  	
  data)
目的変数の性質や可視化を利用して当てはまりそうなものを選択
6章で詳しい話が出ます
マニアックな方にはこちら	
  
	
  
統計分布ハンドブック	
  
	
  
h=p://amzn.to/1tL2oqh
	
  
 代表的なリンク関数
“idenaty”	
  
	
  
“log”	
  
	
  
“logit”	
  
	
  
“sqrt”	
  
	
  
“1/mu^2”	
  
	
  
“inverse”	
  
	
  
“power”
	
  
	
  
	
  
恒等リンク,	
  目的変数の期待値λ	
  =	
  線形予測子x	
  
	
  
対数リンク,	
  log	
  (λ)	
  =	
  x	
  
	
  
ロジットリンク,	
  log(λ/1-­‐λ)	
  =	
  x	
  
	
  
平方根リンク,	
  sqrt(λ)	
  =	
  x	
  
	
  
1/λ2	
  =	
  線形予測子x	
  
	
  
逆数リンク,	
  1/λ	
  =	
  x	
  
	
  
べき乗リンク,	
  λn	
  =	
  x	
  
指定した確率分布に線形予測子を上手くあてはめるために使う
glm(formula,	
  family	
  =	
  gaussian	
  (link	
  =	
  “idenaty”),	
  	
  data)
 結果の見かた1,	
  Rコードと結果の表示
fit	
  <-­‐	
  glm(y	
  ~x,	
  family	
  =	
  poisson(link	
  =	
  “log”),	
  data	
  =	
  d	
  )	
  
	
  
summary(fit)	
  
	
  
	
  Coefficients:	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  Esamate	
  Std.	
  Error	
  z	
  value	
  Pr(>|z|)	
  	
  	
  	
  	
  
(Intercept)	
  	
  	
  1.29172	
  	
  	
  	
  0.36369	
  	
  	
  3.552	
  0.000383	
  ***	
  
x	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  0.07566	
  	
  	
  	
  0.03560	
  	
  	
  2.125	
  0.033580	
  *	
  	
  
 結果の見かた2,	
  切片,	
  傾き
fit	
  <-­‐	
  glm(y	
  ~x,	
  family	
  =	
  poisson(link	
  =	
  “log”),	
  data	
  =	
  d	
  )	
  
	
  
summary(fit)	
  
	
  
	
  Coefficients:	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  Esamate	
  Std.	
  Error	
  z	
  value	
  Pr(>|z|)	
  	
  	
  	
  	
  
(Intercept)	
  	
  	
  1.29172	
  	
  	
  	
  0.36369	
  	
  	
  3.552	
  0.000383	
  ***	
  
x	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  0.07566	
  	
  	
  	
  0.03560	
  	
  	
  2.125	
  0.033580	
  *	
  	
  
切片 傾き
λi = exp(β1 + β2 xi )
 結果の見かた,	
  標準誤差
fit	
  <-­‐	
  glm(y	
  ~x,	
  family	
  =	
  poisson(link	
  =	
  “log”),	
  data	
  =	
  d	
  )	
  
	
  
summary(fit)	
  
	
  
	
  Coefficients:	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  Esamate	
  Std.	
  Error	
  z	
  value	
  Pr(>|z|)	
  	
  	
  	
  	
  
(Intercept)	
  	
  	
  1.29172	
  	
  	
  	
  0.36369	
  	
  	
  3.552	
  0.000383	
  ***	
  
x	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  0.07566	
  	
  	
  	
  0.03560	
  	
  	
  2.125	
  0.033580	
  *	
  	
  
Std.	
  Error:	
  標準誤差	
  
推定値   のばらつきを標準偏差で表したもの	
  
推定値の精度の指標
β1,β2
 結果の見かた,	
  z値
fit	
  <-­‐	
  glm(y	
  ~x,	
  family	
  =	
  poisson(link	
  =	
  “log”),	
  data	
  =	
  d	
  )	
  
	
  
summary(fit)	
  
	
  
	
  Coefficients:	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  Esamate	
  Std.	
  Error	
  z	
  value	
  Pr(>|z|)	
  	
  	
  	
  	
  
(Intercept)	
  	
  	
  1.29172	
  	
  	
  	
  0.36369	
  	
  	
  3.552	
  0.000383	
  ***	
  
x	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  0.07566	
  	
  	
  	
  0.03560	
  	
  	
  2.125	
  0.033580	
  *	
  	
  
Z	
  value:	
  Z値
最尤推定値をSEで除した数	
  =	
  Esamate/Std.	
  Error	
  
	
  
Wald統計量とも呼ばれる。	
  
Wald信頼区間を構成して推定値が0から十分に離れているか確認できる。	
  
数字が大きい時ほど十分離れている	
  
	
  
	
   0から離れている	
   	
  その指標が有効である	
  
 結果の見かた,	
  Pr(>|z|)	
  
fit	
  <-­‐	
  glm(y	
  ~x,	
  family	
  =	
  poisson(link	
  =	
  “log”),	
  data	
  =	
  d	
  )	
  
	
  
summary(fit)	
  
	
  
	
  Coefficients:	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  Esamate	
  Std.	
  Error	
  z	
  value	
  Pr(>|z|)	
  	
  	
  	
  	
  
(Intercept)	
  	
  	
  1.29172	
  	
  	
  	
  0.36369	
  	
  	
  3.552	
  0.000383	
  ***	
  
x	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  0.07566	
  	
  	
  	
  0.03560	
  	
  	
  2.125	
  0.033580	
  *	
  	
  
Pr(>|z|)	
  
数字が大きいほどz値が0に近くなり、推定値が0に近いことを表
す。	
  
P値に見立てる人もいるが、信頼区間の指標と考えるのがベター
小さい値であるほど信頼区間が狭い	
   	
  推定値が信頼できそう
 結果の見かた,	
  対数最大尤度
>	
  logLik(fit)	
  
'log	
  Lik.'	
  -­‐235.3863	
  (df=2)
fit	
  <-­‐	
  glm(y	
  ~x,	
  family	
  =	
  poisson(link	
  =	
  “log”),	
  data	
  =	
  d	
  )	
  
対数最大尤度	
  (モデルの当てはまりの良さの指標)	
  を確認	
  
値が大きいほど当てはまりがよい	
  
	
  
df:	
  自由度を表す。	
  
  今回は最尤推定したパラメータ数が2個であることを示す。	
  
	
  
計算式は@kos59125さんの二章まとめスライドを参照	
  
h=p://1drv.ms/1nPspmJ	
  :2.4参照
 予測モデルの可視化
plot(d$x,	
  d$y,	
  pch	
  =	
  c(21,	
  19)[d$f])	
  
xx	
  <-­‐	
  seq(min(d$x),	
  max(d$x),	
  length	
  =	
  50)	
  
lines(xx,	
  exp(1.29	
  +	
  0.0757*	
  xx),	
  lwd	
  =2)	
  
	
  
作ったモデルをプロット上に書いて確認	
  
 モデリングのサイクル(3章前半時点)
データ取り込み	
  
	
  
データの可視化	
  	
  
	
  
モデルの要約,	
  最大対数尤度の確認	
  
	
  
予測モデルの可視化	
  
1セット
今後は?	
  
	
  
変数を増やした場合にどうなるか → 後半	
  
複数のモデルを比較 → 4章,	
  5章	
  
誤差構造が他の確率分布の時は?	
  →	
  6章	
  

More Related Content

What's hot

Stanコードの書き方 中級編
Stanコードの書き方 中級編Stanコードの書き方 中級編
Stanコードの書き方 中級編Hiroshi Shimizu
 
SEMを用いた縦断データの解析 潜在曲線モデル
SEMを用いた縦断データの解析 潜在曲線モデルSEMを用いた縦断データの解析 潜在曲線モデル
SEMを用いた縦断データの解析 潜在曲線モデルMasaru Tokuoka
 
心理学者のためのGlmm・階層ベイズ
心理学者のためのGlmm・階層ベイズ心理学者のためのGlmm・階層ベイズ
心理学者のためのGlmm・階層ベイズHiroshi Shimizu
 
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展Shiga University, RIKEN
 
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-Shiga University, RIKEN
 
ロジスティック回帰分析の入門 -予測モデル構築-
ロジスティック回帰分析の入門 -予測モデル構築-ロジスティック回帰分析の入門 -予測モデル構築-
ロジスティック回帰分析の入門 -予測モデル構築-Koichiro Gibo
 
多重代入法の書き方 公開用
多重代入法の書き方 公開用 多重代入法の書き方 公開用
多重代入法の書き方 公開用 Koichiro Gibo
 
重回帰分析で交互作用効果
重回帰分析で交互作用効果重回帰分析で交互作用効果
重回帰分析で交互作用効果Makoto Hirakawa
 
第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知Chika Inoshita
 
ロジスティック回帰分析の書き方
ロジスティック回帰分析の書き方ロジスティック回帰分析の書き方
ロジスティック回帰分析の書き方Sayuri Shimizu
 
2 7.一般化線形混合モデル
2 7.一般化線形混合モデル2 7.一般化線形混合モデル
2 7.一般化線形混合モデルlogics-of-blue
 
一般化線形混合モデル isseing333
一般化線形混合モデル isseing333一般化線形混合モデル isseing333
一般化線形混合モデル isseing333Issei Kurahashi
 
統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)Kota Mori
 
一般線形モデル
一般線形モデル一般線形モデル
一般線形モデルMatsuiRyo
 
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章Shushi Namba
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介Naoki Hayashi
 
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門shima o
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)Takao Yamanaka
 
ブートストラップ法とその周辺とR
ブートストラップ法とその周辺とRブートストラップ法とその周辺とR
ブートストラップ法とその周辺とRDaisuke Yoneoka
 

What's hot (20)

Stanコードの書き方 中級編
Stanコードの書き方 中級編Stanコードの書き方 中級編
Stanコードの書き方 中級編
 
SEMを用いた縦断データの解析 潜在曲線モデル
SEMを用いた縦断データの解析 潜在曲線モデルSEMを用いた縦断データの解析 潜在曲線モデル
SEMを用いた縦断データの解析 潜在曲線モデル
 
心理学者のためのGlmm・階層ベイズ
心理学者のためのGlmm・階層ベイズ心理学者のためのGlmm・階層ベイズ
心理学者のためのGlmm・階層ベイズ
 
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
 
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-
 
ロジスティック回帰分析の入門 -予測モデル構築-
ロジスティック回帰分析の入門 -予測モデル構築-ロジスティック回帰分析の入門 -予測モデル構築-
ロジスティック回帰分析の入門 -予測モデル構築-
 
多重代入法の書き方 公開用
多重代入法の書き方 公開用 多重代入法の書き方 公開用
多重代入法の書き方 公開用
 
重回帰分析で交互作用効果
重回帰分析で交互作用効果重回帰分析で交互作用効果
重回帰分析で交互作用効果
 
第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知
 
Stan超初心者入門
Stan超初心者入門Stan超初心者入門
Stan超初心者入門
 
ロジスティック回帰分析の書き方
ロジスティック回帰分析の書き方ロジスティック回帰分析の書き方
ロジスティック回帰分析の書き方
 
2 7.一般化線形混合モデル
2 7.一般化線形混合モデル2 7.一般化線形混合モデル
2 7.一般化線形混合モデル
 
一般化線形混合モデル isseing333
一般化線形混合モデル isseing333一般化線形混合モデル isseing333
一般化線形混合モデル isseing333
 
統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)
 
一般線形モデル
一般線形モデル一般線形モデル
一般線形モデル
 
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
ブートストラップ法とその周辺とR
ブートストラップ法とその周辺とRブートストラップ法とその周辺とR
ブートストラップ法とその周辺とR
 

Similar to みどりぼん3章前半

20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則koba cky
 
分割表の作図・GLM・ベイズモデル http://goo.gl/qQ1Ok
分割表の作図・GLM・ベイズモデル http://goo.gl/qQ1Ok分割表の作図・GLM・ベイズモデル http://goo.gl/qQ1Ok
分割表の作図・GLM・ベイズモデル http://goo.gl/qQ1OkKubo_Takuya
 
Granger因果による 時系列データの因果推定(因果フェス2015)
Granger因果による時系列データの因果推定(因果フェス2015)Granger因果による時系列データの因果推定(因果フェス2015)
Granger因果による 時系列データの因果推定(因果フェス2015)Takashi J OZAKI
 
距離まとめられませんでした
距離まとめられませんでした距離まとめられませんでした
距離まとめられませんでしたHaruka Ozaki
 
20170422 数学カフェ Part1
20170422 数学カフェ Part120170422 数学カフェ Part1
20170422 数学カフェ Part1Kenta Oono
 
SGD+α: 確率的勾配降下法の現在と未来
SGD+α: 確率的勾配降下法の現在と未来SGD+α: 確率的勾配降下法の現在と未来
SGD+α: 確率的勾配降下法の現在と未来Hidekazu Oiwa
 
第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)Yoshitake Takebayashi
 
パターン認識モデル初歩の初歩
パターン認識モデル初歩の初歩パターン認識モデル初歩の初歩
パターン認識モデル初歩の初歩t_ichioka_sg
 
カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)Takumi Tsutaya
 
RStanとShinyStanによるベイズ統計モデリング入門
RStanとShinyStanによるベイズ統計モデリング入門RStanとShinyStanによるベイズ統計モデリング入門
RStanとShinyStanによるベイズ統計モデリング入門Masaki Tsuda
 
はじめてのベイズ推定
はじめてのベイズ推定はじめてのベイズ推定
はじめてのベイズ推定Kenta Matsui
 
20170923 excelユーザーのためのr入門
20170923 excelユーザーのためのr入門20170923 excelユーザーのためのr入門
20170923 excelユーザーのためのr入門Takashi Kitano
 
パターン認識 第10章 決定木
パターン認識 第10章 決定木 パターン認識 第10章 決定木
パターン認識 第10章 決定木 Miyoshi Yuya
 

Similar to みどりぼん3章前半 (20)

20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則
 
R seminar on igraph
R seminar on igraphR seminar on igraph
R seminar on igraph
 
分割表の作図・GLM・ベイズモデル http://goo.gl/qQ1Ok
分割表の作図・GLM・ベイズモデル http://goo.gl/qQ1Ok分割表の作図・GLM・ベイズモデル http://goo.gl/qQ1Ok
分割表の作図・GLM・ベイズモデル http://goo.gl/qQ1Ok
 
Salmon cycle
Salmon cycleSalmon cycle
Salmon cycle
 
Granger因果による 時系列データの因果推定(因果フェス2015)
Granger因果による時系列データの因果推定(因果フェス2015)Granger因果による時系列データの因果推定(因果フェス2015)
Granger因果による 時系列データの因果推定(因果フェス2015)
 
距離まとめられませんでした
距離まとめられませんでした距離まとめられませんでした
距離まとめられませんでした
 
C07
C07C07
C07
 
20170422 数学カフェ Part1
20170422 数学カフェ Part120170422 数学カフェ Part1
20170422 数学カフェ Part1
 
SGD+α: 確率的勾配降下法の現在と未来
SGD+α: 確率的勾配降下法の現在と未来SGD+α: 確率的勾配降下法の現在と未来
SGD+α: 確率的勾配降下法の現在と未来
 
C04
C04C04
C04
 
第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)
 
パターン認識モデル初歩の初歩
パターン認識モデル初歩の初歩パターン認識モデル初歩の初歩
パターン認識モデル初歩の初歩
 
カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)
 
Rを用いたGIS
Rを用いたGISRを用いたGIS
Rを用いたGIS
 
RStanとShinyStanによるベイズ統計モデリング入門
RStanとShinyStanによるベイズ統計モデリング入門RStanとShinyStanによるベイズ統計モデリング入門
RStanとShinyStanによるベイズ統計モデリング入門
 
R intro
R introR intro
R intro
 
はじめてのベイズ推定
はじめてのベイズ推定はじめてのベイズ推定
はじめてのベイズ推定
 
RとCDISC
RとCDISCRとCDISC
RとCDISC
 
20170923 excelユーザーのためのr入門
20170923 excelユーザーのためのr入門20170923 excelユーザーのためのr入門
20170923 excelユーザーのためのr入門
 
パターン認識 第10章 決定木
パターン認識 第10章 決定木 パターン認識 第10章 決定木
パターン認識 第10章 決定木
 

More from Akifumi Eguchi

PlaidML Kerasでやっていく #TokyoR 73
PlaidML Kerasでやっていく #TokyoR 73PlaidML Kerasでやっていく #TokyoR 73
PlaidML Kerasでやっていく #TokyoR 73Akifumi Eguchi
 
High-order factorization machines with R #tokyor 61
High-order factorization machines with R  #tokyor 61High-order factorization machines with R  #tokyor 61
High-order factorization machines with R #tokyor 61Akifumi Eguchi
 
Randomforestで高次元の変数重要度を見る #japanr LT
 Randomforestで高次元の変数重要度を見る #japanr LT Randomforestで高次元の変数重要度を見る #japanr LT
Randomforestで高次元の変数重要度を見る #japanr LTAkifumi Eguchi
 
統計的学習の基礎6章前半 #カステラ本
統計的学習の基礎6章前半 #カステラ本統計的学習の基礎6章前半 #カステラ本
統計的学習の基礎6章前半 #カステラ本Akifumi Eguchi
 
環境化学データ解析入門: 愛媛大講演資料 160728
環境化学データ解析入門: 愛媛大講演資料 160728環境化学データ解析入門: 愛媛大講演資料 160728
環境化学データ解析入門: 愛媛大講演資料 160728Akifumi Eguchi
 
統計的学習の基礎, 副読本紹介: An Introduction to Statistical Learning
統計的学習の基礎, 副読本紹介: An Introduction to Statistical Learning統計的学習の基礎, 副読本紹介: An Introduction to Statistical Learning
統計的学習の基礎, 副読本紹介: An Introduction to Statistical LearningAkifumi Eguchi
 
Mxnetで回帰 #TokyoR 53th
Mxnetで回帰 #TokyoR 53thMxnetで回帰 #TokyoR 53th
Mxnetで回帰 #TokyoR 53thAkifumi Eguchi
 
子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測
子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測
子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測Akifumi Eguchi
 
ぞくパタ最終回: 13章「共クラスタリング」
ぞくパタ最終回: 13章「共クラスタリング」ぞくパタ最終回: 13章「共クラスタリング」
ぞくパタ最終回: 13章「共クラスタリング」Akifumi Eguchi
 
Deep learningもくもくハッカソンまとめup用
Deep learningもくもくハッカソンまとめup用Deep learningもくもくハッカソンまとめup用
Deep learningもくもくハッカソンまとめup用Akifumi Eguchi
 
Tokyo webmining 43 "化学物質汚染のデータ解析・リスク評価についての私見"
Tokyo webmining 43 "化学物質汚染のデータ解析・リスク評価についての私見"Tokyo webmining 43 "化学物質汚染のデータ解析・リスク評価についての私見"
Tokyo webmining 43 "化学物質汚染のデータ解析・リスク評価についての私見"Akifumi Eguchi
 
第2回ぞくパタ
第2回ぞくパタ第2回ぞくパタ
第2回ぞくパタAkifumi Eguchi
 
第一回ぞくパタ
第一回ぞくパタ第一回ぞくパタ
第一回ぞくパタAkifumi Eguchi
 
ぞくパタ はじめに
ぞくパタ はじめにぞくパタ はじめに
ぞくパタ はじめにAkifumi Eguchi
 
みどりぼん9章前半
みどりぼん9章前半みどりぼん9章前半
みどりぼん9章前半Akifumi Eguchi
 

More from Akifumi Eguchi (19)

PlaidML Kerasでやっていく #TokyoR 73
PlaidML Kerasでやっていく #TokyoR 73PlaidML Kerasでやっていく #TokyoR 73
PlaidML Kerasでやっていく #TokyoR 73
 
High-order factorization machines with R #tokyor 61
High-order factorization machines with R  #tokyor 61High-order factorization machines with R  #tokyor 61
High-order factorization machines with R #tokyor 61
 
Randomforestで高次元の変数重要度を見る #japanr LT
 Randomforestで高次元の変数重要度を見る #japanr LT Randomforestで高次元の変数重要度を見る #japanr LT
Randomforestで高次元の変数重要度を見る #japanr LT
 
統計的学習の基礎6章前半 #カステラ本
統計的学習の基礎6章前半 #カステラ本統計的学習の基礎6章前半 #カステラ本
統計的学習の基礎6章前半 #カステラ本
 
Dslt祭り2夜
Dslt祭り2夜Dslt祭り2夜
Dslt祭り2夜
 
環境化学データ解析入門: 愛媛大講演資料 160728
環境化学データ解析入門: 愛媛大講演資料 160728環境化学データ解析入門: 愛媛大講演資料 160728
環境化学データ解析入門: 愛媛大講演資料 160728
 
統計的学習の基礎, 副読本紹介: An Introduction to Statistical Learning
統計的学習の基礎, 副読本紹介: An Introduction to Statistical Learning統計的学習の基礎, 副読本紹介: An Introduction to Statistical Learning
統計的学習の基礎, 副読本紹介: An Introduction to Statistical Learning
 
Mxnetで回帰 #TokyoR 53th
Mxnetで回帰 #TokyoR 53thMxnetで回帰 #TokyoR 53th
Mxnetで回帰 #TokyoR 53th
 
子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測
子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測
子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測
 
ぞくパタ最終回: 13章「共クラスタリング」
ぞくパタ最終回: 13章「共クラスタリング」ぞくパタ最終回: 13章「共クラスタリング」
ぞくパタ最終回: 13章「共クラスタリング」
 
Deep learningもくもくハッカソンまとめup用
Deep learningもくもくハッカソンまとめup用Deep learningもくもくハッカソンまとめup用
Deep learningもくもくハッカソンまとめup用
 
Tokyo webmining 43 "化学物質汚染のデータ解析・リスク評価についての私見"
Tokyo webmining 43 "化学物質汚染のデータ解析・リスク評価についての私見"Tokyo webmining 43 "化学物質汚染のデータ解析・リスク評価についての私見"
Tokyo webmining 43 "化学物質汚染のデータ解析・リスク評価についての私見"
 
第2回ぞくパタ
第2回ぞくパタ第2回ぞくパタ
第2回ぞくパタ
 
第一回ぞくパタ
第一回ぞくパタ第一回ぞくパタ
第一回ぞくパタ
 
ぞくパタ はじめに
ぞくパタ はじめにぞくパタ はじめに
ぞくパタ はじめに
 
Tokyo.r #44 lt.pptx
Tokyo.r #44 lt.pptxTokyo.r #44 lt.pptx
Tokyo.r #44 lt.pptx
 
Tokyo r #43
Tokyo r #43Tokyo r #43
Tokyo r #43
 
みどりぼん9章前半
みどりぼん9章前半みどりぼん9章前半
みどりぼん9章前半
 
Tokyo R #39
Tokyo R #39Tokyo R #39
Tokyo R #39
 

みどりぼん3章前半

  • 1. 20140610   第3回「データ解析のための統計モデリング入門」読書会   @siero5335   一般化線形モデル  (GLM)   ポアソン回帰:前半
  • 2. Twitter ID: @siero5335 仕事: 某大学で    化学物質曝露影響の解析    測定法の開発してます    専門: 環境化学、分析化学 R→ 測定結果のまとめに使用  自己紹介
  • 3.  3章前半アウトライン 目的 ・モデリングの手順 ・一般化線形モデル (GLM) の結果の見かた 実際の内容     ・データ取り込み     ・データの可視化     ・結果の確認     ・モデルをプロット上に書いて確認  
  • 5.  3章で使うデータ  (可視化) plot(d$x,  d$y,  pch  =  c(21,  19)[d$f])   legend("topleV",  legend  =  c  ("C",  "T"),  pch  =  c  (21,  19)) 体サイズが大きくなると種子数yが増加する…ような
  • 7. 個体ごとの平均種子数yを     体サイズxや施肥処理fから推定したい     可視化の結果、施肥処理はあんまり関係がなさそう だったので、ひとまず体サイズと種子数の関係を解析     ある個体iにおいて種子数がyiである確率   p(yi|λi)はポアソン分布に従っていて         と仮定する。    モデルの目的 p(yi | λi ) = λi yi exp(−λi ) yi !
  • 8. 一般化線形モデル:  Generalized  linear  model     GLMの特徴     線形予測子     誤差構造に正規分布以外の確率分布を指定できる     リンク関数が使える      一般化線形モデル  (GLM)
  • 9.  線形予測子 λi = exp(β1 + β2 xi ) 切片 傾き λi = exp(β1 + β2 xi ) 線形予測子 定数項および説明変数の係数と説明変数の積からなる
  • 10.  GLMでよく使われる確率分布 “gaussian”     “poisson”     “binomial”     “Gamma”       連続変数,  -­‐∞  ∼  +∞     離散変数,    0  ∼  +∞     離散変数,  0  ∼  +∞     連続変数で正の値,  ∼  +∞     glm(formula,  family  =  gaussian  (link  =  “idenaty”),    data) 目的変数の性質や可視化を利用して当てはまりそうなものを選択 6章で詳しい話が出ます マニアックな方にはこちら     統計分布ハンドブック     h=p://amzn.to/1tL2oqh  
  • 11.  代表的なリンク関数 “idenaty”     “log”     “logit”     “sqrt”     “1/mu^2”     “inverse”     “power”       恒等リンク,  目的変数の期待値λ  =  線形予測子x     対数リンク,  log  (λ)  =  x     ロジットリンク,  log(λ/1-­‐λ)  =  x     平方根リンク,  sqrt(λ)  =  x     1/λ2  =  線形予測子x     逆数リンク,  1/λ  =  x     べき乗リンク,  λn  =  x   指定した確率分布に線形予測子を上手くあてはめるために使う glm(formula,  family  =  gaussian  (link  =  “idenaty”),    data)
  • 12.  結果の見かた1,  Rコードと結果の表示 fit  <-­‐  glm(y  ~x,  family  =  poisson(link  =  “log”),  data  =  d  )     summary(fit)      Coefficients:                                              Esamate  Std.  Error  z  value  Pr(>|z|)           (Intercept)      1.29172        0.36369      3.552  0.000383  ***   x                                        0.07566        0.03560      2.125  0.033580  *    
  • 13.  結果の見かた2,  切片,  傾き fit  <-­‐  glm(y  ~x,  family  =  poisson(link  =  “log”),  data  =  d  )     summary(fit)      Coefficients:                                              Esamate  Std.  Error  z  value  Pr(>|z|)           (Intercept)      1.29172        0.36369      3.552  0.000383  ***   x                                        0.07566        0.03560      2.125  0.033580  *     切片 傾き λi = exp(β1 + β2 xi )
  • 14.  結果の見かた,  標準誤差 fit  <-­‐  glm(y  ~x,  family  =  poisson(link  =  “log”),  data  =  d  )     summary(fit)      Coefficients:                                              Esamate  Std.  Error  z  value  Pr(>|z|)           (Intercept)      1.29172        0.36369      3.552  0.000383  ***   x                                        0.07566        0.03560      2.125  0.033580  *     Std.  Error:  標準誤差   推定値   のばらつきを標準偏差で表したもの   推定値の精度の指標 β1,β2
  • 15.  結果の見かた,  z値 fit  <-­‐  glm(y  ~x,  family  =  poisson(link  =  “log”),  data  =  d  )     summary(fit)      Coefficients:                                              Esamate  Std.  Error  z  value  Pr(>|z|)           (Intercept)      1.29172        0.36369      3.552  0.000383  ***   x                                        0.07566        0.03560      2.125  0.033580  *     Z  value:  Z値 最尤推定値をSEで除した数  =  Esamate/Std.  Error     Wald統計量とも呼ばれる。   Wald信頼区間を構成して推定値が0から十分に離れているか確認できる。   数字が大きい時ほど十分離れている       0から離れている    その指標が有効である  
  • 16.  結果の見かた,  Pr(>|z|)   fit  <-­‐  glm(y  ~x,  family  =  poisson(link  =  “log”),  data  =  d  )     summary(fit)      Coefficients:                                              Esamate  Std.  Error  z  value  Pr(>|z|)           (Intercept)      1.29172        0.36369      3.552  0.000383  ***   x                                        0.07566        0.03560      2.125  0.033580  *     Pr(>|z|)   数字が大きいほどz値が0に近くなり、推定値が0に近いことを表 す。   P値に見立てる人もいるが、信頼区間の指標と考えるのがベター 小さい値であるほど信頼区間が狭い    推定値が信頼できそう
  • 17.  結果の見かた,  対数最大尤度 >  logLik(fit)   'log  Lik.'  -­‐235.3863  (df=2) fit  <-­‐  glm(y  ~x,  family  =  poisson(link  =  “log”),  data  =  d  )   対数最大尤度  (モデルの当てはまりの良さの指標)  を確認   値が大きいほど当てはまりがよい     df:  自由度を表す。     今回は最尤推定したパラメータ数が2個であることを示す。     計算式は@kos59125さんの二章まとめスライドを参照   h=p://1drv.ms/1nPspmJ  :2.4参照
  • 18.  予測モデルの可視化 plot(d$x,  d$y,  pch  =  c(21,  19)[d$f])   xx  <-­‐  seq(min(d$x),  max(d$x),  length  =  50)   lines(xx,  exp(1.29  +  0.0757*  xx),  lwd  =2)     作ったモデルをプロット上に書いて確認  
  • 19.  モデリングのサイクル(3章前半時点) データ取り込み     データの可視化       モデルの要約,  最大対数尤度の確認     予測モデルの可視化   1セット 今後は?     変数を増やした場合にどうなるか → 後半   複数のモデルを比較 → 4章,  5章   誤差構造が他の確率分布の時は?  →  6章