SlideShare a Scribd company logo
1 of 80
Download to read offline
大気環境での統計
名古屋市環境科学調査センター
久恒 邦裕
第35回全国環境研協議会 東海・近畿・北陸支部
共同調査研究(越境/広域大気汚染)情報交換会資料
20171213版
統計で必要なのは
その分野の知識 > 数学の知識
である
たぶん。
大気環境データの特徴
• 1回きりのフィールドデータ
:取り直しが効かない。データの信頼性の検証には限界がある。
:実験室で、条件をそろえて測定する、とかは不可能。
• 空間データの場合、測定地点が均一ではない。
:サンプル採取の場所の粗密差が激しい
• 膨大な時系列データがある
• 連続数値データが多い(カテゴリー変数のデータは少ない)
大気環境データの特徴
• 1回きりのフィールドデータ
:取り直しが効かない。データの信頼性の検証には限界がある。
:実験室で、条件をそろえて測定する、とかは不可能。
• 空間データの場合、測定地点が均一ではない。
:サンプル採取の場所の粗密差が激しい
• 膨大な時系列データがある
• 連続数値データが多い(カテゴリー変数のデータは少ない)
• 赤字の性質は、従来の統計学では取り扱いが難しい
多くのデータ処理の教科書などで目にします。
• 曰く「統計処理において、もっとも大変なのがデータを統計処理可能
な形に成形することである」と
• データの成形さえ終われば、統計処理の半分以上は終わったような
もの、とさえ言う人も。
• どんな形のデータが、処理しやすいのか・・・・・・それは、好みもある
とは思いますが、適切なスタイルを見つけて下さい。
サンプル数について
• サンプル数が大きい場合、というものは存在しない。
• サンプル数が小さいときは、増やす努力をしないといけない。
• サンプル数が十分に大きいときには、さらに詳細な情報が知りたくなるだ
ろう。
(PM2.5のデータが少なければ、それを集めてデータ解析
だんだん集まってくると、経年的な変化が追いたくなる
さらに集まると、経年的な季節ごとの変化が追いたくなる
もっと集まれば、経年的な気象条件ごとの変化が追いたくなる
・・・・・never ending story)
• サンプル数が十分に大きくなった段階で、あなたは次の問題に取り組ん
でいるはずである
ref. Gelman, Andrew. “N is Never Large,”, Statistical Modeling, Causal Inference, and Social Science, last modified July 31, 2005
まずはとにかく、グラフ化
• データの可視化、は重要です。
• まずグラフ化せよ、とは、どの教科書にも書いてあります。
• そのための強力なツールは、ぜひ入手しておいてください。
• ヒストグラム(箱ひげ図、バイオリンプロット)や散布図は簡単に描け
るソフトがおすすめです。
•やっぱりそこは、Rじゃないですか??( ̄ ^  ̄)
やっぱりRはお薦め
• 先人の知恵を、大いに生かせる。
Rオリジナルのイメージ
パッケージを
インストールして
強化!!
ある、架空のデータがあったとします
サンプルNo NO3 SO4 NH4 PM2.5
1001 2.2 4.1 2.4 18.9
1007 0.22 4.8 2.1 18.6
1013 0.35 3.7 1.8 12.7
1019 0.26 3.6 1.7 15.6
1025 0.5 2 1.2 9.6
1031 0.37 4.5 2 27.1
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
データの要約
Rで書くと
pairs(でーた)
と書くと、左の図が
出てきます。
さらに格好良く
するために lowerf <- function(x, y){
points(x, y)
abline(lm(y ~ x),col="magenta")
}
upperf <- function(x, y){
loc <- complex(, mean(range(x)),
mean(range(y)))
r <- round(cor(x, y), 3)
if(r>=0.8)
iro <- "blue"
else {if(r < -0.8)
iro <- "red"
else iro <- "black"}
text(loc, lab=r, col=iro, cex=3)
}
panel.hist <- function(x, ...) # ヒストグラムを描くための関数を定義
{ usr <- par("usr") # 現在のユーザー領域座標情報を得る
on.exit(par(usr)) # 関数終了時に usr パラメータ復帰
par(usr = c(usr[1:2], 0, 1.5) ) # ユーザー領域座標情報を変更
h <- hist(x, plot = FALSE)
breaks <- h$breaks; nB <- length(breaks)
y <- h$counts; y <- y/max(y)
rect(breaks[-nB], 0, breaks[-1], y, col="cyan", ...)}
pairs(data2, lower.panel=lowerf, upper.panel=upperf, diag.panel=panel.hist)
ネットで落ちていたプログラムを拝借 ⇒
ちょっと探すと、無料のプログラムが
結構、落ちていたりします。
散布図行列で検索
(オリジナルのURLが不明・・・すみません)
こんなグラフが描けちゃいます!
各成分の値の頻度分布
こんなグラフが描けちゃいます!
各組み合わせの相関
係数(高い値が青に)
こんなグラフが描けちゃいます!
各組み合わせの散布図
(一次回帰直線のおまけつき)
こんなグラフが描けちゃいます!
箱ひげ図 or バイオリンプロット
ggplot(でーた) + geom_boxplot() ggplot(でーた) + geom_violin()
ヒストグラムの注意点
幅:1 幅:0.5
同じデータでも、幅の取り方によって、グラフの印象が変わってしまう!!
さきほどのバイオリンプロットだと、その影響がない。
検定について
平均値の差の検定
【問題】
ある2地点のデータに差があるかどうかを調べる
<差の検定 = t検定>という認識は、捨ててください。
平均値の差の検定
【対応のある2群の検定】
例:名古屋と神戸の、2017年12月の1ヶ月データの平均の差
(ちょっと微妙な例です)
両データが、正規性を備えているとき
→対応のあるt検定
正規性が不明のとき
→Wilcoxsonの符号付き順位和検定
平均値の差の検定
【対応の無い2群の検定】
例:名古屋の、2017年12月と11月のデータの平均の差
両データが、正規性と等分散性を兼ね備えているとき
→Studentのt検定
両データが、正規性はあるけど、等分散性が無いとき
→Welchのt検定
正規性も等分散性もない(判らない)とき
→Wilcoxsonの順位和検定
検定は、万能ではありません
• 午前中の話であった、ある種の“危うさ”を含んでいます。
• 有意水準5%で検定をすると「本当は差がない2つのデータ群を比べ
たのに、100回中5回は【差が無いとはいえない】と判定されます」
• 別の表現をすると「本当は差がない100地点のデータ群と比べたの
に、そのうち5地点では【差がないとは言えない】と判定されます」
⇒「有意差が出た!」と勘違い(多重検定問題)
有意差が出ればいいの?
• 有意差は、目安。だけど、有意差を出すことが目的になっていたりもする。
〇 P値出しとけば、満足する。
〇 いろんな検定をためす。
〇 観測値を割り算して<指標>をでっち上げて、有意差を求める。
〇 多群比較の検定を繰り返す。
〇 正規性とか怪しければ、ノンパラメトリック検定で切り抜ける。
こういうのは、データさえあればできるので、よく陥りがち。*)
データの構造などを吟味しなくてもできる比較なので、楽。
なにかが分かった気になるだけ。
*) 久保拓弥、データ解析のための統計モデリング入門、岩波書店
多変量解析
• 1つのデータについて、多くの要素がある場合
ex. PM2.5のサンプルは一つだけど、データは成分ごとに多数
• 問題は、どの成分のデータを採用するか
データの前処理
• データごとの平均値があまりにも違う場合(ex. 100倍とか)、それら
を同じように解析するのは、無謀
• データを前処理します。
• データの標準化
○データを、平均0、標準偏差1の正規分布に変換。
○それぞれのデータを平均値で引いて、標準偏差で割ればOK
○Rではscale(でーた)とすれば、1発でできる。
回帰分析
単回帰分析 y = ax + b の式が成り立つと仮定した分析
単回帰分析 y = ax + b の式が成り立つと仮定した分析
PM2.5と各成分の関係
• NO3が増えると、たぶん
増える。
PM2.5 = 4.1 × NO3 + 11.0
• SO4 が増えると、増える。
PM2.5 = 3.2 × SO4 + 5.0
• NH4が増えると、増える
PM2.5 = 7.4 × NH4 + 3.6
単回帰分析 y = ax + b の式が成り立つと仮定した分析
PM2.5と各成分の関係
• NO3が増えると、たぶん
増える。
PM2.5 = 4.1 × NO3 + 11.0
• SO4 が増えると、増える。
PM2.5 = 3.2 × SO4 + 5.0
• NH4が増えると、増える
PM2.5 = 7.4 × NH4 + 3.6
単回帰分析 y = ax + b の式が成り立つと仮定した分析
PM2.5と各成分の関係
• NO3が増えると、たぶん
増える。
PM2.5 = 4.1 × NO3 + 11.0
• SO4 が増えると、増える。
PM2.5 = 3.2 × SO4 + 5.0
• NH4が増えると、増える
PM2.5 = 7.4 × NH4 + 3.6
重回帰分析 y = ax1 + bx2 +・・・・+ c の式が
成り立つと仮定した分析
PM2.5 = 0.180 × SO4 + 7.155 × NH4 + c
SO4とNH4だけが大きく影響
重回帰分析 y = ax1 + bx2 +・・・・+ c の式が
成り立つと仮定した分析
PM2.5 = 0.180 × SO4 + 7.155 × NH4 + c
SO4とNH4だけが大きく影響
SO4やNH4を減らすことで、PM2.5は
減らすことができる!
重回帰分析 y = ax1 + bx2 +・・・・+ c の式が
成り立つと仮定した分析
PM2.5 = 4.742 × SO4 – 4.617 × NH4 + 5.153 × NO3 + c
SO4とNH4とNO3の全てが影響
重回帰分析 y = ax1 + bx2 +・・・・+ c の式が
成り立つと仮定した分析
PM2.5 = 4.742 × SO4 – 4.617 × NH4 + 5.153 × NO3 + c
SO4とNH4とNO3の全てが影響
SO4やNO3を減らして、
NH4を増やせば、PM2.5は
減らすことができる! ・・・?
重回帰分析 y = ax1 + bx2 +・・・・+ c の式が
成り立つと仮定した分析
PM2.5 = 0.180 × SO4 + 7.155 × NH4 + c
PM2.5 = 4.742 × SO4 – 4.617 × NH4 + 5.153 × NO3 + c
SO4とNH4だけが大きく影響
SO4とNH4とNO3の全てが影響 影響が真逆に!!
なにを説明変数にするかで
各変数(成分)の影響の方向が
変わってしまう!!
回帰分析で考えている関係を図示
PM2.5質量濃度
SO4 NH4 NO3
それぞれの成分が、独自に
影響を与えていると仮定(前
提条件)。
実際にはNH4とSO4やNH4と
NO3は相関関係がある。
他の成分の影響とか
誤差とか
ドメイン知識(追加)
SO4
SO4
SO4
NO3
NO3
NH4
NH4
NH4
NH4
NH4
NH4
NH4
NH4
NH4
NH4
NH4
NH4
NH4
NH4
NH4
NH4
SO4
SO4
SO4
NO3
NO3
NH4
NH4
NH4
NH4
NH4
NH4
NH4
NH4
NH4
NH4
NH4
NH4
NH4
NH4
NH4
NH4
大気中にはアンモニア(アン
モニウム)は沢山ある。
陰イオンがアンモニアとくっ
ついて粒子状物質に
↓
PM2.5となり、捕集される
仮定すべき、成分とPM2.5の濃度の関係は?
• PM2.5として捕集されたNH4というのは、SO4やNO3の濃度に依存する。
PM2.5質量濃度
SO4
NH4
NO3
他の成分の影響とか
誤差とか
NH4濃度は、SO4やNO3の情報を内包した値・・・本当?
NH4だけ見てれば、いいじゃん!
PM2.5 = a × NH4 + c = b ×SO4 + d ×NO3 + e + c
r = 0.97
仕事減らせる!!
それなら、NH4だけ見てればいいじゃん!
分析項目減らせるぜ!!
とは、ならない・・・・・
なにが知りたいかをちゃんと意識する。
PM2.5質量濃度
SO4
NH4
NO3
他の成分の影響とか
誤差とか
知りたいのは
PM2.5質量濃度に対する
発生源の影響
(赤い点線矢印)
中国からの越境汚染
に左右されやすい
国内の都市部の汚染
に左右されやすい
なにが知りたいかをちゃんと意識する。
PM2.5質量濃度
SO4
NH4
NO3
他の成分の影響とか
誤差とか
この図に基づいて、測定値同士の関係が知りたい
Rでやると、こうなる
model3 <- ' NH4 ~ SO4
NH4 ~ NO3
PM2.5 ~ NH4 '
fit1 <- sem(model = model3, data = d2, estimator="ML", std.lv=TRUE)
なにが知りたいかをちゃんと意識する。
PM2.5質量濃度
SO4
NH4
NO3
他の成分の影響とか
誤差とか中国からの越境汚染
国内の都市部の汚染
0.85
0.82
0.44
単回帰分析の
0.54より小さい
単回帰分析の
0.87より小さい
相関係数0.12の
弱い相関
なにが知りたいかをちゃんと意識する。
PM2.5質量濃度
SO4
NH4
NO3
他の成分の影響とか
誤差とか中国からの越境汚染
国内の都市部の汚染
0.85
0.82
0.44
単回帰分析の
0.87より小さい
相関係数0.12の
弱い相関
なにが知りたいかをちゃんと意識する。
PM2.5質量濃度
SO4
NH4
NO3
他の成分の影響とか
誤差とか中国からの越境汚染
国内の都市部の汚染
0.85
0.82
0.44
単回帰分析の
0.54より小さい
相関係数0.12の
弱い相関
なにが知りたいかをちゃんと意識する。
PM2.5質量濃度
SO4
NH4
NO3
他の成分の影響とか
誤差とか中国からの越境汚染
国内の都市部の汚染
0.85
0.82
0.44
相関係数0.12の
弱い相関
これが、従来の統計解析の多くを内包した
共分散構造解析
(又は構造方程式モデリング(SEM))
です。
(ざっくりいえば、重回帰分析と因子分析を同時にやるようなもの)
特徴はいろいろありますが、因果関係を考慮してパス図を描き、解析がで
きる。
パス図?
こういうの ⇒
因子分析
因子分析の“因子”とは?
• 因子分析の目的は<次元を減らして、解釈を容易にする>
• その因子が現実に存在するかどうかは、問わない。というか、「そん
な因子なんて、存在するはずない」という解釈の方が大多数。(妖怪
の名前みたいなものです)
• ただし、環境データの場合は因果関係がはっきりしている。
<発生源 ⇒ 観測データ>
• 因子分析の求めているものと、環境科学の求めているものは、乖離
しているんだ、という意識が必要か?
因子分析における
サンプルサイズの適性性
サンプル
サイズ
50 100 200 300 500 1000
評価 非常に乏しい
(very poor)
乏しい
(poor)
まあまあ
(fair)
十分
(good)
非常に良い
(very good)
優れている
(excellent)
Comfrey AL, Lee HB (1992). A First Course in Factor Analysis. Hillsdale, NJ: Lawrence
Erlbaum Associates. P217
レーダーマンの境界
• 因子数の上限を決める式
• 観測変数の数をp, 因子数をmとすると、以下の式を満たす必要が
ある(一般的な因子分析計算の話)
•
𝑝(𝑝+1)
2
− 𝑝𝑚 + 𝑝 −
𝑚 𝑚−1
2
≥ 0
p 7 8 9 10 11 12 13 14 15 16 17
m 3 4 5 6 6 7 8 9 10 10 11
模擬サンプルデータを用いた
PMF解析に関する考察
久恒 邦裕
名古屋市環境科学調査センター
2015年大気環境学会年会 発表資料
検討の背景
• PM2.5や酸性雨などの調査で、成分分析の結果をPMF解析にかけ
て、発生源の知見を得る方法が、広く採られている。
• PMF解析で得られた因子の解釈の有力な手掛かりには、指標元素
があるが、解釈が難しい場合も多い。
• PMF解析において、課題となる点
・測定誤差など、測定値の信頼性
・指標元素パターン(プロファイル情報)の妥当性
・因子解析手法の妥当性
今回は、因子解析手法の妥当性について検証
検討方法
• 発生源プロファイルと寄与の日変動を任意に設定。そこから、観測値を
模擬的に発生させ、その模擬観測値に対して、解析を行う。
発生源プロファイル
0
5
10
15
SO NH Na Cl Ca Fe V Ni Al Pb Mg
A
0
5
10
15
SO NH Na Cl Ca Fe V Ni Al Pb Mg
B
0
5
10
15
SO NH Na Cl Ca Fe V Ni Al Pb Mg
C
0
5
10
15
SO NH Na Cl Ca Fe V Ni Al Pb Mg
D
0
5
10
15
SO NH Na Cl Ca Fe V Ni Al Pb Mg
E
• 発生源の数(因子数)は5を想定し、上記A~Eの発生源プロファイルを仮定。
寄与の日変動の設定
任意の測定日 a の寄与を Xa とする(a = 1 ~ 365)
• ランダムな変動の場合(case1)
:平均1、標準偏差0.2の
正規分布に従う乱数
Xa = Norm(1, 0.2)
• 時系列的な変動の場合(case2)
:直前の値との差が
平均0、標準偏差0.04の
正規分布に従う乱数
Xa = Xa-1 + Norm(0, 0.04)
0
0.3
0.6
0.9
1.2
1.5
1.8
case1
A B C D E
0
0.5
1
1.5
2
2.5
case2
A B C D E
記号等の定義
• Norm(a, b) ・・・ 平均a, 標準偏差bの正規分布に従った乱数
得られた模擬測定値
0
10
20
30
40
50
60
70
Case2
SO NH Na Cl Ca Fe V Ni Al Pb Mg
0
5
10
15
20
25
30
35
40
45
50
Case1
SO NH Na Cl Ca Fe V Ni Al Pb Mg
• 任意の物質 i のファクター f の濃度をCi,f、任意の
日aの寄与率をXaとする。
• 任意の日aに観測された物質 i の観測値Ma,iの真値calMa,i
は
𝑐𝑎𝑙M 𝑎,𝑖 =
𝑓=1
5
𝑋 𝑎 𝐶𝑖,𝑓
• calMa,iに対して、測定誤差を仮定。誤差は平均を0、標準
偏差をcalMa,iの5%とした正規分布に従うとしてそれぞれ
の測定値に加えた。
M 𝑎,𝑖 = 𝑐𝑎𝑙M 𝑎,𝑖 + 𝑁𝑜𝑟𝑚(0, 𝑐𝑎𝑙M 𝑎,𝑖 × 0.05)
解析手法
解析方法 使用したソフト その他条件
1 PMF解析
(Positive Matrix Factorization)
EPA PMF Version5.0
2 因子分析(fa) R (パッケージ:psych,関数fa) fm='ml', rotate='promax'
3 非負因子分析:NMF
(Non-Negative Matrix Factorization)
R (パッケージ:NMF,関数nmf) method="nsNMF", seed=“ica",
nrun=100
4 ベイズ的因子分析(非負制約無し) R(パッケージ:MCMCpack, 関
数MCMCfactanal)
burnin=25000, mcmc=50000
5 ベイズ的因子分析(非負制約有り) 同上 同上
ちなみに・・・・
データについては、事前にKaiser-Meyer-Olkinによる適切性指標を確認。
case1 は0.77、case2は0.88と、いずれもよい値を出した。
• 解析の結果(Case1)
0
1
2
3
4
5
6
7
8
9
10
SO NH Na Cl Ca Fe V Ni Al Pb Mg
0
1
2
3
4
5
6
7
8
9
10
SO NH Na Cl Ca Fe V Ni Al Pb Mg
0
1
2
3
4
5
6
7
8
9
10
SO NH Na Cl Ca Fe V Ni Al Pb Mg
0
1
2
3
4
5
6
7
8
9
10
SO NH Na Cl Ca Fe V Ni Al Pb Mg
0
1
2
3
4
5
6
7
8
9
10
SO NH Na Cl Ca Fe V Ni Al Pb Mg
PMF解析
因子分析(fa)
-0.2
0
0.2
0.4
0.6
0.8
1
1.2
SO NH Na Cl Ca Fe V Ni Al Pb Mg
-0.2
0
0.2
0.4
0.6
0.8
1
1.2
SO NH Na Cl Ca Fe V Ni Al Pb Mg
-0.2
0
0.2
0.4
0.6
0.8
1
1.2
SO NH Na Cl Ca Fe V Ni Al Pb Mg
-0.2
0
0.2
0.4
0.6
0.8
1
SO NH Na Cl Ca Fe V Ni Al Pb Mg
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
SO NH Na Cl Ca Fe V Ni Al Pb Mg
• 解析の結果(Case1)
ベイズ的因子分析(非負制約無し)
0
2000
4000
6000
8000
10000
12000
SO NH Na Cl Ca Fe V Ni Al Pb Mg
0
2000
4000
6000
8000
10000
12000
SO NHNa Cl Ca Fe V Ni Al Pb Mg
0
2000
4000
6000
8000
10000
12000
SO NHNa Cl Ca Fe V Ni Al Pb Mg
0.00E+00
2.00E+03
4.00E+03
6.00E+03
8.00E+03
1.00E+04
1.20E+04
SO
NH
Na
Cl
Ca
Fe
V
Ni
Al
Pb
Mg
0
2000
4000
6000
8000
10000
12000
SO NHNa Cl Ca Fe V Ni Al Pb Mg
NMF
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
SO NH Na Cl Ca Fe V Ni Al Pb Mg -0.16
-0.14
-0.12
-0.1
-0.08
-0.06
-0.04
-0.02
0
SO NH Na Cl Ca Fe V Ni Al Pb Mg
0
0.05
0.1
0.15
0.2
0.25
SO NH Na Cl Ca Fe V Ni Al Pb Mg -0.15
-0.1
-0.05
0
0.05
0.1
SO NH Na Cl Ca Fe V Ni Al Pb Mg
-0.3
-0.25
-0.2
-0.15
-0.1
-0.05
0
SO NH Na Cl Ca Fe V Ni Al Pb Mg
• 解析の結果(Case1)
ベイズ的因子分析(非負制約有り)
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
SO NH Na Cl Ca Fe V Ni Al Pb Mg
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
SO NH Na Cl Ca Fe V Ni Al Pb Mg
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
SO NH Na Cl Ca Fe V Ni Al Pb Mg
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
SO NH Na Cl Ca Fe V Ni Al Pb Mg
0
0.2
0.4
0.6
0.8
1
1.2
SO NH Na Cl Ca Fe V Ni Al Pb Mg
• 解析の結果(Case2)
PMF解析
因子分析(fa)
-0.2
0
0.2
0.4
0.6
0.8
1
SO NH Na Cl Ca Fe V Ni Al Pb Mg
-0.2
0
0.2
0.4
0.6
0.8
1
1.2
SO NH Na Cl Ca Fe V Ni Al Pb Mg
-0.2
0
0.2
0.4
0.6
0.8
1
SO NH Na Cl Ca Fe V Ni Al Pb Mg
-0.2
0
0.2
0.4
0.6
0.8
1
SO NH Na Cl Ca Fe V Ni Al Pb Mg
-0.2
-0.1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
SO NH Na Cl Ca Fe V Ni Al Pb Mg
0
2
4
6
8
10
12
14
SO NH Na Cl Ca Fe V Ni Al Pb Mg
0
1
2
3
4
5
6
SO NH Na Cl Ca Fe V Ni Al Pb Mg
0
2
4
6
8
10
12
14
SO NH Na Cl Ca Fe V Ni Al Pb Mg
0
2
4
6
8
10
12
SO NH Na Cl Ca Fe V Ni Al Pb Mg
0
2
4
6
8
10
12
14
16
SO NH Na Cl Ca Fe V Ni Al Pb Mg
• 解析の結果(Case2)
ベイズ的因子分析(非負制約無し)
NMF
0
1000
2000
3000
4000
5000
6000
7000
SO NH Na Cl Ca Fe V Ni Al Pb Mg
0
500
1000
1500
2000
2500
SO NH Na Cl Ca Fe V Ni Al Pb Mg
0
100
200
300
400
500
600
700
800
SO NH Na Cl Ca Fe V Ni Al Pb Mg
0
500
1000
1500
2000
2500
3000
3500
4000
4500
5000
SO NH Na Cl Ca Fe V Ni Al Pb Mg
0
1000
2000
3000
4000
5000
6000
SO NH Na Cl Ca Fe V Ni Al Pb Mg
-0.1
-0.05
0
0.05
0.1
0.15
0.2
0.25
0.3
SO NH Na Cl Ca Fe V Ni Al Pb Mg
-0.1
-0.05
0
0.05
0.1
0.15
0.2
0.25
0.3
SO NH Na Cl Ca Fe V Ni Al Pb Mg
-0.2
-0.1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
SO NH Na Cl Ca Fe V Ni Al Pb Mg
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0.18
0.2
SO NH Na Cl Ca Fe V Ni Al Pb Mg -0.5
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
SO NH Na Cl Ca Fe V Ni Al Pb Mg
• 解析の結果(Case2)
ベイズ的因子分析(非負制約有り)
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
SO NH Na Cl Ca Fe V Ni Al Pb Mg
0
0.1
0.2
0.3
0.4
0.5
0.6
SO NH Na Cl Ca Fe V Ni Al Pb Mg
0
0.1
0.2
0.3
0.4
0.5
0.6
SO NH Na Cl Ca Fe V Ni Al Pb Mg
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
SO NH Na Cl Ca Fe V Ni Al Pb Mg
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
SO NH Na Cl Ca Fe V Ni Al Pb Mg
因子数の決定について
手法 case1 case2
スクリーテスト 5 2
ガットマン基準 4 2
SMC 5 4
平行分析 3 2
MAPテスト 5 3
VSS基準 2 3
情報量基準(AIC) 5 5
情報量基準(BIC) 5 4
RMSEA 5 4~5
• 本検討では、因子数を5として様々な解析
を行ったが、本来は因子数の決定も重要な
検討課題となる。
• そこで、疑似データに対して一般的な因子
分析における因子数推定方法を試み、ど
のような結果となるかを左の表にまとめた。
• case1では、設定値(5因子)と判定したもの
も多いが、case2では、限られた手法のみ5
因子と判定した。
• いずれにしても、これらの判定方法は目安
であり、最終的には従来の知見などと合わ
せて合理的な解釈のできる因子数を採用
することが基本となる。
• 2015年大気環境学会年会 発表資料 ここまで
主成分分析
• 因子分析と、親戚みたいな関係。データの次元を減らして、解釈を容
易にしようとするのは、同じ。
・データを組み合わせて、新たな指標を探り出すもの ⇒ 主成分分析
・データを分解して、原因となる指標を探り出すもの ⇒ 因子分析
成分データ発生源 環境影響
因子分析 主成分分析
クラスター分析
• 非階層クラスター分析
• 階層クラスター分析
クラスター分析
2次元以上のデータセットについて
その位置関係からデータが
類似したものをグループ分けする。
クラスター分析
クラスター数をいくつに
するかは、分析者が独
断で決定する。
⇒因子分析の因子数
のような悩み
クラスター分析
• 今回の例だと、正解は4。
• ということで、実はクラスター数
についても、何らかの方法で
見積もろうという手法が提案さ
れている。
非階層クラスター分析
K-mean法(従来の方法)
• 古典的な手法。しかし、近年話題の<機械学習>の1手法として従
来より用いられてきている。
• Rだと <kmean(でーた、クラスター数)>で計算できる。
A B C D
Ⅰ 0 30 0 0
Ⅱ 30 0 0 0
Ⅲ 0 1 0 29
Ⅳ 1 0 29 0
X-mean法(k-mean法改良版)
• クラスター数の選定まで自動でやってくれる。
• その判断はBIC(ベイズ情報量基準)に基づく
BIC = f(データの当てはまり) - f(パラメータの数(クラスター数))
• Rでの計算プログラムが無料で公開(論文に載ってる)ので、使い放題。
A B C D E
Ⅰ 0 30 0 0 0
Ⅱ 29 0 0 0 1
Ⅲ 0 0 0 29 1
Ⅳ 0 0 28 0 2
ref.石岡, クラスター数を自動決定するk-meansアルゴリズムの拡張について, 2000, 計算機統計学, 18(2006), 3-13
モデル_クラスター分析
• これまでの2つの方法とはまるっきり異なるアプローチでの検討(や
りたいことは同じ)
• Rのプログラムは、以下の通り
library(mclust)
BIC = mclustBIC(でーた)
mod1 = Mclust(でーた, x = BIC)
A B C D
Ⅰ 0 30 0 0
Ⅱ 30 0 0 0
Ⅲ 0 0 0 30
Ⅳ 0 0 30 0
正解!
階層クラスター分析
階層クラスター分析
• いわゆる、樹形図を描く分析
この高さで区切れば、2つのグルー
プに分けて考えることができる。
この高さで区切れば、4つのグルー
プに分けて考えることができる。
データ数が限られているときに有効な方法。
データ数が多いときは、あまり意味がない。
(樹形図の形から、クラスター数を決めて非階層クラスター分析するのはありかも)
クラスター分析の目的
• ただ別けるだけ、では面白くない。
• データを似たもの同士で別ける
⇒ それぞれのクラスターの内部で解析
• データで、異質なものを別ける
⇒ 他と大きく外れたグループは、外れ値として除外する。
• データの前処理の一環としての利用も、考えられる。
終わりに
• データ解析の手法は、本当に様々
• とりあえず、色々とやってみる
⇒ なにか言えそうな傾向が見えた
⇒ その手法の適用が正しいか、深堀する
⇒ 正しそうなら、さらに解析を進める
• 統計に触れる過程で、様々な発展的手法についても触れていく
(ex. 状態空間モデル、構造方程式モデリング)

More Related Content

What's hot

PRML輪読#6
PRML輪読#6PRML輪読#6
PRML輪読#6matsuolab
 
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出hoxo_m
 
大気環境研究における機械学習の活用について
大気環境研究における機械学習の活用について大気環境研究における機械学習の活用について
大気環境研究における機械学習の活用についてKunihiro Hisatsune
 
劣モジュラ最適化と機械学習 2.5節
劣モジュラ最適化と機械学習 2.5節劣モジュラ最適化と機械学習 2.5節
劣モジュラ最適化と機械学習 2.5節Hakky St
 
正則化項について
正則化項について正則化項について
正則化項についてArata Honda
 
[2021CAPE公開セミナー] 論理学上級 Ⅱ-4「認識論の機械化:証明の正規化と証明支援系」
[2021CAPE公開セミナー] 論理学上級 Ⅱ-4「認識論の機械化:証明の正規化と証明支援系」[2021CAPE公開セミナー] 論理学上級 Ⅱ-4「認識論の機械化:証明の正規化と証明支援系」
[2021CAPE公開セミナー] 論理学上級 Ⅱ-4「認識論の機械化:証明の正規化と証明支援系」Shunsuke Yatabe
 
データ解析10 因子分析の基礎
データ解析10 因子分析の基礎データ解析10 因子分析の基礎
データ解析10 因子分析の基礎Hirotaka Hachiya
 
合成経路探索 -論文まとめ- (PFN中郷孝祐)
合成経路探索 -論文まとめ-  (PFN中郷孝祐)合成経路探索 -論文まとめ-  (PFN中郷孝祐)
合成経路探索 -論文まとめ- (PFN中郷孝祐)Preferred Networks
 
猫でも分かりたい線形回帰の自由度
猫でも分かりたい線形回帰の自由度猫でも分かりたい線形回帰の自由度
猫でも分かりたい線形回帰の自由度YukinoriKambe
 
(2021.10) 機械学習と機械発見 データ中心型の化学・材料科学の教訓とこれから
(2021.10) 機械学習と機械発見 データ中心型の化学・材料科学の教訓とこれから (2021.10) 機械学習と機械発見 データ中心型の化学・材料科学の教訓とこれから
(2021.10) 機械学習と機械発見 データ中心型の化学・材料科学の教訓とこれから Ichigaku Takigawa
 
因果関係を時系列変化で分析
因果関係を時系列変化で分析因果関係を時系列変化で分析
因果関係を時系列変化で分析DaikiNagamine
 
PRML輪読#11
PRML輪読#11PRML輪読#11
PRML輪読#11matsuolab
 
PRML輪読#12
PRML輪読#12PRML輪読#12
PRML輪読#12matsuolab
 
[DL輪読会]Deep Learning 第10章 系列モデリング 回帰結合型ニューラルネットワークと再帰型ネットワーク
[DL輪読会]Deep Learning 第10章 系列モデリング 回帰結合型ニューラルネットワークと再帰型ネットワーク[DL輪読会]Deep Learning 第10章 系列モデリング 回帰結合型ニューラルネットワークと再帰型ネットワーク
[DL輪読会]Deep Learning 第10章 系列モデリング 回帰結合型ニューラルネットワークと再帰型ネットワークDeep Learning JP
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説弘毅 露崎
 
グラフ構造データに対する深層学習〜創薬・材料科学への応用とその問題点〜 (第26回ステアラボ人工知能セミナー)
グラフ構造データに対する深層学習〜創薬・材料科学への応用とその問題点〜 (第26回ステアラボ人工知能セミナー)グラフ構造データに対する深層学習〜創薬・材料科学への応用とその問題点〜 (第26回ステアラボ人工知能セミナー)
グラフ構造データに対する深層学習〜創薬・材料科学への応用とその問題点〜 (第26回ステアラボ人工知能セミナー)STAIR Lab, Chiba Institute of Technology
 
Rでノンパラメトリック法 1
Rでノンパラメトリック法 1Rでノンパラメトリック法 1
Rでノンパラメトリック法 1itoyan110
 
Greed is Good: 劣モジュラ関数最大化とその発展
Greed is Good: 劣モジュラ関数最大化とその発展Greed is Good: 劣モジュラ関数最大化とその発展
Greed is Good: 劣モジュラ関数最大化とその発展Yuichi Yoshida
 
「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例
「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例
「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例takehikoihayashi
 

What's hot (20)

PRML輪読#6
PRML輪読#6PRML輪読#6
PRML輪読#6
 
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
 
大気環境研究における機械学習の活用について
大気環境研究における機械学習の活用について大気環境研究における機械学習の活用について
大気環境研究における機械学習の活用について
 
劣モジュラ最適化と機械学習 2.5節
劣モジュラ最適化と機械学習 2.5節劣モジュラ最適化と機械学習 2.5節
劣モジュラ最適化と機械学習 2.5節
 
因子分析
因子分析因子分析
因子分析
 
正則化項について
正則化項について正則化項について
正則化項について
 
[2021CAPE公開セミナー] 論理学上級 Ⅱ-4「認識論の機械化:証明の正規化と証明支援系」
[2021CAPE公開セミナー] 論理学上級 Ⅱ-4「認識論の機械化:証明の正規化と証明支援系」[2021CAPE公開セミナー] 論理学上級 Ⅱ-4「認識論の機械化:証明の正規化と証明支援系」
[2021CAPE公開セミナー] 論理学上級 Ⅱ-4「認識論の機械化:証明の正規化と証明支援系」
 
データ解析10 因子分析の基礎
データ解析10 因子分析の基礎データ解析10 因子分析の基礎
データ解析10 因子分析の基礎
 
合成経路探索 -論文まとめ- (PFN中郷孝祐)
合成経路探索 -論文まとめ-  (PFN中郷孝祐)合成経路探索 -論文まとめ-  (PFN中郷孝祐)
合成経路探索 -論文まとめ- (PFN中郷孝祐)
 
猫でも分かりたい線形回帰の自由度
猫でも分かりたい線形回帰の自由度猫でも分かりたい線形回帰の自由度
猫でも分かりたい線形回帰の自由度
 
(2021.10) 機械学習と機械発見 データ中心型の化学・材料科学の教訓とこれから
(2021.10) 機械学習と機械発見 データ中心型の化学・材料科学の教訓とこれから (2021.10) 機械学習と機械発見 データ中心型の化学・材料科学の教訓とこれから
(2021.10) 機械学習と機械発見 データ中心型の化学・材料科学の教訓とこれから
 
因果関係を時系列変化で分析
因果関係を時系列変化で分析因果関係を時系列変化で分析
因果関係を時系列変化で分析
 
PRML輪読#11
PRML輪読#11PRML輪読#11
PRML輪読#11
 
PRML輪読#12
PRML輪読#12PRML輪読#12
PRML輪読#12
 
[DL輪読会]Deep Learning 第10章 系列モデリング 回帰結合型ニューラルネットワークと再帰型ネットワーク
[DL輪読会]Deep Learning 第10章 系列モデリング 回帰結合型ニューラルネットワークと再帰型ネットワーク[DL輪読会]Deep Learning 第10章 系列モデリング 回帰結合型ニューラルネットワークと再帰型ネットワーク
[DL輪読会]Deep Learning 第10章 系列モデリング 回帰結合型ニューラルネットワークと再帰型ネットワーク
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
 
グラフ構造データに対する深層学習〜創薬・材料科学への応用とその問題点〜 (第26回ステアラボ人工知能セミナー)
グラフ構造データに対する深層学習〜創薬・材料科学への応用とその問題点〜 (第26回ステアラボ人工知能セミナー)グラフ構造データに対する深層学習〜創薬・材料科学への応用とその問題点〜 (第26回ステアラボ人工知能セミナー)
グラフ構造データに対する深層学習〜創薬・材料科学への応用とその問題点〜 (第26回ステアラボ人工知能セミナー)
 
Rでノンパラメトリック法 1
Rでノンパラメトリック法 1Rでノンパラメトリック法 1
Rでノンパラメトリック法 1
 
Greed is Good: 劣モジュラ関数最大化とその発展
Greed is Good: 劣モジュラ関数最大化とその発展Greed is Good: 劣モジュラ関数最大化とその発展
Greed is Good: 劣モジュラ関数最大化とその発展
 
「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例
「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例
「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例
 

大気環境での統計