More Related Content Similar to 環境分野における統計学の活用(20170822v1) Similar to 環境分野における統計学の活用(20170822v1) (15) 環境分野における統計学の活用(20170822v1)10. 環境分野(大気)で頻出の統計手法
• 平均値を計算する。
• パーセンタイル値を計算する。
• パーセンタイル値?:全体を100として、小さいほうから何番目の数に該
当するか、を示すもの。
• 例えば、98パーセンタイル値というのは、測定値100個のうち小さいほう
から数えて98番目のものがいくらになるか、を示すもの。
• 98パーセンタイル値を、データの最大値のように比較することも多い。
(なぜか?)
環境のデータは様々な要因に左右されるため、統計で扱うにはふさわしく
ない例外的なケースが、ときどき存在するため。
10
12. 平均値とはなにか?
地点A 100 112 103 111 86 107 96 105 108 104 97 106 95 96 99
地点B 73 89 109 114 78 86 108 93 85 83 88 55 49 92 105
地点AおよびBにて、ある化学物質の濃度を30日間(1日1回)測定した。(と仮定)
地点A 103 94 88 84 92 105 97 91 100 99 84 97 109 101 90
地点B 100 100 88 134 92 104 47 111 85 66 69 70 116 64 71
地点AとBの、どちらが化学物質に汚染されているか?
12
13. 平均値とはなにか?
地点A 100 112 103 111 86 107 96 105 108 104 97 106 95 96 99
地点B 73 89 109 114 78 86 108 93 85 83 88 55 49 92 105
地点AおよびBにて、ある化学物質の濃度を30日間(1日1回)測定した。(と仮定)
地点A 103 94 88 84 92 105 97 91 100 99 84 97 109 101 90
地点B 100 100 88 134 92 104 47 111 85 66 69 70 116 64 71
地点AとBの、どちらが化学物質に汚染されているか?
<平均値を計算> 地点A:99、地点B:87 ⇒ 地点Aの方が汚染されている!!
13
14. 平均値とはなにか?
地点A 100 112 103 111 86 107 96 105 108 104 97 106 95 96 99
地点B 73 89 109 114 78 86 108 93 85 83 88 55 49 92 105
地点AおよびBにて、ある化学物質の濃度を30日間(1日1回)測定した。(と仮定)
地点A 103 94 88 84 92 105 97 91 100 99 84 97 109 101 90
地点B 100 100 88 134 92 104 47 111 85 66 69 70 116 64 71
地点AとBの、どちらが化学物質に汚染されているか?
<平均値を計算> 地点A:99、地点B:87 ⇒ 地点Aの方が汚染されている!!
そこで終わって、いいのでしょうか?
例えば、地点Bでは、134という大きな数字が、観測されました。
本当に、地点Bの方が綺麗だと言えるのでしょうか?
14
37. 国語 社会 数学 理科 英語
Aさん 81 72 44 46 71
Bさん 87 77 37 40 73
Cさん 70 62 38 39 62
Dさん 51 44 82 76 61
Eさん 45 38 90 82 59
Fさん 44 37 85 77 56
Gさん 50 43 64 60 54
因子分析による解析
• 因子分析とは多くのデータの背後に潜む少数の原因を導き出す手
法。心理学や社会学などの分野で多く用いられる。
文系科目が得意
⇒文系能力が高そう
理系科目が得意
⇒理系能力が高そう
英語とGさんに対する評価は、不明瞭 37
40. 因子分析による解析
国語 社会 数学 理科 英語
文系能力 0.62 0.60 -0.01 0.06 1.10
理系能力 -0.45 -0.46 0.99 1.04 0.15
*数字の絶対値が大きいほど、影響力が大きい。
読み取れること
○文系能力は、国語、社会、英語にプラスの影響を与える。
○理系能力は、数学、理科に大きくプラスの影響を与える。
○理系の能力は、国語や社会にマイナスの影響を与える。
40
41. 因子分析による解析
国語 社会 数学 理科 英語
文系能力 0.62 0.60 -0.01 0.06 1.10
理系能力 -0.45 -0.46 0.99 1.04 0.15
*数字の絶対値が大きいほど、影響力が大きい。
読み取れること
○文系能力は、国語、社会、英語にプラスの影響を与える。
○理系能力は、数学、理科に大きくプラスの影響を与える。
○理系の能力は、国語や社会にマイナスの影響を与える。
41
42. 因子分析による解析
国語 社会 数学 理科 英語
文系能力 0.62 0.60 -0.01 0.06 1.10
理系能力 -0.45 -0.46 0.99 1.04 0.15
*数字の絶対値が大きいほど、影響力が大きい。
読み取れること
○文系能力は、国語、社会、英語にプラスの影響を与える。
○理系能力は、数学、理科に大きくプラスの影響を与える。
○理系の能力は、国語や社会にマイナスの影響を与える。
42
43. 因子分析による解析
国語 社会 数学 理科 英語
文系能力 0.62 0.60 -0.01 0.06 1.10
理系能力 -0.45 -0.46 0.99 1.04 0.15
*数字の絶対値が大きいほど、影響力が大きい。
読み取れること
○文系能力は、国語、社会、英語にプラスの影響を与える。
○理系能力は、数学、理科に大きくプラスの影響を与える。
○理系の能力は、国語や社会にマイナスの影響を与える。
43
44. 因子分析による解析
文系能力 理系能力
Aさん 1.40 0.26
Bさん 1.53 0.04
Cさん -1.7 -2.35
Dさん 0.82 1.46
Eさん 0.71 1.72
Fさん -0.46 0.59
Gさん -2.31 -1.71
*数字の絶対値が大きいほど、影響力が大きい。
読み取れること
○Aさん、Bさん、Cさんは文系能力の方が
理系能力よりも高い。
○Dさん、Eさん、Fさんは、理系能力の方が
文系能力よりも高い。
○Gさんは、やや理系能力の方が高い。
44
45. 因子分析による解析
英語はどちらの能力の影響を受けているのか?
Gさんは、どちらの能力が高そうなのか?
国語 社会 数学 理科 英語
Aさん 83 92 55 61 78
Bさん 95 88 65 63 80
Cさん 79 85 48 70 70
Dさん 63 59 98 89 73
Eさん 67 68 83 79 59
Fさん 72 61 73 94 71
Gさん 75 69 72 65 72
・英語は、文系能力が高いほうが高い
・Gさんは、文系能力と理系能力に差はほ
とんどない。
このようなことを、表を見た直観で理解するのではなく
数学的な理論に基づいて、述べることができます。
45
51. 因子分析の適応
• よく使われるのがPMF(positive matrix factorization)法
• アメリカ合衆国環境保護庁が無料で公開しているソフトを利用
• 因子分析の手法を用いて、環境データの分析に適した形に特化した
もの。
• ただし、あくまでも統計的な推定であり、必ずしも答えが明確に出る
わけではない。
• 成分だけではなく、気象などの条件も踏まえて、多角的に考える必
要がある。
51
71. 頻度論とベイズの比較
ベイズ統計学 1回目:表が出た → 「このコインは表しか出ない!このコインが
“裏しか出ないコインである”確率は消えた。」
2回目:表が出た → 「やっぱり、このコインは表しか出ない!!」
3回目:裏が出た → 「表が出やすいけど、裏が出る場合もある。
“表しか出ない”、という可能性は消えた。」
4回目:裏が出た → 「表と裏が、同じくらい出やすい」
サイコロの目について考える
71
74. 欠測とはなにか?
地点A 100 112 103 111 86 × 96 105 108 104 97 106 × 96 99
地点B 73 89 109 114 78 86 108 93 85 × 88 55 49 92 105
地点AおよびBにて、ある化学物質の濃度を30日間(1日1回)測定した。(と仮定)
地点A 103 × 88 84 92 105 97 91 100 99 84 97 109 × 90
地点B 100 100 88 134 92 104 47 × 85 66 69 70 116 × 71
74
75. 欠測とはなにか?
地点A 100 112 103 111 86 × 96 105 108 104 97 106 × 96 99
地点B 73 89 109 114 78 86 108 93 85 × 88 55 49 92 105
地点AおよびBにて、ある化学物質の濃度を30日間(1日1回)測定した。(と仮定)
地点A 103 × 88 84 92 105 97 91 100 99 84 97 109 × 90
地点B 100 100 88 134 92 104 47 × 85 66 69 70 116 × 71
75
頻度論的統計学では、解析手法によっては
上の緑の部分が、使えないデータになってしまう。
もったいない!!
76. 欠測とはなにか?
地点A 100 112 103 111 86 × 96 105 108 104 97 106 × 96 99
地点B 73 89 109 114 78 86 108 93 85 × 88 55 49 92 105
地点AおよびBにて、ある化学物質の濃度を30日間(1日1回)測定した。(と仮定)
地点A 103 × 88 84 92 105 97 91 100 99 84 97 109 × 90
地点B 100 100 88 134 92 104 47 × 85 66 69 70 116 × 71
76
ベイズ統計学なら、使えないデータは
測定していないところだけ。
データを最大限に生かせる!!
77. 外れ値とはなにか?
地点A 100 112 103 111 86 107 96 105 108 104 97 106 95 96 99
地点B 73 89 109 114 78 86 108 93 85 83 88 55 49 92 105
地点AおよびBにて、ある化学物質の濃度を30日間(1日1回)測定した。(と仮定)
地点A 103 94 88 84 92 105 97 91 100 99 84 97 109 101 90
地点B 100 100 88 500 92 104 47 111 85 66 69 70 116 64 71
77
500は、おそらく何らかの測定ミスだと考えられるが
もしかしたら、本当に500なのかもしれない。
500は怪しいと思いつつ、一応、データとして
そのまま解析を行うことができるのも
ベイズ統計の特徴
94. 自動測定 成分分析測定
目的 環境基準適不適の判断 成分の把握
測定項目 質量濃度の測定 質量濃度と成分濃度の測定
年間データ数 365日×24時間×17地点 4季節×14日×6地点
メリット データ数が多い 成分が詳細に明らかになる
デメリット PM2.5の成分の詳細は
不明
分析コストがかかり
サンプル数を増やせない
研究の背景
【PM2.5の調査・研究の目的】
PM2.5の発生源等の影響を明らかにして
有効な削減策へと繋げる(高濃度化の要因を探る)。
94
95. 自動測定 成分分析測定
目的 環境基準適不適の判断 成分の把握
測定項目 質量濃度の測定 質量濃度と成分濃度の測定
年間データ数 365日×24時間×17地点 4季節×14日×6地点
メリット データ数が多い 成分が詳細に明らかになる
デメリット PM2.5の成分の詳細は
不明
分析コストがかかり
サンプル数を増やせない
研究の背景
【PM2.5の調査・研究の目的】
PM2.5の発生源等の影響を明らかにして
有効な削減策へと繋げる(高濃度化の要因を探る)。
違った視点からの
解析が、できないか?
95
111. 測定値のモデル
ln [PM] d, r, c, p, m ~ N ([mPM] d, r, c, p, m , s )
[mPM] d, r, c, p, m <- [PM.0]m + [a.effect]r, c + [p.effect]p
[a.effect]r, c ~ car.normal(Adj[], Weight[], Num[], s’)
c
c + Δc
r + Δr
r 測定局p
ある日(d) の測定値。
この日はm月であった。
真の値は 、
月平均
地域的な影響
局所的な影響
の合計。
[mPM] d, r, c, p, m
[PM.0] m
[a.effect] r, c
[p.effect] p
111
124. 一般局 自排局
測定局名 地域的な
影響
局所的な
影響
測定局名 地域的な
影響
局所的な
影響
愛知工業高校(北) 1.08 1.00
上下水道局北営
業所(北)
1.11 1.12
中村保健所(中村) 1.18 0.95 名塚中学校(西) 1.23 1.16
滝川小学校(昭和) 1.11 1.01 テレビ塔(中) 1.11 1.08
八幡中学校(中川) 1.18 1.00
熱田神宮公園(熱
田)
1.11 0.95
富田支所(中川) 1.18 0.98 港陽(港) 1.18 1.00
惟信高校(港) 1.18 1.09 千竃(南) 1.11 1.04
白水小学校(南) 1.21 1.04 元塩公園(南) 1.21 1.24
守山保健所(守山) 1.08 0.97
大高北小学校(緑) 1.21 0.97
天白保健所(天白) 1.11 0.97
影響の推定値(名古屋市内)
124
125. 一般局 自排局
測定局名 地域的な
影響
局所的な
影響
測定局名 地域的な
影響
局所的な
影響
愛知工業高校(北) 1.08 1.00
上下水道局北営
業所(北)
1.11 1.12
中村保健所(中村) 1.18 0.95 名塚中学校(西) 1.23 1.16
滝川小学校(昭和) 1.11 1.01 テレビ塔(中) 1.11 1.08
八幡中学校(中川) 1.18 1.00
熱田神宮公園(熱
田)
1.11 0.95
富田支所(中川) 1.18 0.98 港陽(港) 1.18 1.00
惟信高校(港) 1.18 1.09 千竃(南) 1.11 1.04
白水小学校(南) 1.21 1.04 元塩公園(南) 1.21 1.24
守山保健所(守山) 1.08 0.97
大高北小学校(緑) 1.21 0.97
天白保健所(天白) 1.11 0.97
影響の推定値(名古屋市内)
125
126. 一般局 自排局
測定局名 地域的な
影響
局所的な
影響
測定局名 地域的な
影響
局所的な
影響
愛知工業高校(北) 1.08 1.00
上下水道局北営
業所(北)
1.11 1.12
中村保健所(中村) 1.18 0.95 名塚中学校(西) 1.23 1.16
滝川小学校(昭和) 1.11 1.01 テレビ塔(中) 1.11 1.08
八幡中学校(中川) 1.18 1.00
熱田神宮公園(熱
田)
1.11 0.95
富田支所(中川) 1.18 0.98 港陽(港) 1.18 1.00
惟信高校(港) 1.18 1.09 千竃(南) 1.11 1.04
白水小学校(南) 1.21 1.04 元塩公園(南) 1.21 1.24
守山保健所(守山) 1.08 0.97
大高北小学校(緑) 1.21 0.97
天白保健所(天白) 1.11 0.97
影響の推定値(名古屋市内)
126
127. 排出量データ:EAGrid2000-JAPAN1)
とは?
• EAGrid2000-Japanは、2000年度を対象とした大気汚染物質排出デー
タである。
• 日本国内の様々なデータ(固定発生源種類・規模、発電量、廃棄物
処理量、自動車交通量、船舶航行データなど)から、1km2ごとでの
排出量を推定した総合的な排出量データ。
• この中から、今回はPM2.5の排出に係るデータを取り出し、結果の比
較を行った。
1) Kannari, A., Tonooka, Y., Baba, T., Murano, K.:Development of multiple-species
1 km×1 km resolution hourly basis emissions inventory for Japan, Atmospheric
Environment, 41, 3428‒3439 (2007). 127