環境分野における統計学の活用(20170822v1)

環境分野における統計学の
活用
名古屋市環境科学調査センター
研究員久恒邦裕
平成29年度講義資料
1

＜統計学の基礎＞
•統計の役割
•統計データの意味
＜環境データを読み解く＞
•汚染の発生源の種類を調べる
•汚染の発生源の場所を調べる
2

•統計の役割
3

環境問題における統計の役割
その環境は
人が生活するのに
心地よいのか？
人を不快にし
または命を脅かすものは
なにか？
その要因は
人為的なものか
自然のものか？
人為的
（または自然の）
要因について
詳しく知りたいその要因は
人間（生き物）に
どう影響するのか？
その要因の
正体は？
○疫学的な調査
○動物実験など
○化学分析
○実態調査など
集められた膨大なデータから
分かったことはなんなのか？
統計が、データの要約を行う
4

公開データの一例
環境展望台（http://tenbou.nies.go.jp/）による
データ公開の一例（PM2.5濃度のマップ）
環境省HPにて公開されている
化学物質の調査結果
http://www.env.go.jp/doc/toukei/contents/pdfdata/H27_7.pdf
大気汚染物質広域監視システム
（通称：そらまめ君）による
リアルタイムな環境データ
http://soramame.taiki.go.jp/Index.php
5

何のための情報か？
もちろん、名古屋市などの地方自治体でも
多くの情報を公開しています。
名古屋市の大気環境状況（PM2.5濃度の時系列グラフ）
http://www.kankyo-net.city.nagoya.jp/taiki/Graph/OyWbGra200101.htm
・今、どうなっているかを知りたい。
・過去、どうだったかを知りたい。
⇒公開されているデータを見ればOK
・そのような環境になった、原因はなんなのか。
・これから、どうなっていくことが予想されるのか。
⇒公開されているデータから
数字以上の“解釈”を得る必要がある。
6

•統計の役割
7

そもそも、統計とは
名古屋市内の空気中の窒素酸化物濃度を測定したい。
⇒ 空気をすべて集めてきて、窒素酸化物の量を測定すればいい・・・不可能
日本人の平均身長を求めたい。
⇒ 国民全員の身長のデータを測定・・・・・現実的？
工場で作ったパンの重さの平均値を知りたい。
でも、衛生上の問題から重さをはかったパンは廃棄します。
⇒ 当然、すべてのパンを測定できない。できるだけ測定数を少なくしたい。
8

そもそも、統計とは
見やすい
理解しやすい
形に変化
現実的には入手できないデータ（ex. 量が多すぎる、測定が不可能）の特徴を
入手可能なデータから類推する。
名古屋市の窒素酸化物のデータが知りたい
⇒市内すべての空気を測定することは不可能。いくつかのポイントで測定して
そのデータから、市内の平均値を類推する
少数の測定データ
（入手可能）知りたいが、手に負えない何か
（データ入手不可能）
9

環境分野（大気）で頻出の統計手法
• 平均値を計算する。
• パーセンタイル値を計算する。
• パーセンタイル値？：全体を100として、小さいほうから何番目の数に該
当するか、を示すもの。
• 例えば、98パーセンタイル値というのは、測定値100個のうち小さいほう
から数えて98番目のものがいくらになるか、を示すもの。
• 98パーセンタイル値を、データの最大値のように比較することも多い。
（なぜか？）
環境のデータは様々な要因に左右されるため、統計で扱うにはふさわしく
ない例外的なケースが、ときどき存在するため。
10

平均値とは何か？
• 平均値を計算する。
？？そもそも、平均値とは何なのか？
☆データの総和を、データ数で割り算したもの
（相加平均）
一般的に、平均値はデータの代表性を持っているとして
データの要約に使われる。
ex. 年間の平均、クラスの平均、10代女性の平均、日本人の平均
平均値の持つイメージ：たくさんのデータの中心、真ん中
多くのデータがその数字の近くの値になる
11

平均値とはなにか？
地点A 100 112 103 111 86 107 96 105 108 104 97 106 95 96 99
地点B 73 89 109 114 78 86 108 93 85 83 88 55 49 92 105
地点AおよびBにて、ある化学物質の濃度を30日間（1日1回）測定した。（と仮定）
地点A 103 94 88 84 92 105 97 91 100 99 84 97 109 101 90
地点B 100 100 88 134 92 104 47 111 85 66 69 70 116 64 71
地点AとBの、どちらが化学物質に汚染されているか？
12

地点A 100 112 103 111 86 107 96 105 108 104 97 106 95 96 99
地点B 73 89 109 114 78 86 108 93 85 83 88 55 49 92 105
地点A 103 94 88 84 92 105 97 91 100 99 84 97 109 101 90
地点B 100 100 88 134 92 104 47 111 85 66 69 70 116 64 71
＜平均値を計算＞地点A：９９、地点B：８７ ⇒ 地点Aの方が汚染されている！！
13

地点A 100 112 103 111 86 107 96 105 108 104 97 106 95 96 99
地点B 73 89 109 114 78 86 108 93 85 83 88 55 49 92 105
地点A 103 94 88 84 92 105 97 91 100 99 84 97 109 101 90
地点B 100 100 88 134 92 104 47 111 85 66 69 70 116 64 71
＜平均値を計算＞地点A：９９、地点B：８７ ⇒ 地点Aの方が汚染されている！！
そこで終わって、いいのでしょうか？
例えば、地点Bでは、１３４という大きな数字が、観測されました。
本当に、地点Bの方が綺麗だと言えるのでしょうか？
14

ヒストグラムで考える
• 表のデータは、見にくい。
⇒ 図（グラフ）にすることで特徴を把握できる。
• 沢山の数字があるデータは、まずヒストグラムにしてみるのが
おススメ。
ヒストグラムとは？
数字のデータが、どの範囲に何個あるのか、をグラフにしたもの。
ニュースなどでも、年代ごとの人口、収入で分けた世帯数、等で多
用されています。
15

地点Aは、９５～１００の値が最も多く
測定された。
地点Bは、測定される値にばらつき
がある。
高い濃度を出しやすいのは、地点B
16

地点Aは、９５～１００の値が最も多く
測定された。
地点Bは、測定される値にばらつき
がある。
高い濃度を観測しやすいのは地点B
のほうで、平均値が低いからと言っ
て、必ずしも低濃度の地域だとは言
えない。
17

0
1
2
3
4
5
6
7
8
9
50～55
55～60
60～65
65～70
70～75
75～80
80～85
85～90
90～95
95～100
100～105
105～110
110～115
115～120
120～125
125～130
130～135
日
測定結果のヒストグラム
地点A
平均を中心に、なんとなく左右対称。
平均値付近の数字も日数が多いし、平
均値を中心と考えても悪くない。
地点Aの平均値
18

0
1
2
3
4
5
6
7
8
9
50～55
55～60
60～65
65～70
70～75
75～80
80～85
85～90
90～95
95～100
100～105
105～110
110～115
115～120
120～125
125～130
130～135
日
測定結果のヒストグラム
地点B
左右の対称性は、地点Aよりも悪い。
日数も少ないし、こんな数字を、測
定値の代表としてしまっていいの
か？
地点Bの平均値
19

改めて、平均値とは？
0
50
100
150
200
250
10～15
15～20
20～25
25～30
30～35
35～40
40～45
45～50
50～55
55～60
60～65
65～70
70～75
75～80
80～85
85～90
90～95
0
20
40
60
80
100
120
10～15
15～20
20～25
25～30
30～35
35～40
40～45
45～50
50～55
55～60
60～65
65～70
70～75
75～80
80～85
85～90
90～95
２つとも平均値は５０。この２つが同等であるはずがない。
しかし、平均値だけしか情報がなければ
「この２つは同じである！」と結論付けてしまうかもしれない。
20

平均値と類似の統計パラメータ
21
平均値：データの総和を
データ数で割った値
中央値：データを並べて、
ちょうど真ん中に相当す
る値
最頻値：該当するデータ
が最も多い値（範囲）
0
10
20
30
40
50
60
70
0 2.5 5 7.5 10 12.5 15 17.5 20 22.5 25 27.5 30 32.5 35 37.5 40 42.5 45 47.5 50
2015年度元塩公園局 PM2.5 （日平均値）

22
１５．０
る値
0
10
20
30
40
50
60
70
0 2.5 5 7.5 10 12.5 15 17.5 20 22.5 25 27.5 30 32.5 35 37.5 40 42.5 45 47.5 50

23
１５．０
る値
１３．２
0
10
20
30
40
50
60
70
0 2.5 5 7.5 10 12.5 15 17.5 20 22.5 25 27.5 30 32.5 35 37.5 40 42.5 45 47.5 50

24
１５．０
る値
１３．２
１２．５～１５
0
10
20
30
40
50
60
70
0 2.5 5 7.5 10 12.5 15 17.5 20 22.5 25 27.5 30 32.5 35 37.5 40 42.5 45 47.5 50

25
0
1
2
3
4
5
6
7
8
５０万円未満
５０～１００
１００～１５０
１５０～２００
２００～２５０
２５０～３００
３００～３５０
３５０～４００
４００～４５０
４５０～５００
５００～５５０
５５０～６００
６００～６５０
６５０～７００
７００～７５０
７５０～８００
８００～８５０
８５０～９００
９００～９５０
９５０～１０００
１０００～１１００
１１００～１２００
１２００～１５００
１５００～２０００
２０００万円以上
世帯割合（％）
所得金額
1世帯当たりの所得金額
平均値：データの総和をデータ数
で割った値
５４１．９
中央値：データを並べて、ちょうど
真ん中に相当する値
４２７
最頻値：該当するデータが最も多
い値（範囲）
２５０～３００
厚生労働省：平成27年国民生活基礎調査
http://www.e-
stat.go.jp/SG1/estat/List.do?lid=0000011546
52

0
50
100
150
200
250
10～15
15～20
20～25
25～30
30～35
35～40
40～45
45～50
50～55
55～60
60～65
65～70
70～75
75～80
80～85
85～90
90～95
26
平均値：データの総和をデータ数
で割った値
４９．８
中央値：データを並べて、ちょうど
真ん中に相当する値
４９．９
最頻値：該当するデータが最も多
い値（範囲）
４５～５０
現実的に、このように綺麗な形になることは、稀

統計の怖さ
• 統計データは、扱うのも、見るのも注意が必要です。
• 「統計でうそをつく」「統計に騙されない」のような書籍やHPを見ます
が、基礎を知っていないとデータの本質を見失います。
• “統計の専門家”ではない“理系の専門家”が、実際に統計的に間
違った手法で学会発表していたり、論文書いたりしている例は、現実
にあります。
• だからといって、統計的な作業（例の平均値を求めるようなものも含
めて）から、避けることはほぼ不可能。
• 様々な統計手法を用いて、多角的に見ることでデータの本質を探る
必要がある。
27

•統計の役割
28

環境分野への統計の具体的な応用例
その前に・・・・
29

大気汚染物質の基礎
○大きく、2種類に分けることができます。
• 気体
窒素酸化物（NOｘ）、二酸化硫黄（SO2)
トルエンやベンゼンなどの有機化合物
• 粒子（固体または液体）
SPM、PM2.5
化学的に単一の成分
化学組成が明確
様々な化学物質の混合物
様々な化学組成を持つ。化学組成をはっきりさせないと
原因などが解らない。
30

PM2.5について
【概要】
○粒子径約2.5µm以下の空気中に浮遊している粒子の
総称。
○発生源は燃焼施設・自動車・野焼き・家庭・黄砂など
多岐にわたる。
○様々な成分が混在
髪の毛の太さが50～80µm
細胞の大きさが約10µm
PM2.5
31

PM2.5の成分測定
• イオン成分(ナトリウム、アンモニウム、塩化物、硫酸など）
• 炭素成分（元素状炭素（煤）、有機化合物）
• 無機（金属）成分（アルミニウム、鉄、銅、鉛、ヒ素、マンガンなど）
例えば、中国大陸から汚染物質が飛来してくる場合
イオン成分のうち硫酸イオンが多くなり
地域（名古屋市内など）の影響が強くなると
イオン成分のうち硝酸イオンが増える。
また、ディーゼル車の影響が大きいと
炭素成分のうちの元素状炭素が増える。
32

PM2.5の発生源
• PM2.5は発生する場所によって、それぞれ特徴があります。
ex. 自動車：窒素酸化物、元素状炭素が多い
石油燃焼：硫黄酸化物、バナジウム、ニッケルが多い
石炭燃焼：硫黄酸化物、ヒ素、鉛が多い
黄砂などの土壌：カルシウム、アルミニウム、チタンなどが多い
注：上記のものは一般的な傾向であり、すべてのケースで必ずしも該当するとは限らない。
33

PM2.5の成分
• PM2.5の成分は場所によって異なります。
• 例えば、東京・新潟・名古屋・金沢・大阪・福岡、などの各都市で採
取されたPM2.5の成分は、それぞれの特徴があります。
• どことどこの特徴が似ていて、どこが違うのかが解れば、PM2.5が何
に影響を受けているのかが解ります。
ex.
もし、東京・大阪・名古屋に共通の特徴があれば、大都市で共通する
影響がある。
もし、新潟・金沢・福岡に共通の特徴があれば、日本海側に共通した
影響がある。
34

共通する傾向を見出すには
• どの地点が似ていて、どの地点が似ていないのか。
• もし似ているのなら、どのように似ているのか。
• もし似ているのなら、なぜ似ているのか（共通する原因があるの
か？）
それらを解析する統計的な手法の一つに
因子分析というものがあります。
35

因子分析による解析
• 因子分析とは多くのデータの背後に潜む少数の原因を導き出す手
法。心理学や社会学などの分野で多く用いられる。
国語社会数学理科英語
Aさん 81 72 44 46 71
Bさん 87 77 37 40 73
Cさん 70 62 38 39 62
Dさん 51 44 82 76 61
Eさん 45 38 90 82 59
Fさん 44 37 85 77 56
Gさん 50 43 64 60 54
36

Aさん 81 72 44 46 71
Bさん 87 77 37 40 73
Cさん 70 62 38 39 62
Dさん 51 44 82 76 61
Eさん 45 38 90 82 59
Fさん 44 37 85 77 56
Gさん 50 43 64 60 54
• 因子分析とは多くのデータの背後に潜む少数の原因を導き出す手
法。心理学や社会学などの分野で多く用いられる。
文系科目が得意
⇒文系能力が高そう
理系科目が得意
⇒理系能力が高そう
英語とGさんに対する評価は、不明瞭 37

仮定を考える
• 人間の能力には“文系能力”と“理系能力”があり、それぞれが各教
科に対して影響している。
• それぞれの人に対して、“文系能力”と“理系能力”のどちらが大きい
のかを調べてみたい。
• 直観的に、ではなく数学的に
• その手法が因子分析
38

• 文系能力、理系能力のそれぞれが、各教科にどのように影響を与え
ているか。
• AさんからGさんまでの各個人には、文系能力と理系能力がどれくら
い備わっているか。
英語はどちらの能力の影響を受けているのか？
Gさんは、どちらの能力が高そうなのか？
39

文系能力 0.62 0.60 -0.01 0.06 1.10
理系能力 -0.45 -0.46 0.99 1.04 0.15
*数字の絶対値が大きいほど、影響力が大きい。
読み取れること
○文系能力は、国語、社会、英語にプラスの影響を与える。
○理系能力は、数学、理科に大きくプラスの影響を与える。
○理系の能力は、国語や社会にマイナスの影響を与える。
40

文系能力 0.62 0.60 -0.01 0.06 1.10
理系能力 -0.45 -0.46 0.99 1.04 0.15
41

文系能力 0.62 0.60 -0.01 0.06 1.10
理系能力 -0.45 -0.46 0.99 1.04 0.15
42

文系能力 0.62 0.60 -0.01 0.06 1.10
理系能力 -0.45 -0.46 0.99 1.04 0.15
43

文系能力理系能力
Aさん 1.40 0.26
Bさん 1.53 0.04
Cさん -1.7 -2.35
Dさん 0.82 1.46
Eさん 0.71 1.72
Fさん -0.46 0.59
Gさん -2.31 -1.71
○Aさん、Bさん、Cさんは文系能力の方が
理系能力よりも高い。
○Dさん、Eさん、Fさんは、理系能力の方が
文系能力よりも高い。
○Gさんは、やや理系能力の方が高い。
44

英語はどちらの能力の影響を受けているのか？
Gさんは、どちらの能力が高そうなのか？
Aさん 83 92 55 61 78
Bさん 95 88 65 63 80
Cさん 79 85 48 70 70
Dさん 63 59 98 89 73
Eさん 67 68 83 79 59
Fさん 72 61 73 94 71
Gさん 75 69 72 65 72
・英語は、文系能力が高いほうが高い
・Gさんは、文系能力と理系能力に差はほ
とんどない。
このようなことを、表を見た直観で理解するのではなく
数学的な理論に基づいて、述べることができます。
45

因子分析で、やりたかったこと
• 生徒の学力を評価するのに、5教科の数字を調べる必要があった。
• 生徒の学力を評価するのに、2つの能力（文系・理系）を見れば良く
なった。
46

環境データへの適応
日
々
の
デ
ー
タ
成分のデータ（50個近いデータがある）
50近い成分を1個ずつ見て解析するのは大変 ⇒ 数個のグループに分けて考える
特定の発生源から出てくるものには、傾向があり
それらをまとめることができれば、解釈がしやすい。
47

環境データへの応用
5教科
文系能力
理系能力
50成分
自動車影響
燃焼系工場影響
鉄鋼業影響
海塩影響
土壌影響
廃棄物焼却
48

グラフの比較
0
10
20
30
40
50
60
70
80
0
10
20
30
40
50
60
50種類のデータの変動を見ても
よくわからない。
このように数種類の変動ならば
理解がしやすい。
49

対策の具体化
• 成分の分析では、その高濃度の原因が何かを明確にすることはで
きません。
• しかし、何の影響かを探ることができれば、対策を具体的に検討す
ることができます。
ex. 自動車・工場・野焼き
• そのための一つの解析手法が、因子分析。
50

因子分析の適応
• よく使われるのがPMF（positive matrix factorization)法
• アメリカ合衆国環境保護庁が無料で公開しているソフトを利用
• 因子分析の手法を用いて、環境データの分析に適した形に特化した
もの。
• ただし、あくまでも統計的な推定であり、必ずしも答えが明確に出る
わけではない。
• 成分だけではなく、気象などの条件も踏まえて、多角的に考える必
要がある。
51

PMF法の使用例
52
成分分析結果による表現
PMF解析による表現
山神、他, 名古屋市環境科学調査センター年報, 1, 2013, p20

•統計の役割
53

CWT解析とは
• 汚染物質の濃度と、風向の関係を見て、その発生源がどこにあるの
かを探る。
0
5
10
15
20
25
ある架空のデータ
(Conditional Probability Function)
54

CWT解析とは
• 汚染物質の濃度と、風向の関係を見て、その発生源がどこにあるの
かを探る。
0
5
10
15
20
25
ある架空の化学物質の測定データ
測定した時間の風向を
調べてみると、色を付け
た期間は、北風が吹い
ていた。
北風の時に、高濃度に
なりやすいのでは？
55

CWT解析とは
0
5
10
15
20
25
データが13以上になった時を高濃度とすると
データ数高濃度の
データ数
高濃度になる
割合
全体１５０５２３５％
北風６２４８７７％
北風以外８８４５％
やはり北風の時に、高濃度になる傾向があった。
ということは、測定場所の北に、何かしらの化学物質の発生源があるのでは？56

CWT解析とは
• 実際には、もう少し多い風向で調べます。
• 具体的には16方位について調べ、図を描くことが多いです。
方位高濃度の
割合
方位高濃度の
割合
北 18% 南 9%
北北東 34% 南南西 5%
北東 38% 南西 64%
東北東 40% 西南西 93%
東 92% 西 31%
東南東 35% 西北西 65%
南東 0% 北西 86%
南南東 34% 北北西 60%
0
0.2
0.4
0.6
0.8
1
N
NNE
NE
ENE
E
ESE
SE
SSE
S
SSW
SW
WSW
W
WNW
NW
NNW
57

0
0.2
0.4
0.6
0.8
1
N
NNE
NE
ENE
E
ESE
SE
SSE
S
SSW
SW
WSW
W
WNW
NW
NNW
CPF解析について
• CPF解析とは
CPF（Conditional Probability Function)解析は、高濃
度が観測されるときの風向を調べ、頻度の高い風
向の風上に発生源があると推定する方法。
i : 風向
Wi : i方向からの全風向の数
ni : i方向からの高濃度時の
風向の数
CPFi =
ni
Wi
例
発生源があると疑われる方向
58

CPFの不確かさについて
0
0.2
0.4
0.6
0.8
1
N
NNE
NE
ENE
E
ESE
SE
SSE
S
SSW
SW
WSW
W
WNW
NW
NNW例
E = 0.90
WSW = 0.92
NW = 0.87
いずれも高い数字だが・・・・
実際の風の数をみると
E = 450 / 500
WSW = 3220 / 3500
NW = 13 / 15
59

平成23年度・24年度のPM2.5測定地点
5km
八幡中学校:一般局
元塩公園:自排局
60

CPF解析結果
平成23年度平成24年度
元塩公園
八幡中学校 0.00
0.10
0.20
0.30
0.40
0.50
0.60
N
NNE
NE
ENE
E
ESE
SE
SSE
S
SSW
SW
WSW
W
WNW
NW
NNW
0.00
0.10
0.20
0.30
0.40
0.50
N
NNE
NE
ENE
E
ESE
SE
SSE
S
SSW
SW
WSW
W
WNW
NW
NNW
0.00
0.20
0.40
0.60
0.80
N
NNE
NE
ENE
E
ESE
SE
SSE
S
SSW
SW
WSW
W
WNW
NW
NNW
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
N
NNE
NE
ENE
E
ESE
SE
SSE
S
SSW
SW
WSW
W
WNW
NW
NNW
61

風向の数
平成23年度平成24年度
元塩公園
八幡中学校
0
1000
2000
3000
4000
N
NNE
NE
ENE
E
ESE
SE
SSE
S
SSW
SW
WSW
W
WNW
NW
NNW
0
1000
2000
3000
4000
N
NNE
NE
ENE
E
ESE
SE
SSE
S
SSW
SW
WSW
W
WNW
NW
NNW
0
500
1000
1500
2000
2500
N
NNE
NE
ENE
E
ESE
SE
SSE
S
SSW
SW
WSW
W
WNW
NW
NNW
0
500
1000
1500
2000
2500
N
NNE
NE
ENE
E
ESE
SE
SSE
S
SSW
SW
WSW
W
WNW
NW
NNW
62

確率、の基本
• 自分でサイコロを作製。６回振ったら＜１，２，３，４，５，１＞の目が出た。
→ 「このサイコロは1が出やすくて、6がほとんど出ない」と
考えるでしょうか？
• でも、このサイコロを600回振って、以下のように目が出たら？
→ 「このサイコロは1が出やすくて、6がほとんど出ない」と
多くの人が、考えるでしょう。
目の数１２３４５６
出た回数 180 98 105 94 103 20
63

CPFの不確かさについて
0
0.2
0.4
0.6
0.8
1
N
NNE
NE
ENE
E
ESE
SE
SSE
S
SSW
SW
WSW
W
WNW
NW
NNW例
E = 0.90
WSW = 0.92
NW = 0.87
いずれも高い数字だが・・・・
実際の風の数をみると
E = 450 / 500
WSW = 3220 / 3500
NW = 13 / 15
評価に使った風の数が、風向によって大きく異なる。
⇒ 同列に（同じグラフで）扱っていいのか？ 64

フィールド観測データの弱点
• しかし、風向（条件）を人間がコントロールすることはできない。
• どのように考えれば、解決するのか？
• その一つの方法が、ベイズ統計を用いる方法
65

ベイズ統計による解析
• ベイズ統計とは、以下のベイズの定理を元とする統計学
P(B | A) =
P(A | B) P(B)
P(A)
P(B | A) ： Aという事象が起きた時に
Bという事象が起きる確率
2000年ごろより活用が始まる。
スパムメールの振り分け、人工知能、マーケティングなどさまざ
まな分野で応用
P(A) ： Aという事象が
起きる確率
66

ベイズ統計の特徴
○従来からの統計学は“頻度論的統計学”と呼ばれる。
データパラメータ
頻度論的統計学確率的な数字確定した数字
ベイズ統計学確定した数字確率的な数字
このようなベイズ統計の特徴があることで
従来の頻度論的統計学では不可能だった計算が
行えるようになり
統計学の活用の場が広がった。
67

頻度論とベイズの比較
頻度論的統計学あるコインを投げて、表が出る確率というのは決まっている。それは、
形状・重心・バランスなどから決められており、0.50だとか0.51だとか、
明確な数字で表せる。
⇒ただし、その正解を知っているのは神様だけ。人間には知ることが
できない。でも、何度か実験をしてデータを取ることで、正解に近い数
字を類推することはできる。
ベイズ統計学あるコインを投げて、表が出る確率というのは決まっている。けれども、
明確な数字で表せるものではない。0.48~0.52くらい、という幅をもって
表現するもので、一つの数字で表現できない。
⇒本当にあるのかどうかわからない（神様しか知らないような）正解な
んて、どうでもいい。でも、実験データから導き出した数字は紛れもな
い事実であり、これを大切にする。
コインを投げて、表が出る確率について考える
68

コインを投げて、表が出る確率について考える
69
いまここに、表の出る確率がxであるコインがある。
このコインを４回投げたとき
表・表・裏・裏
の順に出た。
このとき、表の出る確率xを求めよ。

頻度論的統計学 4回中、2回が表なので
表が出る確率は２／４＝５０%
「初め、表が2回出たのは偶然。投げた回数が少ないのが原因」
サイコロの目について考える
70

ベイズ統計学 1回目：表が出た → 「このコインは表しか出ない！このコインが
“裏しか出ないコインである”確率は消えた。」
2回目：表が出た → 「やっぱり、このコインは表しか出ない！！」
3回目：裏が出た → 「表が出やすいけど、裏が出る場合もある。
“表しか出ない”、という可能性は消えた。」
4回目：裏が出た → 「表と裏が、同じくらい出やすい」
サイコロの目について考える
71

その他のベイズ統計の特徴
○自分が持っている知識を、確率に組み込むこ
とができる。
そんなに形はいびつじゃな
いし、おそらくそれぞれの
目の出る確率は1/6ずつだ
ろう。
絶対に1の目が出やすい。
3も時々でるかもしれないけど、
２の目は絶望的だ。
予備知識を利用したほうが、結果が早く
得られることが多い。 72

○欠測があっても、統計モデルが組める。
○外れ値の影響を受けづらい。
○過分散なデータを扱える。
73

欠測とはなにか？
地点A 100 112 103 111 86 × 96 105 108 104 97 106 × 96 99
地点B 73 89 109 114 78 86 108 93 85 × 88 55 49 92 105
地点A 103 × 88 84 92 105 97 91 100 99 84 97 109 × 90
地点B 100 100 88 134 92 104 47 × 85 66 69 70 116 × 71
74

地点A 100 112 103 111 86 × 96 105 108 104 97 106 × 96 99
地点B 73 89 109 114 78 86 108 93 85 × 88 55 49 92 105
地点A 103 × 88 84 92 105 97 91 100 99 84 97 109 × 90
地点B 100 100 88 134 92 104 47 × 85 66 69 70 116 × 71
75
頻度論的統計学では、解析手法によっては
上の緑の部分が、使えないデータになってしまう。
もったいない！！

地点A 100 112 103 111 86 × 96 105 108 104 97 106 × 96 99
地点B 73 89 109 114 78 86 108 93 85 × 88 55 49 92 105
地点A 103 × 88 84 92 105 97 91 100 99 84 97 109 × 90
地点B 100 100 88 134 92 104 47 × 85 66 69 70 116 × 71
76
ベイズ統計学なら、使えないデータは
測定していないところだけ。
データを最大限に生かせる！！

外れ値とはなにか？
地点A 100 112 103 111 86 107 96 105 108 104 97 106 95 96 99
地点B 73 89 109 114 78 86 108 93 85 83 88 55 49 92 105
地点A 103 94 88 84 92 105 97 91 100 99 84 97 109 101 90
地点B 100 100 88 500 92 104 47 111 85 66 69 70 116 64 71
77
500は、おそらく何らかの測定ミスだと考えられるが
もしかしたら、本当に500なのかもしれない。
500は怪しいと思いつつ、一応、データとして
そのまま解析を行うことができるのも
ベイズ統計の特徴

過分散とはなにか？
0
50
100
150
200
250
10～15
15～20
20～25
25～30
30～35
35～40
40～45
45～50
50～55
55～60
60～65
65～70
70～75
75～80
80～85
85～90
90～95
0
20
40
60
80
100
120
10～15
15～20
20～25
25～30
30～35
35～40
40～45
45～50
50～55
55～60
60～65
65～70
70～75
75～80
80～85
85～90
90～95
78

○欠測があっても、統計モデルが組める。
○外れ値の影響を受けづらい。
○過分散なデータを扱える。
いずれも、環境データではよくあること。
（実験室でのデータでは、あまり見られない）
↓
データを無駄にせず、最大限利用できる。
79

頻度論的統計学実験室での、整えられた条件で得られたデータ
に向いている
（科学実験など）
ベイズ統計学実験条件をコントロールできない状況で得られ
たデータに向いている。
（フィールド調査データ、アンケートなどの社会実
験データなど）
80

話を元に戻します
• 風向により、PM2.5の汚染源の場所を探る（CPF）
• 風向が方角によってまちまちで、データの信頼性がばらつく
• なにか、他の方法を検討している
• ベイズ統計を紹介 ← いまここ
次に、統計的モデルについて考えます。
81

ベイズ統計のために
ベイズ統計を実施するためには
なんらかの統計モデルを考える必要があります。
82

統計的手法のためのモデル
• モデルとは、あるデータの成り立ちを数式で説明したもの。
☆ ある商品の売り上げ＝
デザイン＋機能＋広告効果＋価格設定＋・・・・・
☆ スポーツ成功度＝
素質＋努力＋運＋・・・・・・
☆ 大気汚染濃度＝
汚染物質発生量＋汚染発生源との距離＋風＋・・・・・・
83

統計モデルを考える
• いま求めたいのはPM2.5の環境濃度への影響
• 考えられるモデルは
PM2.5 ＝要因１＋要因２＋要因３＋・・・・・・・・
• 話題にしているのは、風向の話
• 考えられる単純なモデルは
PM2.5 ＝風向に影響される量＋風向に影響されない量
84

モデルの意味するところ
85
by avaxhome.ws
A
濃度上昇
PM2.5 ＝風向に影響される量＋風向に影響されない量

モデルの意味するところ
86
by avaxhome.ws
A
濃度上昇しない
PM2.5 ＝風向に影響される量（０）＋風向に影響されない量

ベイズ統計の方法
使用ソフト：WinBUGS + R
今回採用したモデル(風の影響についてみたモデル）
PM2.5質量濃度
＝風向の影響を受けない月ごとの平均値
＋風向の影響値
解析するためには、PM2.5質量濃度の変動に対して
何が影響しているのかを、自分で設定しなければいけない。
予備検討の結果・・・・
87

ベイズ統計による解析結果
（元塩公園）
0
0.2
0.4
0.6
0.8
0
5
10
15
20
25
30
CPF
[Wid](μg/m3)
風向の影響値（50ﾊﾟｰｾﾝﾀｲﾙ値） CPF
0.00
0.20
0.40
0.60
0.80
0
5
10
15
20
25
30
CPF
Wid](μg/m3)
風向の影響値(50ﾊﾟｰｾﾝﾀｲﾙ値) CPF
平成23年度
平成24年度
88

ベイズ統計による解析結果
（八幡中学校）
平成23年度
平成24年度
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0
2
4
6
8
10
12
CPF
[Wid](μg/m3)
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0
2
4
6
8
10
12
CPF
[Wid](μg/m3)
89

風向の影響値の信頼性について
0
5
10
15
20
25
30
1 10 100 1000 10000
95％確信区間幅(μg/m3)
風向の数
平成23年度元塩平成24年度元塩平成23年度八幡平成24年度八幡
前ページ
グラフ
風向の影響値の信頼性（95％確信区間の幅）は
風向の数と関係がある。 90

ベイズ統計を用いた結果
• CPF解析で得られたのと同様な結果が得られた。
別の方法で同じような結果 ⇒結果の頑強性が高い
結果の信頼性が高い
• それに加え、結果の信頼性を評価するための数字も得られた。
• さらに、信頼性と風の数についての知見も得られ、今後の実験を計
画する上での方針決定にも役立つ。
91

もう一つ、ベイズ統計を用いた事例を紹介
92

研究の背景
• PM2.5の環境基準が平成21年9月に定められた。
• 常時監視データとしてPM2.5の採取を目的に応じて
２通りの方法で行っている。
自動測定成分分析測定
目的環境基準適不適の判断成分の把握
測定項目質量濃度の測定質量濃度と成分濃度の測定
年間データ数 365日×24時間×17地点 4季節×14日×6地点
メリットデータ数が多い成分が詳細に明らかになる
デメリット PM2.5の成分の詳細は
不明
分析コストがかかり
サンプル数を増やせない
93

不明
研究の背景
【PM2.5の調査・研究の目的】
PM2.5の発生源等の影響を明らかにして
有効な削減策へと繋げる（高濃度化の要因を探る）。
94

不明
研究の背景
【PM2.5の調査・研究の目的】
PM2.5の発生源等の影響を明らかにして
有効な削減策へと繋げる（高濃度化の要因を探る）。
違った視点からの
解析が、できないか？
95

PM2.5の日々の変動グラフ
（2015年度名古屋市内：速報値）
0
5
10
15
20
25
30
35
40
12月14日
12月15日
12月16日
12月17日
12月18日
12月19日
12月20日
12月21日
12月22日
12月23日
12月24日
12月25日
12月26日
12月27日
12月28日
12月29日
12月30日
12月31日
1月1日
1月2日
1月3日
1月4日
1月5日
1月6日
1月7日
1月8日
1月9日
1月10日
1月11日
1月12日
PM2.5質量濃度(μg/m3)
愛知工業高校
中村保健所
滝川小学校
八幡中学校
富田支所
惟信高校
白水小学校
守山保健所
大高北小学校
天白保健所
上下水道局北営業所
名塚中学校
テレビ塔
熱田神宮公園
港陽
千竈
元塩公園
大まかな変動は類似しているが、測定局間に差がある。
96

PM2.5 年平均値の分布
(2014年度）
μg/m3
測定局間の差に
地理的な傾向は
存在するのか？
それとも
測定局ごとに
独自の傾向が
存在するのか？
97

目的
• 自動測定機による日々のPM2.5濃度変化
を、その地理的な条件と合わせて考慮して、
その特徴を探る。
【仮説】
PM2.5の濃度への影響は、3つの種類に分解できる。
それぞれの影響を、場所ごとに区切って調べる。
98

１．広域的な影響
A
B C
D
全地点で、同じ期間（オレンジ色の四角）に
同じように高濃度となる現象が観測された。
↓
広域的に共通した原因が存在する。
観測された
PM2.5濃度の日変動
99

by vector free
○国外からの越境汚染の影響
○気温などの
気象条件による影響
○国内の汚染の影響
広域的な影響の例
100

２．地域的な影響
A
B C
D
いくつかの地点で、同じ期間（オレンジ色の四角）に
同じように高濃度となる現象が観測された。
↓
一定の地域に共通した原因が存在する。
101

by avaxhome.ws
○大規模な発生源の影響
地域的な影響の例
○密集した複数の発生源の
影響 by avaxhome.ws
○交通量の多い道路の影響
102

A
B C
D
３．局所的な影響
一つの地点で、ある期間（オレンジ色の四角）に
高濃度となる現象が観測された。
↓
個別の局所に影響した原因が存在する。
103

by avaxhome.ws
○測定局近傍の、小規模な発生源の影響
局所的な影響の例
A
104

濃度変動への影響の種類
【仮説】
• PM2.5に影響を与えるのは
＜広域的な影響＞（広い範囲の影響）
＜地域的な影響＞（一定範囲の影響）
＜局所的な影響＞（ごく狭い範囲への影響）
の３つに分解できる。
• これらの影響を、測定局ごとに統計的に解析して
影響の大きさを具体的に調べる。
105

解析対象データ
• 愛知県、岐阜県（一部）、
三重県（一部）の常時監
視局77局の日平均値
• 2012年4月1日
～2014年3月31日
（2年分）
☆大気汚染物質広域監視
システム（そらまめ君：速報
値）にて公表されている
データ
106

解析対象データ
＜広域的な影響＞
右の地図全体に共通した
影響
＜地域的な影響＞
0.1度×0.1度(約9×11km)
の四角に共通した影響
＜局所的な影響＞
測定局（赤い丸）のみへの
影響 107

測定値のモデル
＜地域的な影響＞は
隣の地域とは
似た変動を示す。
（空間自己相関をもつ）
0.1度（約9km)
0.1度
（約11km)
108

名古屋市近辺の区分け
109

測定値に対する仮定
PM2.5の測定値
広域的に共通した値（変動）
地域的な影響局所的な影響
空間自己
相関をもつ
110

測定値のモデル
ln [PM] d, r, c, p, m ~ N ([mPM] d, r, c, p, m , s )
[mPM] d, r, c, p, m <- [PM.0]m + [a.effect]r, c + [p.effect]p
[a.effect]r, c ~ car.normal(Adj[], Weight[], Num[], s’)
c
c + Δc
r + Δr
r 測定局p
ある日(d) の測定値。
この日はm月であった。
真の値は、
月平均
地域的な影響
局所的な影響
の合計。
[mPM] d, r, c, p, m
[PM.0] m
[a.effect] r, c
[p.effect] p
111

計算に用いたソフト
• R：統計解析ソフト。今回は、データの加工や結果
の確認を行うのがメイン。（パッケージR2WinBUGS
を使用）：無料
• WinBUGS：ベイズ統計のコアの計算を担う。：無料
112

測定値の推定結果
PM2.5の測定値
空間自己
相関をもつ
113

推定結果
- 広域的な影響の値（月変動）-
8
10
12
14
16
18
20
4月 5月 6月 7月 8月 9月 10月 11月 12月 1月 2月 3月
PM2.5濃度(μg/m3)
推定された値実測値の平均値
推定された値（広域的な影響の値）に、以降で示す
地域的な影響や局所的な影響が加わって実測値となる。
（2012、2013年度）
114

PM2.5の測定値
空間自己
相関をもつ
115

• 広域的な影響に対する、
相対的な影響値を示す。
• 名古屋港周辺から北の
地域にかけて高い値が
示された。
• 全体的には南西側で高
く、北東側で低い値と
なった。
計算結果
-地域的な影響-
116

計算結果
-地域的な影響- （名古屋近郊）
117

PM2.5の測定値
空間自己
相関をもつ
118

• 広域的な影響に対する、
相対的な影響値を示す。
• 高い値、低い値が各所
に点在。
計算結果
-局所的な影響-
119

計算結果
-局所的な影響- （名古屋近郊）
120

局所的な影響
地
域
的
な
影
響
地域的な影響と局所的な影響の関係
（測定局ごとにプロット）
121

局所的な影響
地
域
的
な
影
響
地域的にも
局所的にも
高濃度になりやすい
地域的にも
局所的にも
低濃度になりやすい
地域的には高濃度
局所的には低濃度
になりやすい
地域的には低濃度
局所的には高濃度にな
りやすい
地域的な影響と局所的な影響の関係
（測定局ごとにプロット）
122

PM2.5 常時監視地点（名古屋市内）
守山保健所
上下水道局北営業所
テレビ塔
滝川小学校
天白保健所
愛知工業高校
八幡中学校
熱田神宮公園
名塚中学校
千竃
元塩公園
大高北小学校
中村保健所
白水小学校
富田支所
惟信高校
港陽
123

一般局自排局
測定局名地域的な
影響
局所的な
影響
影響
局所的な
影響
愛知工業高校（北） 1.08 1.00
上下水道局北営
業所（北）
1.11 1.12
中村保健所（中村） 1.18 0.95 名塚中学校（西） 1.23 1.16
滝川小学校（昭和） 1.11 1.01 テレビ塔（中） 1.11 1.08
八幡中学校（中川） 1.18 1.00
熱田神宮公園（熱
田）
1.11 0.95
富田支所（中川） 1.18 0.98 港陽（港） 1.18 1.00
惟信高校（港） 1.18 1.09 千竃（南） 1.11 1.04
白水小学校（南） 1.21 1.04 元塩公園（南） 1.21 1.24
守山保健所（守山） 1.08 0.97
大高北小学校（緑） 1.21 0.97
天白保健所（天白） 1.11 0.97
影響の推定値（名古屋市内）
124

一般局自排局
影響
局所的な
影響
影響
局所的な
影響
愛知工業高校（北） 1.08 1.00
業所（北）
1.11 1.12
中村保健所（中村） 1.18 0.95 名塚中学校（西） 1.23 1.16
滝川小学校（昭和） 1.11 1.01 テレビ塔（中） 1.11 1.08
八幡中学校（中川） 1.18 1.00
田）
1.11 0.95
富田支所（中川） 1.18 0.98 港陽（港） 1.18 1.00
惟信高校（港） 1.18 1.09 千竃（南） 1.11 1.04
白水小学校（南） 1.21 1.04 元塩公園（南） 1.21 1.24
守山保健所（守山） 1.08 0.97
大高北小学校（緑） 1.21 0.97
天白保健所（天白） 1.11 0.97
125

一般局自排局
影響
局所的な
影響
影響
局所的な
影響
愛知工業高校（北） 1.08 1.00
業所（北）
1.11 1.12
中村保健所（中村） 1.18 0.95 名塚中学校（西） 1.23 1.16
滝川小学校（昭和） 1.11 1.01 テレビ塔（中） 1.11 1.08
八幡中学校（中川） 1.18 1.00
田）
1.11 0.95
富田支所（中川） 1.18 0.98 港陽（港） 1.18 1.00
惟信高校（港） 1.18 1.09 千竃（南） 1.11 1.04
白水小学校（南） 1.21 1.04 元塩公園（南） 1.21 1.24
守山保健所（守山） 1.08 0.97
大高北小学校（緑） 1.21 0.97
天白保健所（天白） 1.11 0.97
126

排出量データ：EAGrid2000-JAPAN1)
とは？
• EAGrid2000-Japanは、2000年度を対象とした大気汚染物質排出デー
タである。
• 日本国内の様々なデータ（固定発生源種類・規模、発電量、廃棄物
処理量、自動車交通量、船舶航行データなど）から、1km2ごとでの
排出量を推定した総合的な排出量データ。
• この中から、今回はPM2.5の排出に係るデータを取り出し、結果の比
較を行った。
1) Kannari, A., Tonooka, Y., Baba, T., Murano, K.:Development of multiple-species
1 km×1 km resolution hourly basis emissions inventory for Japan, Atmospheric
Environment, 41, 3428‒3439 (2007). 127

排出量データ：EAGrid2000-JAPAN
の種類（一部）
○発電所
○廃棄物の焼却施設
○工場ボイラーなどの燃焼施設
○農業廃棄物焼却（野焼き）
○自動車排気
○船舶
○農業・産業用機械
○航空機など
128

自動車排気からのPM2.5の
排出データとの比較
(EAGrid2000-JAPAN）
kg/年
129

大規模固定燃焼施設からのPM2.5の
kg/年
130

船舶からのPM2.5の
kg/年
131

0.80
0.85
0.90
0.95
1.00
1.05
1.10
1.15
1.20
1.25
1.30
局所的な影響
一般環境
大気測定局
自動車排出ガス
測定局
局所的な影響の評価
（一般環境と道路沿道の比較）
132

謝辞
•解析ソフトの利用に際し、北海道大学
の久保拓弥博士が公開している
R2WBwrapper.Rを併用しました。
•地図の県境データについては「国土数
値情報 (行政区域データ) 国土交通省」
を使用して作成しました。
133

本発表は
大気環境学会誌第50巻第2号（2015）
＜ベイズ統計を用いたPM2.5常時監視データの解
析＞
および
環境科学調査センター年報第3号（2014）
＜空間統計学を用いた常時監視データ解析＞
を基としております。
論文はインターネット等で入手できます。さらに詳細
な検討方法やデータなどについては、そちらをご覧
ください。
134

環境分野における統計学の活用(20170822v1)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 環境分野における統計学の活用(20170822v1)

Similar to 環境分野における統計学の活用(20170822v1) (15)

環境分野における統計学の活用(20170822v1)