Deep uncertainty quantification a machine learning approach for weather forecasting

1
調和系工学研究室
学部4年椿康平
2020/09/02
Deep Uncertainty Quantification: A
Machine Learning Approach for
Weather Forecasting

論文情報
• タイトル
Deep Uncertainty Quantification: A Machine
Learning Approach for Weather Forecasting
• 著者
Bin Wang, Jie Lu, Zheng Yan, Huaishao Luo,
Tianrui Li, Yu Zheng, Guangquan Zhang
• 学会
KDD 2019
• コード
https://github.com/BruceBinBoxing/Deep_Learning
_Weather_Forecasting
2

概要
• 天気予報はNWP(数値気象予測)によって行われるが、初
期状態によって満足な予測ができない場合がある
• 本論文ではNWP予測と過去のデータを融合した手法を設
計する
• 本論文では天気予報問題をend-to-endの深層学習問題と
し、NLE(負の対数尤度誤差関数)を提案する
• 点推定予測と不確実性定量化を同時に実行するのがポイ
ント
• 精度向上のためにディープアンサンブル戦略をとった
• NWPと比較して47.76%の精度向上が見られ,今回のデー
タセットではベストスコアを叩き出した
3

INTRODUCTION
• NWP
• 気象学で現在最も使用されている物理モデルを利用したシミュ
レーション・予測手法
• 初期値を適切に選択することで高い予測精度を得ることができ
るが、適切に設定することができないことがあるのが問題
• 機械学習だけ
• 学習によって、パターンを素早くモデル化することができる
• 予測精度を向上させるためにはビッグデータと面倒な特徴エン
ジニアリングが必要となるのが問題
• 点推定予測
• 人による意思決定の種類が多く、信頼性や柔軟性に欠ける
4
NWPと機械学習の長所を組み合わせて、
より効率的で効果的な解を作ることはできないだろうか？
質の高い不確実性の定量化に基づいて予測区間を示すための情報を
より多く提供することはできないだろうか？

INTRODUCTION
• 今回の試み
• 過去の観測データとNWPからの天気予報情報を利用
した機械学習を行う
• 新たにNLE(負の対数尤度誤差損失関数)を導入
• DUQ (不確実性定量化手法)によって、点推定だけで
はなく予測区間の推定を行う
• 効率的な深層アンサンブル戦略を探索
5
典型的な平均二乗誤差(MSE)や平均絶対誤差(MAE)損失と比較して
NLE損失による学習が点推定を有意に改善した
この情報融合手法は初の試みである
アンサンブル解が精度を大幅に向上させた

関連研究
• 現在の天気予報はほとんどがNWPによって行われている
• 一部ではARIMA、SVM、フォワードニューラルネットワ
ークを用いて天気予報に取り組んだが、多様な気象変数
が存在する時空間ダイナミクスを捉えきれていない
• ディープラーニングによる気象予測も行われてはいるが、
NWPに存在する事前知識を無視しているので、多様な気
象変数の時空間ダイナミクスを捉えることができない可
能性がある。また、面倒な特徴エンジニアリングが必要
となってしまうことや不確実性の定量化の柔軟性に欠け
ているといった問題が挙げられる
6

実験内容
• 問題提起
前提
•過去の気象情報とNWPによる天気予報情報が存在する
実験目的
•各測候所でのground truthに近い天気予報を行うこと
7

実験内容
• 記法(測候所sに対して次のように定義する)
• 過去の気象情報
𝑬 𝑡 = 𝑒1 𝑡 , 𝑒2 𝑡 , … , 𝑒 𝑁1
𝑡 ∈ ℝ 𝑁1 (𝑡 = 1, … , 𝑇𝐸)
𝑁1: 気象要素数, 𝑒𝑖: 気象要素
• 予測タイムステップ,NWP予測,測候所IDからなる情報
𝑫 𝑡 = 𝑑1 𝑡 , 𝑑2 𝑡 , … , 𝑑 𝑁2
𝑡 ∈ ℝ 𝑁2 (𝑡 = 𝑇𝐸 + 1, … , 𝑇𝐸 + 𝑇𝐷)
𝑑𝑖: 𝑁2の特徴量の1つ, 𝑇 𝐷: 予測タイムステップ数
• ground truth
𝒀 𝑡 = 𝑦1 𝑡 , 𝑦2 𝑡 , … , 𝑦 𝑁3
𝑡 ∈ ℝ 𝑁3 (𝑡 = 1, … , 𝑇𝐸)
𝑦𝑖: 𝑁3の目標変数の1つ, 推定値の場合は 𝒀(𝑡)とする
8

実験内容
• データを次のようにまとめる
𝑬 𝑇 𝐸
= 𝑬 1 , 𝑬 2 , … , 𝑬(𝑇𝐸) ∈ ℝ 𝑇 𝐸×𝑁1
𝑫 𝑇 𝐷
= 𝑫 𝑇𝐸 + 1 , 𝑫 𝑇𝐸 + 2 , … , 𝑫(𝑇𝐸 + 𝑇 𝐷) ∈ ℝ 𝑇 𝐷×𝑁2
𝑿 𝑇 𝐷
= [𝑬 𝑇 𝐸
; 𝑫 𝑇 𝐷
]
𝒀 𝑇 𝐸
= 𝒀 𝑇𝐸 + 1 , 𝒀 𝑇𝐸 + 2 , … , 𝒀(𝑇𝐸 + 𝑇 𝐷) ∈ ℝ 𝑇 𝐷×𝑁3
• タスク定義
• 𝑿 𝑇 𝐷
が与えられると予測値 𝒀 𝑇 𝐷
を算出し,𝒀 𝑇 𝐷
を近似す
る
• あらかじめ決めた許容確率で𝒀 𝑇 𝐷
∈ [ 𝒀 𝑇 𝐷
𝐿
, 𝒀 𝑇 𝐷
𝑈
]となる
• 𝑇 𝐷 = 37(日中3: 00から翌日15: 00まで)
• 目的変数は温度・相対湿度・風速なので𝑁3 = 3
9

情報融合
• 過去のデータから季節性を抽出する手法では、天候の変
動が大きいため、最良の結果が得られない可能性がある
• Concept Driftが頻繁に発生しているので、長期的な気象
データの価値が下がる
10
対象となる3つの気象変数の過去3年間の変動
強い季節性変動ノイズの影響が強いノイズの影響が強い
(気温) (相対湿度) (風速)
バランスフュージョン法を提案

情報融合
バランスフュージョン法
• 気象ダイナミクスのモデル化には、最近の観測値を使
• ある結論では、「多くの時系列タスクでは、最近の時
間ステップが数ステップで済む」とされている[2]
• NWP予測を𝑫 𝑇 𝐷
に組み込む
• 𝑫 𝑇 𝐷
にstation IDとtime IDを組み込む
11
(気温) (相対湿度) (風速)
時間毎,測候所毎に平均と分散が大きく異なる
日中3時から翌日15時までの過去の観測値の統計量
[2] Felix A Gers, Douglas Eck, and Jürgen Schmidhuber. 2002. Applying LSTM to time series predictable
through time-window approaches. In Neural Nets WIRN Vietri-01. Springer, 193–200.

データの前処理
• 欠損値の取り扱い
• ブロック欠損(１日分のデータがない)
•該当する日のデータを消去
•1188日→1148日
• 局所欠損(局所的な非連続時系列)
•線形補間を行い欠損値を算出
• 連続変数の正規化
• min-max正規化を用いて[0,1]に正規化
• 評価する際は元に戻す
• カテゴリ変数
• Timesteps IDとStation IDが存在する
•ハード符号化よりも性能が良い埋め込み符号化を行う[10]
12
[10] Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeff Dean. 2013.
Distributed representations of words and phrases and their compositionality.
In Neural Information Processing Systems. 3111–3119.

データの前処理
• 次のように3つのテンソルにリシェイプする
• 入力テンソル
𝐼, 𝑇𝐸, 𝑆, 𝑁1
𝐼, 𝑇 𝐷, 𝑆, 𝑁2
• ground truthテンソル
𝐼, 𝑇 𝐷, 𝑆, 𝑁3
• I：日付インデックス
• S：測候所インデックス
13

DUQ モデルアーキテクチャ
• エンコーダーは𝑬 𝑇 𝐸
から𝒄を抽出
• 𝒄はデコーダの初期状態に使用される
• デコーダは𝒄から𝑫 𝑇 𝐷
を抽出
• StaIDとTimeIDにはそれぞれ埋め込み層を用意
• 𝒀 𝑇 𝐷
として使用される逐次点推定𝒖 𝑇𝐷を算出する
• [ 𝒀 𝑇 𝐷
𝐿
, 𝒀 𝑇 𝐷
𝑈
]を予測するための 𝝈 𝑇 𝐷
2
を算出する
14

学習段階
• NLEをガウス分布に対して計算するための3つの仮定
1. 各日と各測候所は独立している
2. 各目標変数と特定の測候所における各タイムステッ
プは、𝑿 𝑇𝐷が与えられると条件付きで独立
3. 目的変数は、多変量独立ガウス分布をみたし、𝜎 𝜃は
入力特徴量の関数である
• 過程をもとに損失関数は次のように表現できる
𝑁𝐿𝐸 = −
𝑖=1
𝐼
𝑠=1
𝑆
𝑜
𝑁3
𝑡
𝑇 𝐸+𝑇 𝐷
log 𝜎𝑜;𝜃
2
𝑿 𝑡
𝑖,𝑠
2
+
𝑦𝑜 𝑡 − 𝑢 𝑜;𝜃 𝑿 𝑡
𝑖,𝑠
2
2𝜎𝑜;𝜃
2
𝑿 𝑡
𝑖,𝑠
+ 𝐶
𝑦𝑜 𝑡 : 𝑖日目の時刻𝑡での𝑔𝑟𝑜𝑢𝑛𝑑 𝑡𝑟𝑢𝑡ℎ
𝜎 𝑜;𝜃
2
𝑿 𝑡
𝑖,𝑠
: 分散, 𝑢 𝑜;𝜃 𝑿 𝑡
𝑖,𝑠
: 平均
15

学習段階
• 次のアルゴリズムに従い、学習する
16

推論段階
• 学習後、入力𝑿 𝑇 𝐷に対して次のように統計的推論を行う
𝑢 𝜃 𝑿 𝑇 𝐷
, 𝜎 𝜃
2
𝑿 𝑇 𝐷
= 𝑓 𝑿 𝑇 𝐷
𝑢 𝜃 𝑿 𝑇 𝐷
: 平均推定値(𝑿 𝑇 𝐷
が与えられた時の 𝒀 𝑇 𝐷
)
𝜎 𝜃
2
𝑿 𝑇 𝐷
: 分散平均値(𝑿 𝑇 𝐷
が与えられた時の 𝝈 𝑇 𝐷
2
)
• 𝒀 𝑇 𝐷
がガウス分布に従うと仮定すると次のように推論する
ことができる(本研究では1 − 𝑧 = 0.9としているので、ガ
ウス分布のzスコアより𝜆 = 1.65とする)
𝒀 𝑇 𝐷
𝑈
= 𝒀 𝑇 𝐷
+ 𝜆 𝝈 𝑇 𝐷
𝒀 𝑇 𝐷
𝐿
= 𝒀 𝑇 𝐷
− 𝜆 𝝈 𝑇 𝐷
17

推論段階
• 次のアルゴリズムで推論を行う
18

アンサンブル方法
• アンサンブルにはシンプルかつ効率的な方法を採用
• アンサンブルの各モデルは指定されたノードで初期化さ
れたDUQベースのモデル
• アンサンブル点推定は、すべてのDUQベースモデルの平
均点推定であり,容易に実装可能
19

評価指標
• 各目的変数のRMSEobj
𝑅𝑀𝑆𝐸 𝑜𝑏𝑗 =
𝑠=1
𝑆
𝑡=𝑇 𝐸+1
𝑇 𝐸+𝑇 𝐷
𝑦𝑜
𝑠
𝑡 − 𝑦𝑜
𝑠
𝑡
2
𝑆 ∙ 𝑇 𝐷
𝑦𝑜
𝑠
𝑡 : 測候所𝑠での時刻tにおける目的変数の𝑔𝑟𝑜𝑢𝑛𝑑 𝑡𝑟𝑢𝑡ℎ
𝑦𝑜
𝑠
𝑡 ∶ 測候所𝑠での時刻tにおける目的変数の予測値
• １日あたりのRMSE
𝑅𝑀𝑆𝐸 𝑑𝑎𝑦 =
𝑅𝑀𝑆𝐸𝑡2𝑚 + 𝑅𝑀𝑆𝐸𝑟ℎ2𝑚 + 𝑅𝑀𝑆𝐸 𝑤10𝑚
𝑁3
• RMSEavgは全日のRMSEdayの平均
• RMSEは値が小さいほど良いとされる
20

評価指標
• NWPとの比較をするためにSS(Skill Score)を導入
• 各目的変数のSS
𝑆𝑆 𝑜𝑏𝑗 = 1 −
𝑅𝑀𝑆𝐸 𝑜𝑏𝑗_𝑚𝑙
𝑅𝑀𝑆𝐸 𝑜𝑏𝑗_𝑛𝑤𝑝
• １日あたりのSS
𝑆𝑆 𝑑𝑎𝑦 =
𝑆𝑆𝑡2𝑚 + 𝑆𝑆𝑟ℎ2𝑚 + 𝑆𝑆 𝑤10𝑚
𝑁3
• SSavgは全日のSSdayの平均(オンラインコンペティション
でも使用されている)
• SSは値が大きいほど良いとされる
21

評価指標
• 予測区間の精度を測定するためにPICP(Prediction
interval coverage probability)を導入
• 予測区間にあるかどうかのブール変数を用意
𝑏 𝑠,𝑡,𝑜 =
1, 𝑖𝑓 𝑦𝑠,𝑜
𝐿 𝑡 ≤ 𝑦𝑠,𝑜 𝑡 ≤ 𝑦𝑠,𝑜
𝑈 𝑡
0, 𝑒𝑙𝑠𝑒.
• Cobjを計算
𝐶 𝑜𝑏𝑗 =
𝑠=1
𝑆
𝑡=𝑇 𝐸+1
𝑇 𝐸+𝑇 𝐷
𝑏 𝑠,𝑡,𝑜
• PICPobjを算出(理想は1-zと同じかそれ以上になること)
𝑃𝐼𝐶𝑃𝑜𝑏𝑗 =
𝐶 𝑜𝑏𝑗
𝑆 ∙ 𝑇 𝐷
22

比較対象
• NWP
• SARIMA
• SVR
• GBRT
• DUQ50
• 1層のGRUベースのseq2seqで、50個の隠れノード
• 損失関数はNLE
• DUQ50-50
• 2層のGRUベースのseq2seqで、各層50個の隠れノード
• DUQ200
• 1層のGRUベースのseq2seqで、200個の隠れノード
• DUQ300-300
• 2層のGRUベースのseq2seqで、各層300個の隠れノード
23

比較対象
• DUQnoNWP
• NWP予測をゼロ値とする以外はDUQ300-300と同じ
• DUQnoOBS
• 𝑬 𝑇𝐸をゼロ値とする以外はDUQ300-300と同じ
• Seq2SeqMSE
• 損失関数をMSEにする以外はDUQ300-300と同じ
• Seq2SeqMAE
• 損失関数をMAEにする以外はDUQ300-300と同じ
• DUQEsb3
• DUQ300-300,DUQ200-200,DUQ100-100をアンサンブル
• DUQEsb10
• DUQ300-300,DUQ310-310,...,DUQ390-390をアンサンブル
• Model1st
• 複雑なスタッキングと、アンサンブル学習を採用
• コンペティションで1位になったモデル
24

実験環境
• 実験はQuadro P4000 GPUとKerasプログラミング環境
（Tensorflowバックエンド）を搭載したGPUサーバ上で
実施
25

パラメータ設定
• バッチサイズ：512
• 各埋め込み層の埋め込み次元：2
• エポックパラメータ：設定なし(早期停止戦略のため)
• 最大反復回数：10000回(比較的大きく設定)
• 検証間隔(vi)：50
• 早期停止許容値(est)：10
• 総反復回数：検証時間(vt)×検証間隔(vi)
• 予測区間：z = 0.1 , 1-z = 0.9 (λ=1.65)
• その他
𝑁1 = 9, 𝑁2 = 31, 𝑁3 = 3, 𝑇𝐸 = 28, 𝑇 𝐷 = 37, 𝑆 = 10
26

パラメータ設定
• 訓練セット
• エンコーダ入力(1148, 28, 10, 9)
• デコーダ入力(1148, 37, 10, 31)
• デコーダ出力(1148, 37, 10, 3)
• 検証セット
• エンコーダ入力(87, 28, 10, 9)
• デコーダ入力(87, 37, 10, 31)
• デコーダ出力(87, 37, 10, 3)
• テストセット
• エンコーダ入力(1, 28, 10, 9)
• デコーダ入力(1, 37, 10, 31)
• デコーダ出力(1, 37, 10, 3)
27

実験結果 28
• SSの結果(NWPとの比較)

実験結果 29
• RSMEの結果

情報融合の効果
• DUQ300-300とDUQnoNWPを比較することで、NWP予測を組み込
むことの有効性が示唆された
• DUQ300-300とDUQnoOBSを比較することで、最近の気象ダイナ
ミクスのモデル化の有効性が示唆された
• NWPとDUQnoOBSを比較することで、NWPの性能が深層学習に
よってさらに向上することがわかる
• NWPとDUQnoNWPを比較することで、気象データのモデリング
においてDUQの優位性を示す
• NWPやOBSだけのモデリングでは不十分であり、情報融合が
より良い解決策であることが言える
30

ディープラーニングの効果
• ディープラーニングベースのモデル(DUQとSeq2Seq)は、
非ディープラーニングモデル(SARIMA,SVR,GBRT)より
優れた性能を示している
• DUQ50とDUQ50-50を比較することで、深層学習の効果が
示唆される
• DUQ50,DUQ200,DUQ300-300を比較することで、同数の層
でのノード数の効果が示唆される
31

損失関数の効果
• NLE損失で学習したDUQ300-300がSeq2SeqMSE(MSE損失)
やSeq2SeqMAE(MAE損失)よりも性能が高い
• DUQ300-300の方が収束までの反復回数が多い
• NLE損失が平均最適化と分散最適化の2つのタスクを
共同で実行しているため、収束までに多くの反復を必
要とするという解釈が妥当
• 理論的な証明が今後必要
32

アンサンブルの効果
• アンサンブルモデルDUQEsb3がオンラインコンペで使用
され、2位になる
• DUQEsb10が最高のSSavgを達成したことから、より多くの
DUQモデルを用いたアンサンブルの方がより良い解が得
られる
33

T検定
• 片側t検定
• 予測結果が統計的に有意であることを確認
• 𝜎 = 0.25
• 指定された有意水準の下では、当社の手法
DUQEsb10が他のどのベースラインよりも有意に優
れている
34

気象予報の不安定性について
• 気象の不安定性と変動性のために、単一のモデルがSSday
ベストスコアを出すことは難しい
• 全体的にはアンサンブルモデルの方がSSdayベストスコア
を出す傾向がある
• 気象の不安定性は予測区間が必要なことを意味している
35

予測区間について
• 有効な予測区間はPICPobjがあらかじめ定義された1-
z=90%以上を満たす必要がある
• 我々のアプローチは、一般的に条件を満たしている
36

予測区間について
• 予測区間の質を可視化するためにモデルDUQ300-300を使用
• 予測区間が時間の経過とともに広くなるのではない
• 気象要素が日中に大きく変化し、夜になると安定してくる
からと考えられる
• 点推定によるディープラーニングだけでは、このような知
見は得られない
37

CONCLUSIONS AND FUTURE WORKS
• 結論
• 天気予報問題にDUQ(不確実性定量化手法)を導入した
• 予測モデルの学習にNLE(負の対数尤度誤差損失関数)
を用いて、逐次点推定と予測区間の推定を同時に行う
ことができるようにした
• 今後の取り組み
•アーキテクチャの改良(注意喚起機構など)
•自動ハイパーパラメータ調整
•NLEとMSE/MAEの理論的な比較
38

Deep uncertainty quantification a machine learning approach for weather forecasting

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Deep uncertainty quantification a machine learning approach for weather forecasting

Similar to Deep uncertainty quantification a machine learning approach for weather forecasting (20)

More from harmonylab

More from harmonylab (20)

Recently uploaded

Recently uploaded (10)

Deep uncertainty quantification a machine learning approach for weather forecasting