『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた
- 9. 売上データの分解モデル
𝑆𝑎𝑙𝑒 𝑡 = 𝑡𝑟𝑒𝑛𝑑 𝑡 + 𝑤𝑒𝑒𝑘 𝑡 + 𝑟𝑎𝑖𝑛 𝑡 + 𝑒𝑣𝑒𝑛𝑡 𝑡 + 𝑎𝑟 𝑡 + 𝜀 𝑡
トレンド
雨効果
週効果
先頭が
AR項
イベント
効果
残差
小文字の変数: 推定すべきパラメータ
大文字の変数: すでに与えられているデータ・数値
とします.
- 10. モデル | トレンド
長期的変動を表す. 二次トレンドモデルを使う.
𝑡𝑟𝑒𝑛𝑑 𝑡 − 𝑡𝑟𝑒𝑛𝑑 𝑡−1 ≈ 𝑡𝑟𝑒𝑛𝑑 𝑡−1 − 𝑡𝑟𝑒𝑛𝑑 𝑡−2
𝑡𝑟𝑒𝑛𝑑 𝑡 = 2𝑡𝑟𝑒𝑛𝑑 𝑡−1 − 𝑡𝑟𝑒𝑛𝑑 𝑡−2 + 𝜀1 𝑡
𝜀1 𝑡 ~𝒩 0, 𝜎 𝑡𝑟𝑒𝑛𝑑
- 11. モデル | 週効果
𝑤𝑒𝑒𝑘 𝑡 = 𝑠 𝑡
+ 𝐷1 𝑡 𝑏1 𝑠 日,𝑡 − 𝑠 𝑡
+ 𝐷2 𝑡 𝑏2 𝑠 金,𝑡 − 𝑠 𝑡 + 𝑏3 𝑠 土,𝑡 − 𝑠 𝑡
値=1
値=0
𝐷1 𝑡
月~金の祝日
それ以外
𝐷2 𝑡
祝日でない月~木
かつ翌日が祝日
それ以外
- 12. モデル | 週効果
基本パターン (周期7)
7
𝑠 𝑡−𝑙 ≈ 0
𝑙=1
6
𝑠𝑡 = −
𝑠 𝑡−𝑙 + 𝜀2 𝑡
𝑙=1
𝜀2 𝑡 ~𝒩 0, 𝜎 𝑠
- 15. モデル | イベント効果
経験で変換: 参加人数数値
推定する係数 [千円]
𝑒𝑣𝑒𝑛𝑡 𝑡 = 𝑐_𝑒𝑣𝑒𝑛𝑡 𝑡 ∗ 𝐸𝑣𝑒𝑛𝑡_𝑣𝑎𝑙
Event_val
イベントの参加人数
[万人]
𝑐_𝑒𝑣𝑒𝑛𝑡 𝑡 = 𝑐_𝑒𝑣𝑒𝑛𝑡 𝑡−1 + 𝜀3 𝑡
𝜀3 𝑡 ~𝒩 0, 𝜎 𝑒𝑣𝑒𝑛𝑡
𝑡
- 16. モデル | AR項
𝑎𝑟 𝑡 は 𝑡𝑟𝑒𝑛𝑑 𝑡 よりは短く 𝑤𝑒𝑒𝑘 𝑡 よりは長い時間スケール、
具体的には1ヶ月程度の周期を担う成分
このような他の項では説明できない時間スケール変動を表す
項をあらかじめ入れておくことが, モデリングに基づくデータ分
析の秘訣である.
[書籍より]
2
𝑎𝑟 𝑡 =
𝑐_𝑎𝑟𝑙 𝑎𝑟 𝑡−𝑙 + 𝜀4 𝑡
𝑙=1
𝜀4 𝑡 ~𝒩 0, 𝜎 𝑎𝑟
- 23. 結果: 週効果 | 基本パターン
𝑠𝑡
売上
[千円]
真の値
MCMCサンプルの中央値
週末に売上が減る.
ビジネス街の影響.
- 24. 結果: 週効果 | 祝日効果
類似度
真の値
MCMCサンプルの密度関数
MCMCサンプルの中央値, 95%CI
𝐷2 𝑡 = 1の日は3日だけだったので 𝑏2, 𝑏3の推定は厳しかった.
0 ≤ 𝑏1 ≤ 1の範囲の境界の値(=1.0)を推定させるのも厳しい様子.
- 30. Web上の情報(予定含む)
• Small Data Scientist Memorandum
– http://heartruptcy.blog.fc2.com/blog-entry-90.html
– R Advent Calendar 2013の26日目の記事になります.
• 書籍の元となった研究はこちら.
– 状態空間モデルを用いた飲食店売上の要因分解
• http://ci.nii.ac.jp/naid/110001183787
– 状態空間モデルによる 時系列データ解析 樋口知之 - 統計数理研究所
• http://tswww.ism.ac.jp/higuchi/index_e/papers/Kouza-TSA-Higuchi.pdf