Submit Search
Upload
階層ベイズでプロ野球各球団の「本当の強さ」を推定してみる
•
13 likes
•
4,043 views
Hisao Soyama
Follow
階層ベイズでプロ野球各球団の「本当の強さ」を推定してみる
Read less
Read more
Data & Analytics
Report
Share
Report
Share
1 of 34
Download now
Download to read offline
Recommended
Stanコードの書き方 中級編
Stanコードの書き方 中級編
Hiroshi Shimizu
MCMCでマルチレベルモデル
MCMCでマルチレベルモデル
Hiroshi Shimizu
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
Miki Katsuragi
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
Akira Masuda
WAICとWBICのご紹介
WAICとWBICのご紹介
Tomoki Matsumoto
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
shima o
統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333
Issei Kurahashi
構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性
Shiga University, RIKEN
Recommended
Stanコードの書き方 中級編
Stanコードの書き方 中級編
Hiroshi Shimizu
MCMCでマルチレベルモデル
MCMCでマルチレベルモデル
Hiroshi Shimizu
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
Miki Katsuragi
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
Akira Masuda
WAICとWBICのご紹介
WAICとWBICのご紹介
Tomoki Matsumoto
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
shima o
統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333
Issei Kurahashi
構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性
Shiga University, RIKEN
ベイズモデリングと仲良くするために
ベイズモデリングと仲良くするために
Shushi Namba
Cmdstanr入門とreduce_sum()解説
Cmdstanr入門とreduce_sum()解説
Hiroshi Shimizu
ベイジアンモデリングによるマーケティングサイエンス〜状態空間モデルを用いたモデリング
ベイジアンモデリングによるマーケティングサイエンス〜状態空間モデルを用いたモデリング
宏喜 佐野
Chapter9 一歩進んだ文法(前半)
Chapter9 一歩進んだ文法(前半)
itoyan110
状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38
horihorio
ベイズファクターとモデル選択
ベイズファクターとモデル選択
kazutantan
心理学者のためのJASP入門(操作編)[説明文をよんでください]
心理学者のためのJASP入門(操作編)[説明文をよんでください]
daiki hojo
Stan超初心者入門
Stan超初心者入門
Hiroshi Shimizu
心理学における「再現性」の問題とBayes Factor
心理学における「再現性」の問題とBayes Factor
Shushi Namba
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
takehikoihayashi
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について
hoxo_m
階層ベイズとWAIC
階層ベイズとWAIC
Hiroshi Shimizu
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
Naoki Hayashi
StanとRでベイズ統計モデリング読書会 Chapter 7(7.6-7.9) 回帰分析の悩みどころ ~統計の力で歌うまになりたい~
StanとRでベイズ統計モデリング読書会 Chapter 7(7.6-7.9) 回帰分析の悩みどころ ~統計の力で歌うまになりたい~
nocchi_airport
『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた
『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた
. .
質的変数の相関・因子分析
質的変数の相関・因子分析
Mitsuo Shimohata
あなたの心にBridgeSampling
あなたの心にBridgeSampling
daiki hojo
PRML輪読#1
PRML輪読#1
matsuolab
変分ベイズ法の説明
変分ベイズ法の説明
Haruka Ozaki
混合モデルを使って反復測定分散分析をする
混合モデルを使って反復測定分散分析をする
Masaru Tokuoka
本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~
本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~
Hisao Soyama
『アジャイルデータサイエンス』2章 データ
『アジャイルデータサイエンス』2章 データ
Hisao Soyama
More Related Content
What's hot
ベイズモデリングと仲良くするために
ベイズモデリングと仲良くするために
Shushi Namba
Cmdstanr入門とreduce_sum()解説
Cmdstanr入門とreduce_sum()解説
Hiroshi Shimizu
ベイジアンモデリングによるマーケティングサイエンス〜状態空間モデルを用いたモデリング
ベイジアンモデリングによるマーケティングサイエンス〜状態空間モデルを用いたモデリング
宏喜 佐野
Chapter9 一歩進んだ文法(前半)
Chapter9 一歩進んだ文法(前半)
itoyan110
状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38
horihorio
ベイズファクターとモデル選択
ベイズファクターとモデル選択
kazutantan
心理学者のためのJASP入門(操作編)[説明文をよんでください]
心理学者のためのJASP入門(操作編)[説明文をよんでください]
daiki hojo
Stan超初心者入門
Stan超初心者入門
Hiroshi Shimizu
心理学における「再現性」の問題とBayes Factor
心理学における「再現性」の問題とBayes Factor
Shushi Namba
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
takehikoihayashi
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について
hoxo_m
階層ベイズとWAIC
階層ベイズとWAIC
Hiroshi Shimizu
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
Naoki Hayashi
StanとRでベイズ統計モデリング読書会 Chapter 7(7.6-7.9) 回帰分析の悩みどころ ~統計の力で歌うまになりたい~
StanとRでベイズ統計モデリング読書会 Chapter 7(7.6-7.9) 回帰分析の悩みどころ ~統計の力で歌うまになりたい~
nocchi_airport
『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた
『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた
. .
質的変数の相関・因子分析
質的変数の相関・因子分析
Mitsuo Shimohata
あなたの心にBridgeSampling
あなたの心にBridgeSampling
daiki hojo
PRML輪読#1
PRML輪読#1
matsuolab
変分ベイズ法の説明
変分ベイズ法の説明
Haruka Ozaki
混合モデルを使って反復測定分散分析をする
混合モデルを使って反復測定分散分析をする
Masaru Tokuoka
What's hot
(20)
ベイズモデリングと仲良くするために
ベイズモデリングと仲良くするために
Cmdstanr入門とreduce_sum()解説
Cmdstanr入門とreduce_sum()解説
ベイジアンモデリングによるマーケティングサイエンス〜状態空間モデルを用いたモデリング
ベイジアンモデリングによるマーケティングサイエンス〜状態空間モデルを用いたモデリング
Chapter9 一歩進んだ文法(前半)
Chapter9 一歩進んだ文法(前半)
状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38
ベイズファクターとモデル選択
ベイズファクターとモデル選択
心理学者のためのJASP入門(操作編)[説明文をよんでください]
心理学者のためのJASP入門(操作編)[説明文をよんでください]
Stan超初心者入門
Stan超初心者入門
心理学における「再現性」の問題とBayes Factor
心理学における「再現性」の問題とBayes Factor
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について
階層ベイズとWAIC
階層ベイズとWAIC
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
StanとRでベイズ統計モデリング読書会 Chapter 7(7.6-7.9) 回帰分析の悩みどころ ~統計の力で歌うまになりたい~
StanとRでベイズ統計モデリング読書会 Chapter 7(7.6-7.9) 回帰分析の悩みどころ ~統計の力で歌うまになりたい~
『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた
『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた
質的変数の相関・因子分析
質的変数の相関・因子分析
あなたの心にBridgeSampling
あなたの心にBridgeSampling
PRML輪読#1
PRML輪読#1
変分ベイズ法の説明
変分ベイズ法の説明
混合モデルを使って反復測定分散分析をする
混合モデルを使って反復測定分散分析をする
Viewers also liked
本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~
本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~
Hisao Soyama
『アジャイルデータサイエンス』2章 データ
『アジャイルデータサイエンス』2章 データ
Hisao Soyama
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
Hisao Soyama
10分でわかるPythonの開発環境
10分でわかるPythonの開発環境
Hisao Soyama
『アジャイルデータサイエンス』1章 理論
『アジャイルデータサイエンス』1章 理論
Hisao Soyama
大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―
大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―
Hisao Soyama
みんなで使おう京都データストア・ワークショップ
みんなで使おう京都データストア・ワークショップ
Department of Policy Planning, Kyoto Prefectural Government
Matrix
Matrix
Hisao Soyama
『オープンソースで学ぶ社会ネットワーク分析』1章 イントロダクション
『オープンソースで学ぶ社会ネットワーク分析』1章 イントロダクション
Hisao Soyama
グラフデータベース「Neo4j」の 導入の導入(続き)-Cypherの基本のキ-
グラフデータベース「Neo4j」の 導入の導入(続き)-Cypherの基本のキ-
Hisao Soyama
SQL Developerって必要ですか? 株式会社コーソル 河野 敏彦
SQL Developerって必要ですか? 株式会社コーソル 河野 敏彦
CO-Sol for Community
グラフデータベース「Neo4j」の 導入の導入
グラフデータベース「Neo4j」の 導入の導入
Hisao Soyama
PyMCがあれば,ベイズ推定でもう泣いたりなんかしない
PyMCがあれば,ベイズ推定でもう泣いたりなんかしない
Toshihiro Kamishima
Pythonによる機械学習入門 ~SVMからDeep Learningまで~
Pythonによる機械学習入門 ~SVMからDeep Learningまで~
Yasutomo Kawanishi
学部生向けベイズ統計イントロ(公開版)
学部生向けベイズ統計イントロ(公開版)
考司 小杉
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
Shinichi Nakagawa
PyMC mcmc
PyMC mcmc
Xiangze
Viewers also liked
(17)
本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~
本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~
『アジャイルデータサイエンス』2章 データ
『アジャイルデータサイエンス』2章 データ
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
10分でわかるPythonの開発環境
10分でわかるPythonの開発環境
『アジャイルデータサイエンス』1章 理論
『アジャイルデータサイエンス』1章 理論
大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―
大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―
みんなで使おう京都データストア・ワークショップ
みんなで使おう京都データストア・ワークショップ
Matrix
Matrix
『オープンソースで学ぶ社会ネットワーク分析』1章 イントロダクション
『オープンソースで学ぶ社会ネットワーク分析』1章 イントロダクション
グラフデータベース「Neo4j」の 導入の導入(続き)-Cypherの基本のキ-
グラフデータベース「Neo4j」の 導入の導入(続き)-Cypherの基本のキ-
SQL Developerって必要ですか? 株式会社コーソル 河野 敏彦
SQL Developerって必要ですか? 株式会社コーソル 河野 敏彦
グラフデータベース「Neo4j」の 導入の導入
グラフデータベース「Neo4j」の 導入の導入
PyMCがあれば,ベイズ推定でもう泣いたりなんかしない
PyMCがあれば,ベイズ推定でもう泣いたりなんかしない
Pythonによる機械学習入門 ~SVMからDeep Learningまで~
Pythonによる機械学習入門 ~SVMからDeep Learningまで~
学部生向けベイズ統計イントロ(公開版)
学部生向けベイズ統計イントロ(公開版)
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
PyMC mcmc
PyMC mcmc
階層ベイズでプロ野球各球団の「本当の強さ」を推定してみる
1.
階層ベイズで プロ野球各球団の 「本当の強さ」を 推定してみる @who_you_me
2.
2016年 いろいろなことがありました
3.
ショッキングな出来事
4.
http://www.nikkansports.com/baseball/news/1730991.html (2017年1月8日閲覧)
5.
ちょっと待ってほしい
6.
日本シリーズ勝者 = 一番強いチーム なのか?
7.
私怨で言ってるんじゃなくて 統計の話がしたいんですよ私は ● Cの真の勝率が0.6、Fの真の勝率が0.4のと き、4勝2敗以上の成績でFが勝者となる確率 – 0.1792
8.
私怨で言ってるんじゃなくて 統計の話がしたいんですよ私は ● 「本当はCの方が強い場合でも17.9%の確率で 起こる現象」が実際に起こったからといってF の方が強いって言えますか奥さん – フォーマルに言うと「Cの真の勝率が0.6という帰 無仮説を有意水準0.05で棄却できない」
9.
私怨で言ってるんじゃなくて 統計の話がしたいんですよ私は ● 日本シリーズは「先に4勝した方が勝ち」 ● (引き分けを考慮しないと)最大7試合しかな いので、日本シリーズ勝者 = 真の強者である と主張することは難しい そもそも今はクライマックスシリーズがあるので議論はさらに面倒なことに
10.
ではどうすればよいか
11.
ではどうすればよいか ● 半年かけて年間143試合もやっているので、 「シーズン順位(勝率) = 真の強さを反映」 とは言えそう ● ではシーズン勝率を見ればいいのか?
12.
よくない
13.
よくない理由 ● リーグ間には実力差があるので(パ>>>セ) 異なるリーグ間で勝率を単純に比較することは できない ● 交流戦はあるが、1チームあたり18試合しかな いので「交流戦順位 = 真の強さを反映」とも 言えない –
(だからこそ日本シリーズがある)
14.
シーズンの全勝敗情報を活かしつつ、 直接対決が少ないチーム同士でも 実力を比較できるような方法は ないのだろうか……
15.
ある
16.
ベイズモデリングだ!!!
17.
こんなデータセットを作る ● 1試合が1行の勝敗データ ● F対Hの対戦成績が15-9のとき、LoserがF、 WinnerがHの行が9個、逆の行が15個ある
18.
こうモデリングする 松浦(2016) p. 189
モデル式10-4を一部改変
19.
こうモデリングする
20.
「ベースの強さ」 ● 各チームごとに「ベースの強さ」がある – 「ベースの強さ」はチームごとに異なる ● 「ベースの強さ」は正規分布に従う – 「身長は正規分布する」と似たような感じ チームtの「ベースの強さ」(μt)は平均0、分散σμの正規分布に従う Tはチーム数(今回は12)
21.
22.
パフォーマンス ● 毎試合「ベースの強さ」どおりのパフォーマン スが出せるわけではない ● 試合ごとのパフォーマンスは「ベースの強さ」 を平均とする正規分布に従う g試合目のチームtのパフォーマンスは平均μt(チームtの「ベースの強さ」)、 分散σtの正規分布から生成される Gは試合数(今回は840) σtの分布については識別性の話をしなければならなくなるので ここではスルーさせてください
23.
勝敗 ● パフォーマンスが高い方が勝つ – パフォーマンスは確率的に決まるので、たまたま 「調子の悪い日」と「調子の良い日」が重なれば、 弱者が強者に勝つこともある g試合目の勝者(W)のパフォーマンスは、敗者(L)のパフォーマンスを上回っている 引き分けはモデルに組み込むのが大変そうだったので除外しています
24.
25.
再掲 松浦(2016) p. 189
モデル式10-4を一部改変
26.
パラメータを推定する ● 以上のストーリーに沿いモデルを作成 ● 実際の勝敗データで学習し、「ベースの強さ」 のパラメータ(と他のパラメータ)を推定する パラメータの分布についての議論はより高度な知識が必要になるのでここでは割愛し、 事後分布の平均値で点推定しています σtの推定値についても今回の議論の本筋とはあまり関係がないので割愛します
27.
実際にやってみた ● データは手入力 – 12x12のセルを埋めるだけなので ● 前処理やグラフ描画はPython ● パラメータの推定にはStan – ベイズ推定が得意な確率的プログラミング言語 –
PyStanを使ってPythonから扱う ● pandasでごにょごにょしたデータをまんま渡せて便利
28.
29.
結果
30.
31.
32.
考察 ● リーグの実力差を反映したスコアになっている – 日本ハム(パ勝率.621) >
広島(セ勝率.631) – オリックス(パ勝率.407) > 中日(セ勝率.414)
33.
参考文献 東京大学教養学部統計学教室(1992)『自然科学の統計学』 東京大学出版会 松浦健太郎(2016)『StanとRでベイズ統計モデリング』 共立出版
34.
おしまい
Download now