SlideShare a Scribd company logo
1 of 43
Download to read offline
前回の、ウェブ広告関連の基礎知識のLTを発展させた
【データを仕事で活かす 実践編】をやろうと思いましたが、
1
確率と統計を学ぶ
2014/12/16
右寺 隆信
クイズ大会
2
Q1から6までの数字が書かれた
6面体のサイコロがあります
このサイコロを転がしたときに
6の目がでる確率は?
3
A 1/6
4
Qサイコロを振ってなんと
6の目が出ました
さて、次にもう一度振った時に
6の目が出る確率は?
5
A 1/6
6
Qさっきからずっとサイコロを
振っていますが、
30回連続で6が出ています
さて、次に振ったときに
6が出る確率は?
7
A 1/6
でも、さすがにサイコロが
グラサイじゃないか疑った方が…
8
Qサイコロを振って2回連続で
同じ目が出る確率は?
9
A 1/6
1/6 * 1/6 * 6 = 1/6
10
Q3つのサイコロを同時に振って
1つでも6がでる確率は?
11
A1-(5/6)*(5/6)*(5/6)=42.12%
これ系の問題はベン図で考えるとわかりやすいです
「1つでも6がでる」の補集合が「1つも6がでない」なので
「1つも6がでない」確率を計算して、1から引くと答えがでます。
(「6がでない」確率は5/6)
12
Qとあるサービスでは、書き込みをする際に
128種類からランダムに選ばれた
アイコンが表示されます。
それぞれの確率が1/128だとして、
2回連続同じアイコンになる確率は
いくつでしょうか?
13
A 1/128
14
Q現在、そのサービスでは
一日に100回の書込があります。
この100回中、一度でも連続で
同じアイコンが表示されてしまう
確率はいくつでしょうか?
15
A
約54%
さっきの1つ以上が6と同じ考え方です。
アイコンが被らないためには、
ある人が書き込んだ次の書き込みで
127/128を引く必要があります。
それを99回続ければ一度も被らない、という
今回の問題の補集合の確率が出るのでそれから1を引くと
今回の確率が算出されます。
1-(127/128)^99=0.5399750577 54%
アイコンが128個もあるから被る確率はけっこう低い、
は気のせいってのがわかりますね
16
Qあなたは1万人に1人が感染する病気の
疑いがあり、精密検査を受けたところ
残念なことに陽性が出てしまいました。
しかもこの検査の精度(※)は99%とのこと…
さて、あなたが実際にこの病気に
感染した確率は何%ほどでしょうか?
※ここでは、陽性の人に陽性の判定を、
陰性の人に陰性の判定を出す確率
17
A 0.98%
仮に100万人の人がいたとして、
本当に陽性の人は100人、陰性の人は999,900人。
99%の精度なので、
陽性の人100人中99人は検査は陽性、1人は陰性とでる
陰性の人999,900人中989,901は検査は陰性、9,999人は陽性とでる
検査で陽性とでる人は99+9,999=10,098人。
うち、本当に陽性なのは99人なので
99/10,098=0.009803921569 0.98%
18
男性用ピルに「99%有効」のお墨付き
http://www.newsweekjapan.jp/stories/world/2014/12/post-3482_1.php
う∼ん……
19
Q
あなたはバラエティ番組に出演しています。
番組の司会者曰く「目の前に3つのドアがありますね。
そのうち2つのドアの裏には何もないですが、1つだけ
裏に自動車が置いてあるドアがあります。もし、自動車の
ドアを当てることができればなんとその自動車をプレゼント!」
さて、あなたはドアの1つを選びました。
そのとき司会者が残り2つのドアのうち、ハズレのドアを
開けてしまい、その上でこう言いました。
「残るドアは2つだけど、もし良かったら選択を変えても良いよ」
あなたは違うドアを選ぶべきでしょうか?
それとも最初に選んだドアのままにしておくべきでしょうか?
20
A変えるべき。絶対に。
「モンティーホールのジレンマ」という有名な話です。
直感的には変えても変えなくても関係ない、と思いますが
数学的には、あるいは実際のところ絶対に変えたほうが良いです。
説明はいろいろな方法がありますが、わかりやすい説明は以下
最初のドアを選んだまま変えない方が良いのは、
最初の選択が当たってた場合、つまり確率は1/3しかない。
ということは、もう1つのドアの当たる確率は2/3。
変えたほうが2倍のチャンスがある。
21
Q
ここに4枚のカードがあります。
裏側は全く同じで見分けがつきませんが
表側は2枚は赤、2枚は黒のカードです。
「ここから2枚のカードを引いて
2枚とも違う色だったら1万円あげるよ。
でも、2枚とも同じ色だったら1万円ちょうだい」
と言われた時、
その勝負を受けるべきでしょうか?
♥ ♥ ♠ ♠
22
A受けるべき
ありうる組み合わせは
赤赤・黒黒・赤黒・黒赤
それぞれの確率は
赤赤: 1/4*1/3*2 = 1/6
黒黒: 1/4*1/3*2 = 1/6
赤黒: 1/4*2/3*2 = 2/6
黒赤: 1/4*2/3*2 = 2/6
つまり、
同じ色になる確率=1/3
違う色になる確率=2/3
23
Qでは、違う色で1万円もらう場合、
同じ色だった場合おいくら支払うと
公平な勝負になるでしょう?
24
A 2万円
期待値の計算をすると
2枚違う場合は1万円*2/3=2/3万円
2枚同じ場合を2万円とすると期待値は
2万円*1/3=2/3万円となり、
期待値が等しくなる。
ゲーム的に言うとオッズが合う。
25
期待値って?
確率論において、期待値とは、確率変数の実現値を、
確率の重みで平均した値である。
例えば、ギャンブルでは、掛け金に対して戻ってくる
「見込み」の金額をあらわしたものである。
--Wikipediaより
例えば、サイコロの目の期待値は
1*1/6+2*1/6+3*1/6+4*1/6+5*1/6+6*1/6=3.5
となります。
26
Qさきほど、サイコロの目の期待値は
3.5という話をしました。
では、サイコロの目の数に100をかけた分だけ
お金がもらえるゲームがあったとして、
参加費が何円以内ならその勝負に乗るべきか?
(逆に言えば、何円以上ならやらないべきでしょうか?)
例)サイコロを振って6が出れば600円もらえる
27
A 350円
期待値は3.5*100で350となる
28
ちなみに
日本人大好き宝くじですが、期待値は45%くらいです。
1万円払って、4,500円返ってくる計算。
競馬は75%。宝くじよりはマシだけどやるだけ無駄。
カジノのギャンブルも上の2つよりははるかにマシですが
期待値は100%を越えないので、永遠にやり続ければ
胴元側が絶対に儲かるように作られています。
これがギャンブルの仕組みです。
29
Q表と裏が同確率ででるコインがあります。
コインで表が出たら1円あげます。
裏が出たらもう一度投げて、それで表が出たら2円あげます。
裏が出たらもう一度投げてそれで表が出たら4円あげます。
裏が出たらもう一度投げてそれで表が出たら8円あげます。
という風に裏が出たら賞金が倍々になっていき
表が出たら裏が出た回数によってその賞金が
もらえるゲームがあった場合、あなたは
このゲームに何円以下で勝負するべきでしょうか?
30
A全財産はたいてでも参加すべき
この問題、期待値は無限大になります。
Σn
2^(n-1)/(1/2)^n
実際のところ、10円でも参加したくないですけどね…
31
QあるECサイトでの顧客平均単価は10,000円です。
サイトプロデューサは売上を伸ばすために
12,000円以上のお買い物をしたお客様に
ノベルティをプレゼントするキャンペーンを開始しました。
しかし、結果的にこのキャンペーンはまったくもって
無駄だということが後にわかりました。
何がダメだったのでしょうか?
32
A顧客単価は正規分布してなった
正規分布とは?
0
250
500
2000 6000 10000 14000 18000
こんな感じでデータが分布すること
0
250
500
2000 6000 10000 14000 18000
こんな感じで分布してても平均は10,000円になる
平均を見るのも大事だけど、データ解析上は意味がない場合もあります
33
Qあるソシャゲにおいて、
フレンド数が多いユーザほど課金額が高い
のでは無いかという話になりました。
さて、どうやったらこれを検証できるでしょうか?
34
Aデータの相関係数を見てみる
実はこれ、エクセルで簡単にとれます。方法はggr
相関係数とは、2 つの確率変数の間の相関(類似性の度合い)
を示す統計学的指標である。原則、単位は無く、­1 から 1 の間の
実数値をとり、1 に近いときは2 つの確率変数には
正の相関があるといい、­1 に近ければ負の相関があるという。
0 に近いときはもとの確率変数の相関は弱い。
--Wikipediaより
0
200000
400000
600000
800000
0 25 50 75 100
例えばこんな感じで相関係数は0.78。強い相関と言えます。35
Qある地域で、データをとってみたところ、
「朝ごはんをしっかり食べる家庭ほど
学校の成績が良い」
という結果がでました。
本当に「朝ごはんをしっかり食べると
成績が良くなる」と言ってしまっても
良いのでしょうか?
36
Aダメ。ぜったい。
「相関がある」ということと
「因果関係がある」ということは別物です。
この例で言うと「朝ごはんをしっかり食べられる生活をしている家庭は
子どもの勉強へのコスト投資をしっかりできていて、そのおかげで成績が良い」
みたいなことが実際の理由かも知れません。
似たような例で「アイスクリームの売上が増えると水死が増える」とか。
夏……。
あとは、事故注意の看板が多い場所ほど事故が起こっているとか。
因果関係が逆。
37
テストの成績は「朝食の中身」で決まっていた!(前編)
http://president.jp/articles/-/13910
タヒね
38
Qある地域で、データをとってみたところ、
「足が長いほど数学の点数が良い」
という結果がでました。
なんでこのような結果に
なってしまったのでしょうか?
39
A子どももデータに含まれていた
母数を間違うと、意味が無いデータが取れてしまう好例です。
似たような例で、江戸吉原の女郎の寿命は短いという
データがありますが、そもそも女郎は28歳で辞めてしまうため
28歳以上はデータに含まれていなかった、みたいなこともあります。
40
「サッカーにおいてデータは役に立つのか?」問題
http://d.hatena.ne.jp/pal-9999/20120116/p1
相関係数ネタだとこの記事が面白かったのでオススメ。
41
今日の話を踏まえつつ、次回LTやるときは
じゃあ、実際の仕事の中でこれらがどう役に立つの?
むしろどう役に立てるのか?
的な話をできればと思います。
42
たぶん
以上、ありがとうございました。
43

More Related Content

Viewers also liked

Doshisha20101208 2
Doshisha20101208 2Doshisha20101208 2
Doshisha20101208 2Naru Kinjo
 
πを使わずに解けたら東大合格も夢じゃない問題
πを使わずに解けたら東大合格も夢じゃない問題πを使わずに解けたら東大合格も夢じゃない問題
πを使わずに解けたら東大合格も夢じゃない問題鈴鹿工業高等専門学校
 
リーマン予想の遊び方 - ニコニコ学会β数学セッション #ニコニコ学会
リーマン予想の遊び方 - ニコニコ学会β数学セッション #ニコニコ学会リーマン予想の遊び方 - ニコニコ学会β数学セッション #ニコニコ学会
リーマン予想の遊び方 - ニコニコ学会β数学セッション #ニコニコ学会Junpei Tsuji
 
FOSE2010 ミニチュートリアル 「データマイニング技術を応用したソフトウェア構築・保守支援」
FOSE2010 ミニチュートリアル 「データマイニング技術を応用したソフトウェア構築・保守支援」FOSE2010 ミニチュートリアル 「データマイニング技術を応用したソフトウェア構築・保守支援」
FOSE2010 ミニチュートリアル 「データマイニング技術を応用したソフトウェア構築・保守支援」Takashi Kobayashi
 
恋人がいない30代前半女性が5年以内に結婚できる確率は17.6%【アラサー未婚女性へ】
恋人がいない30代前半女性が5年以内に結婚できる確率は17.6%【アラサー未婚女性へ】恋人がいない30代前半女性が5年以内に結婚できる確率は17.6%【アラサー未婚女性へ】
恋人がいない30代前半女性が5年以内に結婚できる確率は17.6%【アラサー未婚女性へ】Tomoya Tatekawa
 
「明日話したくなる「素数」のお話」第1回プログラマのための数学勉強会 #maths4pg
「明日話したくなる「素数」のお話」第1回プログラマのための数学勉強会 #maths4pg 「明日話したくなる「素数」のお話」第1回プログラマのための数学勉強会 #maths4pg
「明日話したくなる「素数」のお話」第1回プログラマのための数学勉強会 #maths4pg Junpei Tsuji
 
統計学基礎
統計学基礎統計学基礎
統計学基礎Yuka Ezura
 
指数分布とポアソン分布のいけない関係
指数分布とポアソン分布のいけない関係指数分布とポアソン分布のいけない関係
指数分布とポアソン分布のいけない関係Nagi Teramo
 
Rで計量時系列分析~CRANパッケージ総ざらい~
Rで計量時系列分析~CRANパッケージ総ざらい~ Rで計量時系列分析~CRANパッケージ総ざらい~
Rで計量時系列分析~CRANパッケージ総ざらい~ Takashi J OZAKI
 
研修で使えるマシュマロチャレンジの運営スライド
研修で使えるマシュマロチャレンジの運営スライド研修で使えるマシュマロチャレンジの運営スライド
研修で使えるマシュマロチャレンジの運営スライドJun Chiba
 
エクセルで統計分析 統計プログラムHADについて
エクセルで統計分析 統計プログラムHADについてエクセルで統計分析 統計プログラムHADについて
エクセルで統計分析 統計プログラムHADについてHiroshi Shimizu
 
5分でわかるベイズ確率
5分でわかるベイズ確率5分でわかるベイズ確率
5分でわかるベイズ確率hoxo_m
 
東大入試に学ぶ、”数学的”問題解決 先生:永野 裕之
東大入試に学ぶ、”数学的”問題解決 先生:永野 裕之東大入試に学ぶ、”数学的”問題解決 先生:永野 裕之
東大入試に学ぶ、”数学的”問題解決 先生:永野 裕之schoowebcampus
 

Viewers also liked (13)

Doshisha20101208 2
Doshisha20101208 2Doshisha20101208 2
Doshisha20101208 2
 
πを使わずに解けたら東大合格も夢じゃない問題
πを使わずに解けたら東大合格も夢じゃない問題πを使わずに解けたら東大合格も夢じゃない問題
πを使わずに解けたら東大合格も夢じゃない問題
 
リーマン予想の遊び方 - ニコニコ学会β数学セッション #ニコニコ学会
リーマン予想の遊び方 - ニコニコ学会β数学セッション #ニコニコ学会リーマン予想の遊び方 - ニコニコ学会β数学セッション #ニコニコ学会
リーマン予想の遊び方 - ニコニコ学会β数学セッション #ニコニコ学会
 
FOSE2010 ミニチュートリアル 「データマイニング技術を応用したソフトウェア構築・保守支援」
FOSE2010 ミニチュートリアル 「データマイニング技術を応用したソフトウェア構築・保守支援」FOSE2010 ミニチュートリアル 「データマイニング技術を応用したソフトウェア構築・保守支援」
FOSE2010 ミニチュートリアル 「データマイニング技術を応用したソフトウェア構築・保守支援」
 
恋人がいない30代前半女性が5年以内に結婚できる確率は17.6%【アラサー未婚女性へ】
恋人がいない30代前半女性が5年以内に結婚できる確率は17.6%【アラサー未婚女性へ】恋人がいない30代前半女性が5年以内に結婚できる確率は17.6%【アラサー未婚女性へ】
恋人がいない30代前半女性が5年以内に結婚できる確率は17.6%【アラサー未婚女性へ】
 
「明日話したくなる「素数」のお話」第1回プログラマのための数学勉強会 #maths4pg
「明日話したくなる「素数」のお話」第1回プログラマのための数学勉強会 #maths4pg 「明日話したくなる「素数」のお話」第1回プログラマのための数学勉強会 #maths4pg
「明日話したくなる「素数」のお話」第1回プログラマのための数学勉強会 #maths4pg
 
統計学基礎
統計学基礎統計学基礎
統計学基礎
 
指数分布とポアソン分布のいけない関係
指数分布とポアソン分布のいけない関係指数分布とポアソン分布のいけない関係
指数分布とポアソン分布のいけない関係
 
Rで計量時系列分析~CRANパッケージ総ざらい~
Rで計量時系列分析~CRANパッケージ総ざらい~ Rで計量時系列分析~CRANパッケージ総ざらい~
Rで計量時系列分析~CRANパッケージ総ざらい~
 
研修で使えるマシュマロチャレンジの運営スライド
研修で使えるマシュマロチャレンジの運営スライド研修で使えるマシュマロチャレンジの運営スライド
研修で使えるマシュマロチャレンジの運営スライド
 
エクセルで統計分析 統計プログラムHADについて
エクセルで統計分析 統計プログラムHADについてエクセルで統計分析 統計プログラムHADについて
エクセルで統計分析 統計プログラムHADについて
 
5分でわかるベイズ確率
5分でわかるベイズ確率5分でわかるベイズ確率
5分でわかるベイズ確率
 
東大入試に学ぶ、”数学的”問題解決 先生:永野 裕之
東大入試に学ぶ、”数学的”問題解決 先生:永野 裕之東大入試に学ぶ、”数学的”問題解決 先生:永野 裕之
東大入試に学ぶ、”数学的”問題解決 先生:永野 裕之
 

確率と統計クイズ