SlideShare a Scribd company logo
1 of 11
Copyright © 2014 Uhuru Corporation, All Right Reserved.
株式会社ウフル
下野 寿之 Data Scientist
なぜ40個のサンプルで調査をするのか
― 数値例からの考察
Copyright © 2014 Uhuru Corporation, All Right Reserved.
はじめに
問題:何サンプルあれば全体傾向を議論できるか?
サンプル数は十分といえるのか?
アンケート総数 = ?
Copyright © 2014 Uhuru Corporation, All Right Reserved.
サンプルサイズの算出の試み
1. 全体傾向が過半数であることを確認したい
2. 10%の確率で起きる現象を2回以上確認したい
3. 偏差値65以上のサンプルを1個以上見つけたい
4. 全10カテゴリからサンプルを各1個以上見つけたい
5. 2変量に相関があることを確認したい
いくつかの例題で検討してみる。
さらに、確率90%以上で確認可能な計画を立てたい
問題:何サンプルあれば全体傾向を議論できるか?
Copyright © 2014 Uhuru Corporation, All Right Reserved.
各人が3:2の確率で賛成票と
反対票を投じる時に多数決で
賛成が決まる可能性を90%
確保するために必要な人数は
41人。
※ 投票者全員がそれぞれ独立に、ある決まった確率で賛成票または反対票のどちらかを投票して、
多数決をとる状況を考えている。(賛成反対が同数の場合はさいころの目の偶奇で決めるとする。)
1. 全体傾向が過半数であることを確認したい
全体傾向では多数派であっても、ある
確率で過半数に達しない場合がある!
賛成60%
反対40%
全体傾向
多数派が過半数多数派が少数派に見える
90.3%9.7%
Copyright © 2014 Uhuru Corporation, All Right Reserved.
2. 10%の確率で起きる現象を2回以上確認したい
1回あたり10%しか起きない現
象を 90%以上の確率で2回以上
観察する計画を立てたい。
その他90%
発生10%
2回以上確認
90.5%
9.5%
発生確率
標本発生回数
最低限必要な観察回数は38回
Copyright © 2014 Uhuru Corporation, All Right Reserved.
3. 偏差値65以上のサンプルを1個以上見つけたい
偏差値65以上のサンプルを1個でも90%以上の確率で見つけるには、
34個のサンプルの探索が必要。
6
▶ いろんな観測値の分布は、ガウス分布で近似できることが多い。たとえば多数の人の身
長や体重の分布はガウス分布で近似できる。ガウス分布の形は上図のような形になる。(こ
のグラフの場合は、平均μ は 0 , 標準偏差σは 1 になるように調整してある。)
▶ “偏差値” にたとえると μ + 1.5σ が 65 に相当する。それ以上の値を取る割合は
6.68% である。
偏差値65以上
サンプル数を34個確保すれば、
この領域のサンプルが見つか
る可能性が90%に達する。
Copyright © 2014 Uhuru Corporation, All Right Reserved.
均等に重複なく存在する10カ
テゴリから無作為にサンプル
を採集する場合に、全てのカ
テゴリから少なくとも1サンプ
ル以上を90%以上の確率で採
集するために必要なサンプル
数は44サンプル。
4. 全10カテゴリからサンプルを各1個以上見つけたい
確率
サンプル採集数
全10カテゴリから全てのカテゴリのサンプルを採集できる確率
Copyright © 2014 Uhuru Corporation, All Right Reserved.
※ 相関係数0.5程度の現象は、同一年
齢同性の親子の身長、プロ野球の
各チームの年間総得点と総失点と
年間順位の3変数の間などに現れる。
5. 2変量に相関があることを確認したい
8
2変量間の母相関係数が0.5の場合に、検出力90%で有意水準5%
の無相関の検定(両側)を, 行うための必要標本サイズは37以上。
母相関係数0.5を持つ分布
(2次元ガウス分布) 青丸は37個の標本例
ρ = 0.5
N ≧ 37
※ データと現実の変数の関係こそ重要で、
相関係数を考えることは有力な手段であ
るが、それを測定するためには、意外と
多数のサンプルの観測が必要。人はなぜ
現実から関係性をうまく読み取るのかに
ついては、さらなる深い考察が必要。
Copyright © 2014 Uhuru Corporation, All Right Reserved.
1. 60%の優勢を判定 → 41人
2. 10%の未知の現象の見逃しを防ぐなら → 38例
3. 偏差値65以上の逸脱したケースを探すなら → 34例
4. 全10カテゴリを全て集めたい → 44サンプル
5. 2変量に相関があるかどうか検定したい → 37例
[まとめ] 90%以上の確率で正しい結果を
得るために必要な調査量
9
少なくとも40サンプル程度は観察が必要
Copyright © 2014 Uhuru Corporation, All Right Reserved.
補足1: 20と40を比較する場合
10
90%の確率で実現できること
80%の確率で実現できること
サンプルの大きさ → 10 20 40 80
何%の現象を複数回捉えられるか 33.7 %超 18.1 %超 9.4 %超 4.8 %超
過半数であることを正しく多数決で結果を出す 69.9 %超 64.2 %超 60.1 %超 57.1 %超
何色シールなら全部揃えられるか 3 色以下 5 色以下 9 色以下 16 色以下
集めたサンプルの中の平均からの最大逸脱 1.26 σ超 1.60 σ超 1.91 σ超 2.19 σ超
無相関検定(両側,5%)棄却に必要な母相関係数 ρ≧ 0.83 ρ≧ 0.65 ρ≧ 0.49 ρ≧ 0.36
サンプルの大きさ → 10 20 40 80
何%の現象を複数回捉えられるか 27.1 %超 14.2 %超 7.3 %超 3.7 %超
過半数であることを正しく多数決で結果を出す 63.4 %超 59.4 %超 56.7 %超 54.7 %超
何色シールなら全部揃えられるか 3 色以下 6 色以下 10 色以下 18 色以下
集めたサンプルの中の平均からの最大逸脱 1.44 σ超 1.77 σ超 2.06 σ超 2.33 σ超
無相関検定(両側,5%)棄却に必要な母相関係数 ρ≧ 0.77 ρ≧ 0.59 ρ≧ 0.43 ρ≧ 0.31
Copyright © 2014 Uhuru Corporation, All Right Reserved.
補足2: 集めたサンプルからある1変量の範囲を知りたい
11
20回の観察をしたとしても意外と結果の分布の揺らぎは大きい。
値の範囲について精度良く把握するには、40回は必要と考えられる。
下の4個のグラフは、それぞれ観察回数を10回・20回・40回・100回と決めた場合に、15回ずつ値
の”分布”をシュミレートしたものである。(観察した分布から推測した平均と標準偏差を表す長方形
を重ねてある。)

More Related Content

More from Toshiyuki Shimono

Theory to consider an inaccurate testing and how to determine the prior proba...
Theory to consider an inaccurate testing and how to determine the prior proba...Theory to consider an inaccurate testing and how to determine the prior proba...
Theory to consider an inaccurate testing and how to determine the prior proba...Toshiyuki Shimono
 
Interpreting Multiple Regression via an Ellipse Inscribed in a Square Extensi...
Interpreting Multiple Regressionvia an Ellipse Inscribed in a Square Extensi...Interpreting Multiple Regressionvia an Ellipse Inscribed in a Square Extensi...
Interpreting Multiple Regression via an Ellipse Inscribed in a Square Extensi...Toshiyuki Shimono
 
BigQueryを使ってみた(2018年2月)
BigQueryを使ってみた(2018年2月)BigQueryを使ってみた(2018年2月)
BigQueryを使ってみた(2018年2月)Toshiyuki Shimono
 
既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案
既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案
既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案Toshiyuki Shimono
 
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...Toshiyuki Shimono
 
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...Toshiyuki Shimono
 
Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)
Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)
Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)Toshiyuki Shimono
 
企業等に蓄積されたデータを分析するための処理機能の提案
企業等に蓄積されたデータを分析するための処理機能の提案企業等に蓄積されたデータを分析するための処理機能の提案
企業等に蓄積されたデータを分析するための処理機能の提案Toshiyuki Shimono
 
新入社員の頃に教えて欲しかったようなことなど
新入社員の頃に教えて欲しかったようなことなど新入社員の頃に教えて欲しかったようなことなど
新入社員の頃に教えて欲しかったようなことなどToshiyuki Shimono
 
ページャ lessを使いこなす
ページャ lessを使いこなすページャ lessを使いこなす
ページャ lessを使いこなすToshiyuki Shimono
 
Guiを使わないテキストデータ処理
Guiを使わないテキストデータ処理Guiを使わないテキストデータ処理
Guiを使わないテキストデータ処理Toshiyuki Shimono
 
データ全貌把握の方法170324
データ全貌把握の方法170324データ全貌把握の方法170324
データ全貌把握の方法170324Toshiyuki Shimono
 
Macで開発環境を整える170420
Macで開発環境を整える170420Macで開発環境を整える170420
Macで開発環境を整える170420Toshiyuki Shimono
 
大きなテキストデータを閲覧するには
大きなテキストデータを閲覧するには大きなテキストデータを閲覧するには
大きなテキストデータを閲覧するにはToshiyuki Shimono
 
A Hacking Toolset for Big Tabular Files (3)
A Hacking Toolset for Big Tabular Files (3)A Hacking Toolset for Big Tabular Files (3)
A Hacking Toolset for Big Tabular Files (3)Toshiyuki Shimono
 
Washingtondc b20161214 (2/3)
Washingtondc b20161214 (2/3)Washingtondc b20161214 (2/3)
Washingtondc b20161214 (2/3)Toshiyuki Shimono
 
耐巨大性を備えた表データ分析用コマンド群
耐巨大性を備えた表データ分析用コマンド群耐巨大性を備えた表データ分析用コマンド群
耐巨大性を備えた表データ分析用コマンド群Toshiyuki Shimono
 
ある最適停止問題の解についての考察
ある最適停止問題の解についての考察ある最適停止問題の解についての考察
ある最適停止問題の解についての考察Toshiyuki Shimono
 

More from Toshiyuki Shimono (20)

Theory to consider an inaccurate testing and how to determine the prior proba...
Theory to consider an inaccurate testing and how to determine the prior proba...Theory to consider an inaccurate testing and how to determine the prior proba...
Theory to consider an inaccurate testing and how to determine the prior proba...
 
Interpreting Multiple Regression via an Ellipse Inscribed in a Square Extensi...
Interpreting Multiple Regressionvia an Ellipse Inscribed in a Square Extensi...Interpreting Multiple Regressionvia an Ellipse Inscribed in a Square Extensi...
Interpreting Multiple Regression via an Ellipse Inscribed in a Square Extensi...
 
BigQueryを使ってみた(2018年2月)
BigQueryを使ってみた(2018年2月)BigQueryを使ってみた(2018年2月)
BigQueryを使ってみた(2018年2月)
 
Seminar0917
Seminar0917Seminar0917
Seminar0917
 
既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案
既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案
既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案
 
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
 
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
 
Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)
Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)
Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)
 
企業等に蓄積されたデータを分析するための処理機能の提案
企業等に蓄積されたデータを分析するための処理機能の提案企業等に蓄積されたデータを分析するための処理機能の提案
企業等に蓄積されたデータを分析するための処理機能の提案
 
新入社員の頃に教えて欲しかったようなことなど
新入社員の頃に教えて欲しかったようなことなど新入社員の頃に教えて欲しかったようなことなど
新入社員の頃に教えて欲しかったようなことなど
 
ページャ lessを使いこなす
ページャ lessを使いこなすページャ lessを使いこなす
ページャ lessを使いこなす
 
Guiを使わないテキストデータ処理
Guiを使わないテキストデータ処理Guiを使わないテキストデータ処理
Guiを使わないテキストデータ処理
 
データ全貌把握の方法170324
データ全貌把握の方法170324データ全貌把握の方法170324
データ全貌把握の方法170324
 
Macで開発環境を整える170420
Macで開発環境を整える170420Macで開発環境を整える170420
Macで開発環境を整える170420
 
大きなテキストデータを閲覧するには
大きなテキストデータを閲覧するには大きなテキストデータを閲覧するには
大きなテキストデータを閲覧するには
 
A Hacking Toolset for Big Tabular Files (3)
A Hacking Toolset for Big Tabular Files (3)A Hacking Toolset for Big Tabular Files (3)
A Hacking Toolset for Big Tabular Files (3)
 
Washingtondc b20161214 (2/3)
Washingtondc b20161214 (2/3)Washingtondc b20161214 (2/3)
Washingtondc b20161214 (2/3)
 
耐巨大性を備えた表データ分析用コマンド群
耐巨大性を備えた表データ分析用コマンド群耐巨大性を備えた表データ分析用コマンド群
耐巨大性を備えた表データ分析用コマンド群
 
bin4tsv
bin4tsvbin4tsv
bin4tsv
 
ある最適停止問題の解についての考察
ある最適停止問題の解についての考察ある最適停止問題の解についての考察
ある最適停止問題の解についての考察
 

Recently uploaded

My Inspire High Award 2024    「孤独は敵なのか?」
My Inspire High Award 2024    「孤独は敵なのか?」My Inspire High Award 2024    「孤独は敵なのか?」
My Inspire High Award 2024    「孤独は敵なのか?」inspirehighstaff03
 
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」inspirehighstaff03
 
What I did before opening my business..pdf
What I did before opening my business..pdfWhat I did before opening my business..pdf
What I did before opening my business..pdfoganekyokoi
 
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」inspirehighstaff03
 
My Inspire High Award 2024 「本当の『悪者』って何?」
My Inspire High Award 2024 「本当の『悪者』って何?」My Inspire High Award 2024 「本当の『悪者』って何?」
My Inspire High Award 2024 「本当の『悪者』って何?」inspirehighstaff03
 
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」inspirehighstaff03
 
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライドリアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライドKen Fukui
 
Establishment and operation of medical corporations.pdf
Establishment and operation of medical corporations.pdfEstablishment and operation of medical corporations.pdf
Establishment and operation of medical corporations.pdfoganekyokoi
 
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdfMy Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdfinspirehighstaff03
 
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」inspirehighstaff03
 
【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide
【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide
【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slidessusere0a682
 
My Inspire High Award 2024 「AIと仲良くなるには?」
My Inspire High Award 2024 「AIと仲良くなるには?」My Inspire High Award 2024 「AIと仲良くなるには?」
My Inspire High Award 2024 「AIと仲良くなるには?」inspirehighstaff03
 
My Inspire High Award 2024  「正義って存在するの?」
My Inspire High Award 2024  「正義って存在するの?」My Inspire High Award 2024  「正義って存在するの?」
My Inspire High Award 2024  「正義って存在するの?」inspirehighstaff03
 
My Inspire High Award 2024「他者と自分、対立を防ぐには?」
My Inspire High Award 2024「他者と自分、対立を防ぐには?」My Inspire High Award 2024「他者と自分、対立を防ぐには?」
My Inspire High Award 2024「他者と自分、対立を防ぐには?」inspirehighstaff03
 
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライドリアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライドKen Fukui
 
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライドリアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライドKen Fukui
 
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライドリアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライドKen Fukui
 
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライド
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライドリアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライド
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライドKen Fukui
 
My Inspire High Award 2024「老いることは不幸なこと?」
My Inspire High Award 2024「老いることは不幸なこと?」My Inspire High Award 2024「老いることは不幸なこと?」
My Inspire High Award 2024「老いることは不幸なこと?」inspirehighstaff03
 
Divorce agreements in administrative work.pdf
Divorce agreements in administrative work.pdfDivorce agreements in administrative work.pdf
Divorce agreements in administrative work.pdfoganekyokoi
 

Recently uploaded (20)

My Inspire High Award 2024    「孤独は敵なのか?」
My Inspire High Award 2024    「孤独は敵なのか?」My Inspire High Award 2024    「孤独は敵なのか?」
My Inspire High Award 2024    「孤独は敵なのか?」
 
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
 
What I did before opening my business..pdf
What I did before opening my business..pdfWhat I did before opening my business..pdf
What I did before opening my business..pdf
 
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」
 
My Inspire High Award 2024 「本当の『悪者』って何?」
My Inspire High Award 2024 「本当の『悪者』って何?」My Inspire High Award 2024 「本当の『悪者』って何?」
My Inspire High Award 2024 「本当の『悪者』って何?」
 
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」
 
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライドリアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
 
Establishment and operation of medical corporations.pdf
Establishment and operation of medical corporations.pdfEstablishment and operation of medical corporations.pdf
Establishment and operation of medical corporations.pdf
 
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdfMy Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
 
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」
 
【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide
【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide
【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide
 
My Inspire High Award 2024 「AIと仲良くなるには?」
My Inspire High Award 2024 「AIと仲良くなるには?」My Inspire High Award 2024 「AIと仲良くなるには?」
My Inspire High Award 2024 「AIと仲良くなるには?」
 
My Inspire High Award 2024  「正義って存在するの?」
My Inspire High Award 2024  「正義って存在するの?」My Inspire High Award 2024  「正義って存在するの?」
My Inspire High Award 2024  「正義って存在するの?」
 
My Inspire High Award 2024「他者と自分、対立を防ぐには?」
My Inspire High Award 2024「他者と自分、対立を防ぐには?」My Inspire High Award 2024「他者と自分、対立を防ぐには?」
My Inspire High Award 2024「他者と自分、対立を防ぐには?」
 
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライドリアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
 
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライドリアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
 
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライドリアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
 
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライド
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライドリアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライド
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライド
 
My Inspire High Award 2024「老いることは不幸なこと?」
My Inspire High Award 2024「老いることは不幸なこと?」My Inspire High Award 2024「老いることは不幸なこと?」
My Inspire High Award 2024「老いることは不幸なこと?」
 
Divorce agreements in administrative work.pdf
Divorce agreements in administrative work.pdfDivorce agreements in administrative work.pdf
Divorce agreements in administrative work.pdf
 

Why 40? なぜ40個のサンプルで調査をするのか ― 数値例からの考察

  • 1. Copyright © 2014 Uhuru Corporation, All Right Reserved. 株式会社ウフル 下野 寿之 Data Scientist なぜ40個のサンプルで調査をするのか ― 数値例からの考察
  • 2. Copyright © 2014 Uhuru Corporation, All Right Reserved. はじめに 問題:何サンプルあれば全体傾向を議論できるか? サンプル数は十分といえるのか? アンケート総数 = ?
  • 3. Copyright © 2014 Uhuru Corporation, All Right Reserved. サンプルサイズの算出の試み 1. 全体傾向が過半数であることを確認したい 2. 10%の確率で起きる現象を2回以上確認したい 3. 偏差値65以上のサンプルを1個以上見つけたい 4. 全10カテゴリからサンプルを各1個以上見つけたい 5. 2変量に相関があることを確認したい いくつかの例題で検討してみる。 さらに、確率90%以上で確認可能な計画を立てたい 問題:何サンプルあれば全体傾向を議論できるか?
  • 4. Copyright © 2014 Uhuru Corporation, All Right Reserved. 各人が3:2の確率で賛成票と 反対票を投じる時に多数決で 賛成が決まる可能性を90% 確保するために必要な人数は 41人。 ※ 投票者全員がそれぞれ独立に、ある決まった確率で賛成票または反対票のどちらかを投票して、 多数決をとる状況を考えている。(賛成反対が同数の場合はさいころの目の偶奇で決めるとする。) 1. 全体傾向が過半数であることを確認したい 全体傾向では多数派であっても、ある 確率で過半数に達しない場合がある! 賛成60% 反対40% 全体傾向 多数派が過半数多数派が少数派に見える 90.3%9.7%
  • 5. Copyright © 2014 Uhuru Corporation, All Right Reserved. 2. 10%の確率で起きる現象を2回以上確認したい 1回あたり10%しか起きない現 象を 90%以上の確率で2回以上 観察する計画を立てたい。 その他90% 発生10% 2回以上確認 90.5% 9.5% 発生確率 標本発生回数 最低限必要な観察回数は38回
  • 6. Copyright © 2014 Uhuru Corporation, All Right Reserved. 3. 偏差値65以上のサンプルを1個以上見つけたい 偏差値65以上のサンプルを1個でも90%以上の確率で見つけるには、 34個のサンプルの探索が必要。 6 ▶ いろんな観測値の分布は、ガウス分布で近似できることが多い。たとえば多数の人の身 長や体重の分布はガウス分布で近似できる。ガウス分布の形は上図のような形になる。(こ のグラフの場合は、平均μ は 0 , 標準偏差σは 1 になるように調整してある。) ▶ “偏差値” にたとえると μ + 1.5σ が 65 に相当する。それ以上の値を取る割合は 6.68% である。 偏差値65以上 サンプル数を34個確保すれば、 この領域のサンプルが見つか る可能性が90%に達する。
  • 7. Copyright © 2014 Uhuru Corporation, All Right Reserved. 均等に重複なく存在する10カ テゴリから無作為にサンプル を採集する場合に、全てのカ テゴリから少なくとも1サンプ ル以上を90%以上の確率で採 集するために必要なサンプル 数は44サンプル。 4. 全10カテゴリからサンプルを各1個以上見つけたい 確率 サンプル採集数 全10カテゴリから全てのカテゴリのサンプルを採集できる確率
  • 8. Copyright © 2014 Uhuru Corporation, All Right Reserved. ※ 相関係数0.5程度の現象は、同一年 齢同性の親子の身長、プロ野球の 各チームの年間総得点と総失点と 年間順位の3変数の間などに現れる。 5. 2変量に相関があることを確認したい 8 2変量間の母相関係数が0.5の場合に、検出力90%で有意水準5% の無相関の検定(両側)を, 行うための必要標本サイズは37以上。 母相関係数0.5を持つ分布 (2次元ガウス分布) 青丸は37個の標本例 ρ = 0.5 N ≧ 37 ※ データと現実の変数の関係こそ重要で、 相関係数を考えることは有力な手段であ るが、それを測定するためには、意外と 多数のサンプルの観測が必要。人はなぜ 現実から関係性をうまく読み取るのかに ついては、さらなる深い考察が必要。
  • 9. Copyright © 2014 Uhuru Corporation, All Right Reserved. 1. 60%の優勢を判定 → 41人 2. 10%の未知の現象の見逃しを防ぐなら → 38例 3. 偏差値65以上の逸脱したケースを探すなら → 34例 4. 全10カテゴリを全て集めたい → 44サンプル 5. 2変量に相関があるかどうか検定したい → 37例 [まとめ] 90%以上の確率で正しい結果を 得るために必要な調査量 9 少なくとも40サンプル程度は観察が必要
  • 10. Copyright © 2014 Uhuru Corporation, All Right Reserved. 補足1: 20と40を比較する場合 10 90%の確率で実現できること 80%の確率で実現できること サンプルの大きさ → 10 20 40 80 何%の現象を複数回捉えられるか 33.7 %超 18.1 %超 9.4 %超 4.8 %超 過半数であることを正しく多数決で結果を出す 69.9 %超 64.2 %超 60.1 %超 57.1 %超 何色シールなら全部揃えられるか 3 色以下 5 色以下 9 色以下 16 色以下 集めたサンプルの中の平均からの最大逸脱 1.26 σ超 1.60 σ超 1.91 σ超 2.19 σ超 無相関検定(両側,5%)棄却に必要な母相関係数 ρ≧ 0.83 ρ≧ 0.65 ρ≧ 0.49 ρ≧ 0.36 サンプルの大きさ → 10 20 40 80 何%の現象を複数回捉えられるか 27.1 %超 14.2 %超 7.3 %超 3.7 %超 過半数であることを正しく多数決で結果を出す 63.4 %超 59.4 %超 56.7 %超 54.7 %超 何色シールなら全部揃えられるか 3 色以下 6 色以下 10 色以下 18 色以下 集めたサンプルの中の平均からの最大逸脱 1.44 σ超 1.77 σ超 2.06 σ超 2.33 σ超 無相関検定(両側,5%)棄却に必要な母相関係数 ρ≧ 0.77 ρ≧ 0.59 ρ≧ 0.43 ρ≧ 0.31
  • 11. Copyright © 2014 Uhuru Corporation, All Right Reserved. 補足2: 集めたサンプルからある1変量の範囲を知りたい 11 20回の観察をしたとしても意外と結果の分布の揺らぎは大きい。 値の範囲について精度良く把握するには、40回は必要と考えられる。 下の4個のグラフは、それぞれ観察回数を10回・20回・40回・100回と決めた場合に、15回ずつ値 の”分布”をシュミレートしたものである。(観察した分布から推測した平均と標準偏差を表す長方形 を重ねてある。)

Editor's Notes

  1. 補足すると「20ではなくて40にする訳」の方がもっと正確にこのスライドの作成意図を表しています。
  2. (1) 表示されている27%,65%が四捨五入であれば 分母の数になりうるのは、小さい数から順に 26, 37, 40, 48, 49, 51, 53 である。 (表示されている27%,65%が百分率整数切り捨てであれば 分母の数になりうるのは、小さい数から順に 29, 43, 44, 47 のようである。要確認) (2) prob=0.5 の 二項分布を考えると 26中7以下になる確率は 1.447.. % 点 26中17以上は 8.431.. % 点 29中8以下になる確率は 1.205.. % 点 29中19以上になる確率は 6.802.. % 点 上記は、R言語の pbinom ですぐ計算が出来る。 ただし、以上を超、以下を未満と混同しないよう注意を要する。 (3) 以下は、R言語の prop.test で計算したが、本当は binom.test で計算すべし。 四捨五入でつじつまが合う、最小の分母を持つもの : 7/26=0.2692.. → 95%信頼区間は[0.1235.. , 0.4805..] → 99%信頼区間は[0.09907.. , 0.5402..] ⇒ 有意水準1%だと過半数でないことは棄却できない。 17/26=0.65384.. → 95%信頼区間は[0.44.. , 0.82..] ⇒有意水準5%で過半数でないことは棄却できない。 この場合 26人中17人だと、 切り捨てでつじつまが合う、最小の分母を持つもの : 8/29=0.2758.. → 95%信頼区間は[0.13.. , 0.47..] → 99%信頼区間は[0.10.. , 0.53..] 19/29=0.65517.. → 95%信頼区間は[0.45.. , 0.81..] ⇒有意水準5%で過半数でないことは棄却できない。 ただし、上記は、帰無仮説を prob=0.5 と決めた。(両側になっている。)
  3. (1) R言語の pbinom コマンドを信用して計算すると、 60% = 50% + 10% なら 41人 で多数決が正しい可能性を90%以上確保できる。 51% = 50% + 1% なら 4105人 で多数決が正しい可能性を90%以上確保できる。 50.1% = 50% + 0.1% なら 41万0593人 で多数決が正しい可能性を90%以上確保できる。 50.01% = 50% + 0.1% なら 4105万9359人 で多数決が正しい可能性を90%以上確保できる。 41という数を簡単に算出する方法は R言語で、 以下のコマンドを使う。 k<-10; while ( pbinom(k/2,k+1,0.6)>.1) k<-k+2 ; k+1 (2) 90%を99%に変更すると、 66.666.. % = 2/3 ならば 47人で多数決が正しい可能性を99%以上確保できる。 60% なら 133 回 (41回よりも 約3.3倍に増えている。2倍では済まない。) 51% なら 1万3527回 - 多数派がどちらであるか見極めたい独占割合が丁度50%にどれだけ近いかの 2乗に反比例して、必要最少人数が増加する。 正解可能性を90%を99%に増やすと 3.3倍に増えたが、その増分は、 90%を99%に変えた場合、99%を99.9%に変えた場合、99.9%を99.99%に変えた場合の それぞれの差分にはほぼ等しい。 3.3倍に増えたしまった簡単な理由は、 pbinom(0,1, 0.6)=0.4 や pbinom(1,3,0.6)=0.352 がほぼ0.5に等しくて、 この0.5を0.1や0.01, 0.001 に減らしていくことは、 この1.0を0.1や0.01, 0.001 に減らしていくように指数関数的に等間隔ではないことに由来する。 (3) 偶数人で多数決を取る場合に、票の数が同数でならば50%の確率でどちらかに決めるというルールを 採用している。そうすると、その偶数より1小さい奇数の人数で、多数決を取るのと等価になる。 (あくまで、各人、他の人に影響されることはないと、独立性の仮定をしている。)
  4. (1) 出現回数が 1回につき 1/Dの現象は Dの 3.8897..倍の観察をすれば、2個以上の観察可能性を90%確保できる。 この 3.8897.. は exp(c)/(1+c) = 10 の解である。 この観察可能性を 99%, 99.9% にしたければ、 さらに 約1.7倍 約2.4倍 が必要。(exp(c)/(1+c)=100, 1000 を解く) (2) 「2回では偶然かもしれないから、3回は確認したい」と思ったら、 3.88.. の代わりに 5.3233.. を用いる。 これは exp(c)/ (1+c+c^2/2) =10 の解である。)
  5. (1) 偏差値65(μ+1.5σ) を 偏差値70(μ+2σ) に変更したら、丁度101回が必要となる。 log(.1)/log(pnorm(1.5)) → 33.30156 log(.1)/log(pnorm(2)) → 100.0562 (2) 区間[μ-2σ, μ+2σ]の外にあるものを1個でも 90%の可能性で見つけたいなら 丁度50個で良い。 log(.1)/log(pnorm(2)*2-1) → 49.44574
  6. (1) 90%以上なら44個 99%以上なら66個 (2) 44 という数字は下記の式で算出できる。 C<-10; B<-0.9; -log(1-B^(1/C))*C → 45.582.. (差が多くの場合いつでも2以下で済むかどうかは数学的に気になるところである。) (3) なお、上記のグラフはモンテカルロシュミレーションで各確率の算出を 99%信頼区間をプロットする方法で作成した。
  7. 相関は偽相関があったり因果の関係の議論があって難しいが、それ以前に無相関ではないかということはとても重要。ところが、それを見分けるには、6-7個サンプルを見れば十分という訳では無い。意外と多数のサンプルの観察が必要となる。
  8. このスライドで母相関係数の算出については、母相関係数を 0.01刻みで動かしながら それぞれ4万回検定を繰り返し、帰無仮説が棄却された回数から 99%信頼区間を構成して それが 90% または 80%のそれぞれをきちんと実現できている母相関係数を採用した。 下限についてはさらに少し下がる可能性がある。 R言語の pwr パッケージを試したが、近似が正確であるかについて分からないので 上記の方法を採用した。それでも値はほぼ一致した。