SlideShare a Scribd company logo
1 of 19
Download to read offline
推定と標本抽出
~小さいデータで精度よく~
やまつ
はじめに
Rと私
R歴約1年
卒論(社会調査法について)を書くのに使い始めた
SPSSからの乗り換え
今回の発表の元ネタ
ブログ 社会学者の研究メモ
「サンプリングについてのひとつのお話」
http://d.hatena.ne.jp/jtsutsui/20110411/1302482023
「Rによるやさしい統計学」
第4章:母集団と標本
発表の流れ
1. 統計的推定について
1. 「推定」とは
2. 「推定のよさ」とは
2. Rを使ったシミュレーションよる標本抽出法の比較
1. 単純無作為抽出法
2. 多段抽出法
3. 層化抽出法
「推定」とは
(統計的)推定:母集団の特性(=母数)を標本の特性(=推定値)から推測する
母集団の例:日本人全体、この場にいる人たち
母数の例:政党支持率、身長と体重の相関係数
標本抽出
推定
推定値 分析母数
母集団 標本
標本の分布
推定値は分布する
標本抽出
分析
(平均の)
推定値
=173
推定値
=170
推定値
=168
母数(平均)=170
推定値は平均や分散をもつ
例:「標本の平均」の平均
母集団の分布
「平均の推定値」の分布
よい推定とは
社会学者の研究メモ
「サンプリングについてのひとつのお話」に加筆して引用
1.バイアス=母数と推定値の平均の差
2.偶然の誤差=推定値の分散
推定値の平均と分散から推
定のよさが分かる
円の真ん中が母数
黒丸一つ一つが推定値
いろいろな標本抽出法
単純無作為抽出:母集団から個人を直接抽出する(完全にランダム)
多段抽出:母集団をグループ分けし、 ランダムにいくつかグループを選び、
そこからランダムに個人を抽出
層化抽出:母集団をグループ分け(層化)し、母集団の各グループの割合に標本の
それが等しくなるように、各グループからランダムに個人を抽出
以下、それぞれの標本抽出に基づく推定値のよさを、その平均と分散から評価する
シミュレーションの準備
1組から10組まで、各クラス40人、全体で400人のある学年。
番号の若いクラスほど、成績が悪い傾向がある。
40人を標本調査することで、この学年のテストの点の平均(=母数)を知りたい。
単純無作為抽出
平均の推定値の分散≒母集団の分散/標本サイズ
=平均の推定値の分散の理論値
40人選んで、平均の推定値を求めることを、10000回繰り返す
山の中心が平均、裾の広さが分散を表す
多段抽出
単純無作為抽出の4.156756より大きい
ランダムに4つのクラスを選び、各
クラスからランダムに10人選ぶ
層化抽出
単純無作為抽出の4.156756より小さい
各グループから4人ずつランダムに抽出
母集団における1組の割合40/400
=標本における1組の割合4/40
標本抽出法を比べる1
平均はどれも母数にかなり近い
分散は 多段抽出>単純無作為抽出>層化抽出
≒
𝜎2
𝑛
=理論値
標本抽出法を比べる2
① 推定値のよさは平均と分散から評価できる
② 「標本の平均」の平均は
単純無作為抽出=多段抽出=層化抽出=母集団の平均
③ 「標本の平均」の分散は
多段抽出>単純無作為抽出>層化抽出
①、②、③から、推定のよさは
多段抽出<単純無作為抽出<層化抽出
層化抽出の優位性1
つまり、
単純無作為抽出が常に最善ではない
今回のシミュレーションの場合
単純無作為抽出の標本の平均の分散は層化抽出の
約1.8倍
単純無作為抽出の標本の平均の分散は なので、
分散を1/1.8にするには標本サイズnが1.8倍必要
⇒層化抽出が標本サイズを約半分に節約している
𝜎2
𝑛
単純無作為抽出は標本サイズを1.8倍にして
やっと層化抽出と同じ精度
層化抽出が有効である条件
① 母集団における各層(グループ)の割合がわかっている
例:ある学年における各クラスの割合
② 標本抽出枠(名簿)に層のデータが含まれる
例:学年名簿に所属クラスが記されている
③ 層ごとに母数が異なる(⇒理由は後述)
例:クラスごとにテストの平均得点が異なる
①、または②が満たされないとき次善の策として単純無作為抽出がとられる
③が満たされないとき、層化抽出の精度は単純無作為抽出と同じ
標本抽出法を比べる3
標本抽出法 推定値の平均 推定値の分散 調査コスト
単純無作為抽出 ◯
母数と同じ
△
普通
計算しやすい
△
調査対象が散らばる
多段抽出 △
(割当てをうまくやれば)
母数と同じ
×
層ごとに母数が異なる
ほど大きくなりやすい
計算しづらい
◯
グループごとに調査対
象がまとまる
層化抽出 △
(割当てをうまくやれば)
母数と同じ
◯
層ごとに母数が異なる
ほど小さくなりやすい
計算しづらい
×
調査対象が散らばる
層の割り当てにコストが
かかる
層化抽出の優位性2
単純無作為抽出の場合
①標本平均の分散=母分散/標本サイズ
②母分散=母集団の偏差平方和/母集団のサイズ
③母集団の偏差平方和=郡内平方和+群間平方和 #平方和分解
①に②、③を代入
④標本平均の分散=(郡内平方和+群間平方和)/母集団のサイズ/標本サイズ
層化抽出の場合
⑤標本平均の分散=∑(i組の分散×i組のサイズ)/母集団のサイズ/標本サイズ #①と加重平均
⑥郡内平方和= ∑(i組の分散×i組のサイズ)
⑤に⑥を代入
⑦標本平均の分散=群内平方和/母集団のサイズ/標本サイズ
単純無作為抽出と層化抽出の差
標本平均の分散の差=④ー⑦=群間平方和/母集団のサイズ/標本サイズ
層ごとに平均(母数)が異なるほど、層化抽出の効果が大きい
層化抽出の優位性3
おわりに
1.単純無作為抽出が常に最善ではない
既知の情報を意図的に揃えれば、小さいデータで精度のよい推定が可能
2.普通の検定、推定は単純無作為抽出された標本の話
多段抽出、層化抽出された標本の場合の計算は複雑(誤差の独立性)
3.Rで簡単にシミュレーションができる
統計学の理解に役立つ(数式にもとづく理論値の正しさを確認できる)
「割当て」や「重み付け」などは省略しました
⇒より詳しく、正確な話は「サンプリングについてのひとつのお話」で検索

More Related Content

What's hot

Stan で欠測データの相関係数を推定してみた
Stan で欠測データの相関係数を推定してみたStan で欠測データの相関係数を推定してみた
Stan で欠測データの相関係数を推定してみた
hoxo_m
 
社会的シグナル(Social signal)から対話相手の意図を読む, 植田一博
社会的シグナル(Social signal)から対話相手の意図を読む, 植田一博社会的シグナル(Social signal)から対話相手の意図を読む, 植田一博
社会的シグナル(Social signal)から対話相手の意図を読む, 植田一博
KIT Cognitive Interaction Design
 
RによるBox-Cox変換
RによるBox-Cox変換RによるBox-Cox変換
RによるBox-Cox変換
wada, kazumi
 

What's hot (20)

ベイズモデリングと仲良くするために
ベイズモデリングと仲良くするためにベイズモデリングと仲良くするために
ベイズモデリングと仲良くするために
 
RでMplusがもっと便利にーmplusAutomationパッケージー #Hiroshimar05
RでMplusがもっと便利にーmplusAutomationパッケージー #Hiroshimar05 RでMplusがもっと便利にーmplusAutomationパッケージー #Hiroshimar05
RでMplusがもっと便利にーmplusAutomationパッケージー #Hiroshimar05
 
Stan で欠測データの相関係数を推定してみた
Stan で欠測データの相関係数を推定してみたStan で欠測データの相関係数を推定してみた
Stan で欠測データの相関係数を推定してみた
 
社会的シグナル(Social signal)から対話相手の意図を読む, 植田一博
社会的シグナル(Social signal)から対話相手の意図を読む, 植田一博社会的シグナル(Social signal)から対話相手の意図を読む, 植田一博
社会的シグナル(Social signal)から対話相手の意図を読む, 植田一博
 
Yamadai.Rデモンストレーションセッション
Yamadai.RデモンストレーションセッションYamadai.Rデモンストレーションセッション
Yamadai.Rデモンストレーションセッション
 
RによるBox-Cox変換
RによるBox-Cox変換RによるBox-Cox変換
RによるBox-Cox変換
 
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータStanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
 
最近のRのランダムフォレストパッケージ -ranger/Rborist-
最近のRのランダムフォレストパッケージ -ranger/Rborist-最近のRのランダムフォレストパッケージ -ranger/Rborist-
最近のRのランダムフォレストパッケージ -ranger/Rborist-
 
Rによるやさしい統計学第20章「検定力分析によるサンプルサイズの決定」
Rによるやさしい統計学第20章「検定力分析によるサンプルサイズの決定」Rによるやさしい統計学第20章「検定力分析によるサンプルサイズの決定」
Rによるやさしい統計学第20章「検定力分析によるサンプルサイズの決定」
 
RStanとShinyStanによるベイズ統計モデリング入門
RStanとShinyStanによるベイズ統計モデリング入門RStanとShinyStanによるベイズ統計モデリング入門
RStanとShinyStanによるベイズ統計モデリング入門
 
クラシックな機械学習入門 1 導入
クラシックな機械学習入門 1 導入クラシックな機械学習入門 1 導入
クラシックな機械学習入門 1 導入
 
関数データ解析の概要とその方法
関数データ解析の概要とその方法関数データ解析の概要とその方法
関数データ解析の概要とその方法
 
MCMCでマルチレベルモデル
MCMCでマルチレベルモデルMCMCでマルチレベルモデル
MCMCでマルチレベルモデル
 
Tokyo r7 sem_20100724
Tokyo r7 sem_20100724Tokyo r7 sem_20100724
Tokyo r7 sem_20100724
 
はじめよう多変量解析~主成分分析編~
はじめよう多変量解析~主成分分析編~はじめよう多変量解析~主成分分析編~
はじめよう多変量解析~主成分分析編~
 
対人的コミュニケーション研究・実践における行動分析学の可能性
対人的コミュニケーション研究・実践における行動分析学の可能性対人的コミュニケーション研究・実践における行動分析学の可能性
対人的コミュニケーション研究・実践における行動分析学の可能性
 
第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)
 
心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する
 
多重代入法(Multiple Imputation)の発表資料
多重代入法(Multiple Imputation)の発表資料多重代入法(Multiple Imputation)の発表資料
多重代入法(Multiple Imputation)の発表資料
 
マルチレベルモデル講習会 理論編
マルチレベルモデル講習会 理論編マルチレベルモデル講習会 理論編
マルチレベルモデル講習会 理論編
 

Viewers also liked

関東第3回ゼロはじめるからR言語勉強会ー グラフ
関東第3回ゼロはじめるからR言語勉強会ー グラフ関東第3回ゼロはじめるからR言語勉強会ー グラフ
関東第3回ゼロはじめるからR言語勉強会ー グラフ
Paweł Rusin
 
サンプリングと推定 Siとht推定量
サンプリングと推定 Siとht推定量サンプリングと推定 Siとht推定量
サンプリングと推定 Siとht推定量
T T
 
数理最適化とPython
数理最適化とPython数理最適化とPython
数理最適化とPython
Yosuke Onoue
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門
Miyoshi Yuya
 

Viewers also liked (12)

関東第3回ゼロはじめるからR言語勉強会ー グラフ
関東第3回ゼロはじめるからR言語勉強会ー グラフ関東第3回ゼロはじめるからR言語勉強会ー グラフ
関東第3回ゼロはじめるからR言語勉強会ー グラフ
 
サンプリングと推定 Siとht推定量
サンプリングと推定 Siとht推定量サンプリングと推定 Siとht推定量
サンプリングと推定 Siとht推定量
 
Google Prediction APIを使う前に知っておきたい統計のはなし
Google Prediction APIを使う前に知っておきたい統計のはなしGoogle Prediction APIを使う前に知っておきたい統計のはなし
Google Prediction APIを使う前に知っておきたい統計のはなし
 
統計学基礎
統計学基礎統計学基礎
統計学基礎
 
RでAHP
RでAHPRでAHP
RでAHP
 
数理最適化とPython
数理最適化とPython数理最適化とPython
数理最適化とPython
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門
 
さくっとはじめるテキストマイニング(R言語)  スタートアップ編
さくっとはじめるテキストマイニング(R言語)  スタートアップ編さくっとはじめるテキストマイニング(R言語)  スタートアップ編
さくっとはじめるテキストマイニング(R言語)  スタートアップ編
 
基礎からのベイズ統計学 2章 勉強会資料
基礎からのベイズ統計学 2章 勉強会資料基礎からのベイズ統計学 2章 勉強会資料
基礎からのベイズ統計学 2章 勉強会資料
 
基礎からのベイズ統計学 輪読会資料 第1章 確率に関するベイズの定理
基礎からのベイズ統計学 輪読会資料 第1章 確率に関するベイズの定理基礎からのベイズ統計学 輪読会資料 第1章 確率に関するベイズの定理
基礎からのベイズ統計学 輪読会資料 第1章 確率に関するベイズの定理
 
統計学の基礎の基礎
統計学の基礎の基礎統計学の基礎の基礎
統計学の基礎の基礎
 
マーケティングリサーチってなに?今さら聞けないリサーチの基礎知識と実践講座【基本編】
マーケティングリサーチってなに?今さら聞けないリサーチの基礎知識と実践講座【基本編】マーケティングリサーチってなに?今さら聞けないリサーチの基礎知識と実践講座【基本編】
マーケティングリサーチってなに?今さら聞けないリサーチの基礎知識と実践講座【基本編】
 

Similar to 推定と標本抽出

Similar to 推定と標本抽出 (11)

2018年度春学期 統計学 第11回 分布の「型」を考えるー確率分布モデルと正規分布 (2018. 6. 21)
2018年度春学期 統計学 第11回 分布の「型」を考えるー確率分布モデルと正規分布 (2018. 6. 21)2018年度春学期 統計学 第11回 分布の「型」を考えるー確率分布モデルと正規分布 (2018. 6. 21)
2018年度春学期 統計学 第11回 分布の「型」を考えるー確率分布モデルと正規分布 (2018. 6. 21)
 
Rで架空データの発生
Rで架空データの発生Rで架空データの発生
Rで架空データの発生
 
2013年度秋学期 統計学 第11回「分布の「型」を考える - 確率分布モデルと正規分布」
2013年度秋学期 統計学 第11回「分布の「型」を考える - 確率分布モデルと正規分布」2013年度秋学期 統計学 第11回「分布の「型」を考える - 確率分布モデルと正規分布」
2013年度秋学期 統計学 第11回「分布の「型」を考える - 確率分布モデルと正規分布」
 
2014年度春学期 統計学 第11回 分布の推測とはー分布の「型」を考える - 確率分布モデルと正規分布 (2014. 6. 26)
2014年度春学期 統計学 第11回 分布の推測とはー分布の「型」を考える - 確率分布モデルと正規分布 (2014. 6. 26)2014年度春学期 統計学 第11回 分布の推測とはー分布の「型」を考える - 確率分布モデルと正規分布 (2014. 6. 26)
2014年度春学期 統計学 第11回 分布の推測とはー分布の「型」を考える - 確率分布モデルと正規分布 (2014. 6. 26)
 
2018年度秋学期 統計学 第12回 分布の平均を推測するー区間推定 (2018. 12. 11)
2018年度秋学期 統計学 第12回 分布の平均を推測するー区間推定 (2018. 12. 11)2018年度秋学期 統計学 第12回 分布の平均を推測するー区間推定 (2018. 12. 11)
2018年度秋学期 統計学 第12回 分布の平均を推測するー区間推定 (2018. 12. 11)
 
2018年度春学期 統計学 第12回 分布の平均を推測するー区間推定 (2018. 6. 28)
2018年度春学期 統計学 第12回 分布の平均を推測するー区間推定 (2018. 6. 28)2018年度春学期 統計学 第12回 分布の平均を推測するー区間推定 (2018. 6. 28)
2018年度春学期 統計学 第12回 分布の平均を推測するー区間推定 (2018. 6. 28)
 
理科教育学研究のための統計分析入門
理科教育学研究のための統計分析入門理科教育学研究のための統計分析入門
理科教育学研究のための統計分析入門
 
2015年度春学期 統計学 第11回 分布の「型」を考える - 確率分布モデルと正規分布 (2015. 6. 25)
2015年度春学期 統計学 第11回 分布の「型」を考える - 確率分布モデルと正規分布 (2015. 6. 25)2015年度春学期 統計学 第11回 分布の「型」を考える - 確率分布モデルと正規分布 (2015. 6. 25)
2015年度春学期 統計学 第11回 分布の「型」を考える - 確率分布モデルと正規分布 (2015. 6. 25)
 
2015年度秋学期 統計学 第11回 分布の「型」を考える - 確率分布モデルと正規分布 (2015. 12. 9)
2015年度秋学期 統計学 第11回 分布の「型」を考える - 確率分布モデルと正規分布 (2015. 12. 9)2015年度秋学期 統計学 第11回 分布の「型」を考える - 確率分布モデルと正規分布 (2015. 12. 9)
2015年度秋学期 統計学 第11回 分布の「型」を考える - 確率分布モデルと正規分布 (2015. 12. 9)
 
2016年度秋学期 統計学 第11回 分布の「型」を考える-確率分布モデルと正規分布 (2016. 12. 5)
2016年度秋学期 統計学 第11回 分布の「型」を考える-確率分布モデルと正規分布 (2016. 12. 5)2016年度秋学期 統計学 第11回 分布の「型」を考える-確率分布モデルと正規分布 (2016. 12. 5)
2016年度秋学期 統計学 第11回 分布の「型」を考える-確率分布モデルと正規分布 (2016. 12. 5)
 
2013年度秋学期 統計学 第10回「分布の推測とは - 標本調査,度数分布と確率分布」
2013年度秋学期 統計学 第10回「分布の推測とは - 標本調査,度数分布と確率分布」2013年度秋学期 統計学 第10回「分布の推測とは - 標本調査,度数分布と確率分布」
2013年度秋学期 統計学 第10回「分布の推測とは - 標本調査,度数分布と確率分布」
 

Recently uploaded

Recently uploaded (7)

LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 

推定と標本抽出