SlideShare a Scribd company logo
1 of 37
Download to read offline
「Rによるやさしい統計学」第18章

人工データの発生
@yokkuns: 里 洋平
yohei0511@gmail.com
2013.11.09 第35回Tokyo.R

2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
里 洋平 (@yokkuns)
■元Webエンジニアのデータサイエンティスト
■TokyoRの主催者

2013年11月9日土曜日
執筆しました

2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
なぜ人工データを発生させるのか?
統計学やデータ解析自体の研究•学習の際に
特定の条件を満たすようなデータが欲しい

・シミュレーション実験
・例題用の仮想データ
勉強会とか執筆とか
・データ解析手法を試すために都合の良いデータ
...

2013年11月9日土曜日
どんな人工データが作れるのか
特定の母集団からの無作為標本

① 母集団分布を指定した1変量データ
② 母集団分布を指定した多変量データ
③ 統計モデルを指定した多変量データ
例: 回帰分析モデル、因子分析モデル、etc...

2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
確率分布に従う乱数の生成
乱数を生成する関数一覧
確率分布

関数名

引数としてしていする母数

正規分布

rnorm

mean, sd

一様分布

runif

min, max

ベータ分布

rbeta

shape1, shape2, ncp

二項分布

rbiom

size, prob

コーシー分布

rcauchy

location, scale

カイ二乗分布

rchisq

df, ncp

指数分布

rexp

rate

F分布

rf

df1, df2, cnp

ガンマ分布

rgamma

prob

...

...

...

2013年11月9日土曜日
実行例: 正規分布
rnorm関数

2013年11月9日土曜日
実行例: 一様分布
runif関数

2013年11月9日土曜日
実行例: 任意の離散的確率分布
runif関数による乱数とcut関数を用いて
任意の離散的確率分布の人工データを生成する

2013年11月9日土曜日
統計学の法則・定理の検証
統計学を勉強してると謎の法則とか定理が出てくる
人工データを使ってこれを検証してみる

http://ja.wikipedia.org/wiki/%E5%A4%A7%E6%95%B0%E3%81%AE%E6%B3%95%E5%89%87

http://ja.wikipedia.org/wiki/%E4%B8%AD%E5%BF%83%E6%A5%B5%E9%99%90%E5%AE%9A%E7%90%86

2013年11月9日土曜日
大数の法則とは
ある母集団から無作為抽出された標本データの平均は
サンプルサイズを大きくすると真の平均に近づく

http://www.seiho.or.jp/data/billboard/introduction/content03/
2013年11月9日土曜日
正規分布によるシミュレーション
rnorm関数でサンプルサイズを変化させ
標本平均と母平均を比較する

2013年11月9日土曜日
二項分布によるシミュレーション
rbiom関数でサンプルサイズを変化させ
標本平均と母平均を比較する

2013年11月9日土曜日
中心極限定理とは
標本平均と真の平均との誤差は
サンプルサイズを大きくすると、近似的に正規分布に従う

http://www.clg.niigata-u.ac.jp/ medimg/practice_medical_imaging/roc/2signifi/
index.htm
2013年11月9日土曜日
正規分布によるシミュレーション
母集団の作成

2013年11月9日土曜日
正規分布によるシミュレーション
100個の標本を100回作成
標本平均の分布を見る

2013年11月9日土曜日
正規分布によるシミュレーション
100個の標本を1,000回作成
標本平均の分布を見る

2013年11月9日土曜日
正規分布によるシミュレーション
100個の標本を10,000回作成
標本平均の分布を見る

2013年11月9日土曜日
二項分布によるシミュレーション
母集団の作成

2013年11月9日土曜日
二項分布によるシミュレーション
100個の標本を100回作成
標本平均の分布を見る

2013年11月9日土曜日
二項分布によるシミュレーション
100個の標本を10,000回作成
標本平均の分布を見る

2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
相関関係

http://mcn-www.jwu.ac.jp/ kuto/kogo_lab/psi-home/stat2000/DATA/09/03.HTM
2013年11月9日土曜日
任意の母相関を持つ2変数データの生成(方法1)
分散の等しい母集団から独立に無作為抽出された
2変数を用いて任意の母相関を持つ2変数データを生成

2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
線形回帰分析とは
観測変数間の直線関係を分析する手法

http://www.tuins.ac.jp/ ham/tymhnt/analysis/e/tahenryo/sa/sa8.html
2013年11月9日土曜日
線形回帰分析の仮定
線形回帰モデルの残差は正規分布していると仮定されている

http://www.ipc.shimane-u.ac.jp/food/kobayasi/biometry13_2010.html
2013年11月9日土曜日
回帰分析モデルに基づく人工データの生成
回帰係数と切片を固定し、xとeを乱数で生成する事で
回帰分析モデルに基づく人工データを生成する

2013年11月9日土曜日
人工データに対して回帰分析を実行

2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
■ LT募集しています!

http://www.japanr.org/information/2013/11/03/lt/

2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
ご清聴ありがとうございました!

2013年11月9日土曜日

More Related Content

What's hot

情報幾何勉強会 EMアルゴリズム
情報幾何勉強会 EMアルゴリズム 情報幾何勉強会 EMアルゴリズム
情報幾何勉強会 EMアルゴリズム Shinagawa Seitaro
 
ブースティング入門
ブースティング入門ブースティング入門
ブースティング入門Retrieva inc.
 
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章nocchi_airport
 
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門shima o
 
階層ベイズと自由エネルギー
階層ベイズと自由エネルギー階層ベイズと自由エネルギー
階層ベイズと自由エネルギーHiroshi Shimizu
 
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説Shiga University, RIKEN
 
SEMを用いた縦断データの解析 潜在曲線モデル
SEMを用いた縦断データの解析 潜在曲線モデルSEMを用いた縦断データの解析 潜在曲線モデル
SEMを用いた縦断データの解析 潜在曲線モデルMasaru Tokuoka
 
Stanコードの書き方 中級編
Stanコードの書き方 中級編Stanコードの書き方 中級編
Stanコードの書き方 中級編Hiroshi Shimizu
 
構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性Shiga University, RIKEN
 
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布についてhoxo_m
 
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデルMasashi Komori
 
ベイズモデリングと仲良くするために
ベイズモデリングと仲良くするためにベイズモデリングと仲良くするために
ベイズモデリングと仲良くするためにShushi Namba
 
Rで学ぶ観察データでの因果推定
Rで学ぶ観察データでの因果推定Rで学ぶ観察データでの因果推定
Rで学ぶ観察データでの因果推定Hiroki Matsui
 
質的変数の相関・因子分析
質的変数の相関・因子分析質的変数の相関・因子分析
質的変数の相関・因子分析Mitsuo Shimohata
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門Miyoshi Yuya
 
傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装takehikoihayashi
 
『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた
『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた
『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた. .
 

What's hot (20)

情報幾何勉強会 EMアルゴリズム
情報幾何勉強会 EMアルゴリズム 情報幾何勉強会 EMアルゴリズム
情報幾何勉強会 EMアルゴリズム
 
ブースティング入門
ブースティング入門ブースティング入門
ブースティング入門
 
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
 
階層ベイズとWAIC
階層ベイズとWAIC階層ベイズとWAIC
階層ベイズとWAIC
 
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
 
階層ベイズと自由エネルギー
階層ベイズと自由エネルギー階層ベイズと自由エネルギー
階層ベイズと自由エネルギー
 
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説
 
SEMを用いた縦断データの解析 潜在曲線モデル
SEMを用いた縦断データの解析 潜在曲線モデルSEMを用いた縦断データの解析 潜在曲線モデル
SEMを用いた縦断データの解析 潜在曲線モデル
 
Stanコードの書き方 中級編
Stanコードの書き方 中級編Stanコードの書き方 中級編
Stanコードの書き方 中級編
 
構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性
 
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
 
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について
 
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル
 
ベイズモデリングと仲良くするために
ベイズモデリングと仲良くするためにベイズモデリングと仲良くするために
ベイズモデリングと仲良くするために
 
Rで学ぶ観察データでの因果推定
Rで学ぶ観察データでの因果推定Rで学ぶ観察データでの因果推定
Rで学ぶ観察データでの因果推定
 
質的変数の相関・因子分析
質的変数の相関・因子分析質的変数の相関・因子分析
質的変数の相関・因子分析
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門
 
傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装
 
因果推論の基礎
因果推論の基礎因果推論の基礎
因果推論の基礎
 
『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた
『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた
『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた
 

More from Yohei Sato

Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Yohei Sato
 
Tokyor60 opening
Tokyor60 openingTokyor60 opening
Tokyor60 openingYohei Sato
 
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みTokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みYohei Sato
 
Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Yohei Sato
 
Tokyor42 ggplot2
Tokyor42 ggplot2Tokyor42 ggplot2
Tokyor42 ggplot2Yohei Sato
 
Tokyor39 yokkuns
Tokyor39 yokkunsTokyor39 yokkuns
Tokyor39 yokkunsYohei Sato
 
EasyHtmlReportの紹介
EasyHtmlReportの紹介EasyHtmlReportの紹介
EasyHtmlReportの紹介Yohei Sato
 
20131206 japan r
20131206 japan r20131206 japan r
20131206 japan rYohei Sato
 
ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例Yohei Sato
 
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略Yohei Sato
 
Rでレポートメール
RでレポートメールRでレポートメール
RでレポートメールYohei Sato
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデルYohei Sato
 
Rでピボットテーブル
RでピボットテーブルRでピボットテーブル
RでピボットテーブルYohei Sato
 
第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッションYohei Sato
 
Tokyor26 data fusion
Tokyor26 data fusionTokyor26 data fusion
Tokyor26 data fusionYohei Sato
 
Tokyor24 yokkuns
Tokyor24 yokkunsTokyor24 yokkuns
Tokyor24 yokkunsYohei Sato
 
Tokyowebmining19 data fusion
Tokyowebmining19 data fusionTokyowebmining19 data fusion
Tokyowebmining19 data fusionYohei Sato
 
傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling傾向スコア解析とUplift Modelling
傾向スコア解析とUplift ModellingYohei Sato
 
Complex network ws_percolation
Complex network ws_percolationComplex network ws_percolation
Complex network ws_percolationYohei Sato
 
異常行動検出入門(改)
異常行動検出入門(改)異常行動検出入門(改)
異常行動検出入門(改)Yohei Sato
 

More from Yohei Sato (20)

Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Tokyor60 r data_science_part1
Tokyor60 r data_science_part1
 
Tokyor60 opening
Tokyor60 openingTokyor60 opening
Tokyor60 opening
 
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みTokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
 
Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Tokyor42_r_datamining_18
Tokyor42_r_datamining_18
 
Tokyor42 ggplot2
Tokyor42 ggplot2Tokyor42 ggplot2
Tokyor42 ggplot2
 
Tokyor39 yokkuns
Tokyor39 yokkunsTokyor39 yokkuns
Tokyor39 yokkuns
 
EasyHtmlReportの紹介
EasyHtmlReportの紹介EasyHtmlReportの紹介
EasyHtmlReportの紹介
 
20131206 japan r
20131206 japan r20131206 japan r
20131206 japan r
 
ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例
 
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略
 
Rでレポートメール
RでレポートメールRでレポートメール
Rでレポートメール
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデル
 
Rでピボットテーブル
RでピボットテーブルRでピボットテーブル
Rでピボットテーブル
 
第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション
 
Tokyor26 data fusion
Tokyor26 data fusionTokyor26 data fusion
Tokyor26 data fusion
 
Tokyor24 yokkuns
Tokyor24 yokkunsTokyor24 yokkuns
Tokyor24 yokkuns
 
Tokyowebmining19 data fusion
Tokyowebmining19 data fusionTokyowebmining19 data fusion
Tokyowebmining19 data fusion
 
傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling
 
Complex network ws_percolation
Complex network ws_percolationComplex network ws_percolation
Complex network ws_percolation
 
異常行動検出入門(改)
異常行動検出入門(改)異常行動検出入門(改)
異常行動検出入門(改)
 

Tokyor35 人工データの発生