SlideShare a Scribd company logo
1 of 29
統計勉強会 超入門
鈴木雄登
対象
• 今回統計勉強会をはじめるにあたって
• データマイニングとかやってみたい
• けど、統計の知識はほぼゼロ
• そんな人のための知識補完として
目次
• 1次元データ
• 代表値
• 散らばりをしらべる
• 2次元データ
統計学とは
現象の法則性を
見つけたい

データを集めよ
う
データがごちゃご
ちゃ
データを
整理しよう
データの種類
• 量的データと質的データ

量的データ

質的データ

長さ、重さ、体積…etc.
のような値で測定できるもの

性別、天気、居住域..etc.
などのような値ではなく、
そのカテゴリーに属しているかどうか
次元
データの種類数は
『次元』
で表す
1次元のデータ
次元って??
x
y

1次元
x

z
y

2次元

x

3次元
統計(自然科学)での次元
(男)
1次元

(男、27歳)
2次元

(男、27歳、消防士
3次元

利用するデータの種類
数
1次元のデータを可視化
• 度数分布

頻度合計

頻度

階級

度数

相対度数

累積度数

累積相対度
数

0〜20

3

0.06

3

0.06

20〜40

10

0.2

13

0.26

40〜60

20

0.4

33

0.66

60〜80

9

0.18

42

0.84

80〜10
0

8

0.16

50

1.00

合計

50

1.00
頻度/全体

頻度合計/全体
1次元のデータを可視化
• ヒストグラム
25

20
1〜20
20〜40
40〜60
60〜80
80〜100

15
10
5
0
項目 1
代表値
平均
• 算術平均
• いつもの平均

• 両端の階級を無視して計算するときもある。

→外れ値考慮
平均
• 幾何平均

割合の平均を求めるときなどに使う

• 調和平均
メディアン
• 1,1,1,1,2,3,4,5,16,20のような数列の代表値

第一四分位点

1
メディア
ン

5

10
平均

15

20
モード
• 最頻度

モード
散らばりを調べる
散らばりの尺度
• レンジ
• 分布の存在する範囲を示す
• 平均偏差
• 観測値が平均からどれくらい離れているかを平均したもの

• 分散と標準偏差
• 観測値が平均との距離の2乗和平均の平方根を取ったもの
分散 :
標準偏差 :
偏差
• 標準偏差の方が圧倒的に使われる
• 理論的に計算しやすい(←絶対値が計算しづらい)
• 優れている
違いを考えるには、平均とは何か?ということが鍵になります。サンプ
ルの平均は m=(x1+...+xn)÷n で求めるのが通例ですが、なぜこうするの
がよいか?を考えてみてください。

実は、このようにして求める平均は、標準偏差の2乗和を最小にします。
では、平均偏差を最小にするような値を計算してみましょう。つまり、
J= |x1-μ|+...+|xn-μ| を最小にするμを求めるわけです。
例えば、データが(1,1,1,0,-3)だったとします。
m=0 となりますが、(2)式を最小にする値は、0ではありませんね。
一方で,標準偏差の2乗和
V= (x1-μ)^2+...+(xn-μ)^2
を最小にするμはVをμで微分して=0と置いて、とけば
μ=m であることがわかります。
平均偏差を最小にする値は中央値ですので、そこが違うということにな
るわけです。
引用:http://okwave.jp/qa/q1241831.html
2次元データ
相関と回帰
• 相関
• xとyに区別を設けず、対等に見る見方
• 独立なものの関係を調べる
x

y

• 回帰
• xからy(もしくはyからx)を見る見方
• 従属的なものの関係を調べる
x

y
散布図
Y の値 1
3.5
3
2.5
2
Y の値 1

1.5
1
0.5

0
0

1

2

3

4
相関関係

http://www.sqc-works.com/qc7-04.html
相関係数
• どれくらい相関関係があるかを計算
• 定義はいろいろ
• 最もよく用いられるピアソンの積率相関係数

xの標準偏差

偏差積の平均
=共分散

yの標準偏差

範囲は-1~1
相関係数のイメージ
共分散によって相関係数は決まる
I

Ⅱ

相関係数が±1を取る条件

平均

Ⅲ

Ⅳ
回帰
• 最小二乗法
を最小化するaとbを求める

bx+a

y
回帰
最終的にはこれを解けばいい

求まったaとbによる式

回帰方程式(回帰直線とも)と呼ばれる
回帰直線
Y の値 1
3.5
3
2.5
2
Y の値 1

1.5
1
0.5
0
0

1

2

3

4
相関係数と回帰直線の傾き
• 相関係数rと回帰直線の傾きbの関係

rは相関係数なので、xとyの相関を示す
-1 ~ 1 なので2乗にするとrが大きいほど、回帰が当てはまる。
そこでrの2乗を決定係数と呼ぶ

More Related Content

Viewers also liked

100人のための統計解析 和食レストラン編
100人のための統計解析   和食レストラン編100人のための統計解析   和食レストラン編
100人のための統計解析 和食レストラン編. .
 
ビジネスリテラシーとしての統計 ビッグデータと統計の活用
ビジネスリテラシーとしての統計 ビッグデータと統計の活用ビジネスリテラシーとしての統計 ビッグデータと統計の活用
ビジネスリテラシーとしての統計 ビッグデータと統計の活用Rakuten Group, Inc.
 
Rで学ぶミニミニビッグデータ分析入門-第1回
Rで学ぶミニミニビッグデータ分析入門-第1回Rで学ぶミニミニビッグデータ分析入門-第1回
Rで学ぶミニミニビッグデータ分析入門-第1回Naruhiko Shiratori
 
統計学における相関分析と仮説検定の基本的な考え方とその実践
統計学における相関分析と仮説検定の基本的な考え方とその実践統計学における相関分析と仮説検定の基本的な考え方とその実践
統計学における相関分析と仮説検定の基本的な考え方とその実践id774
 
Data scientist casual talk in 白金台
Data scientist casual talk in 白金台Data scientist casual talk in 白金台
Data scientist casual talk in 白金台Hiroko Onari
 
なぜ統計学がビジネスの 意思決定において大事なのか?
なぜ統計学がビジネスの 意思決定において大事なのか?なぜ統計学がビジネスの 意思決定において大事なのか?
なぜ統計学がビジネスの 意思決定において大事なのか?Takashi J OZAKI
 
相関係数と決定係数~回帰係数とその不偏性も
相関係数と決定係数~回帰係数とその不偏性も相関係数と決定係数~回帰係数とその不偏性も
相関係数と決定係数~回帰係数とその不偏性もT T
 
データマイニング入門
データマイニング入門データマイニング入門
データマイニング入門hrfm
 
Rによるデータサイエンス:12章「時系列」
Rによるデータサイエンス:12章「時系列」Rによるデータサイエンス:12章「時系列」
Rによるデータサイエンス:12章「時系列」Nagi Teramo
 
Tokyo r12 - R言語による回帰分析入門
Tokyo r12 - R言語による回帰分析入門Tokyo r12 - R言語による回帰分析入門
Tokyo r12 - R言語による回帰分析入門Yohei Sato
 
ベクトルで理解する相関係数
ベクトルで理解する相関係数ベクトルで理解する相関係数
ベクトルで理解する相関係数Satoshi MATSUURA
 
2015年度春学期 統計学 第7回 データの関係を知る(2) ― 回帰と決定係数 (2015. 6. 4.)
2015年度春学期 統計学 第7回 データの関係を知る(2) ― 回帰と決定係数 (2015. 6. 4.)2015年度春学期 統計学 第7回 データの関係を知る(2) ― 回帰と決定係数 (2015. 6. 4.)
2015年度春学期 統計学 第7回 データの関係を知る(2) ― 回帰と決定係数 (2015. 6. 4.)Akira Asano
 
統計学の基礎の基礎
統計学の基礎の基礎統計学の基礎の基礎
統計学の基礎の基礎Ken'ichi Matsui
 
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料 「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料 Ken'ichi Matsui
 
論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative ModelsSeiya Tokui
 
時系列の相関係数の解釈は注意を要する(ランダムウォーク同士の相関係数は±0.72の外側に15%も分布することなど)
時系列の相関係数の解釈は注意を要する(ランダムウォーク同士の相関係数は±0.72の外側に15%も分布することなど)時系列の相関係数の解釈は注意を要する(ランダムウォーク同士の相関係数は±0.72の外側に15%も分布することなど)
時系列の相関係数の解釈は注意を要する(ランダムウォーク同士の相関係数は±0.72の外側に15%も分布することなど)Toshiyuki Shimono
 
Why 40? なぜ40個のサンプルで調査をするのか ― 数値例からの考察
Why 40? なぜ40個のサンプルで調査をするのか ― 数値例からの考察Why 40? なぜ40個のサンプルで調査をするのか ― 数値例からの考察
Why 40? なぜ40個のサンプルで調査をするのか ― 数値例からの考察Toshiyuki Shimono
 

Viewers also liked (19)

100人のための統計解析 和食レストラン編
100人のための統計解析   和食レストラン編100人のための統計解析   和食レストラン編
100人のための統計解析 和食レストラン編
 
ビジネスリテラシーとしての統計 ビッグデータと統計の活用
ビジネスリテラシーとしての統計 ビッグデータと統計の活用ビジネスリテラシーとしての統計 ビッグデータと統計の活用
ビジネスリテラシーとしての統計 ビッグデータと統計の活用
 
Rで学ぶミニミニビッグデータ分析入門-第1回
Rで学ぶミニミニビッグデータ分析入門-第1回Rで学ぶミニミニビッグデータ分析入門-第1回
Rで学ぶミニミニビッグデータ分析入門-第1回
 
統計学における相関分析と仮説検定の基本的な考え方とその実践
統計学における相関分析と仮説検定の基本的な考え方とその実践統計学における相関分析と仮説検定の基本的な考え方とその実践
統計学における相関分析と仮説検定の基本的な考え方とその実践
 
Data scientist casual talk in 白金台
Data scientist casual talk in 白金台Data scientist casual talk in 白金台
Data scientist casual talk in 白金台
 
なぜ統計学がビジネスの 意思決定において大事なのか?
なぜ統計学がビジネスの 意思決定において大事なのか?なぜ統計学がビジネスの 意思決定において大事なのか?
なぜ統計学がビジネスの 意思決定において大事なのか?
 
相関係数と決定係数~回帰係数とその不偏性も
相関係数と決定係数~回帰係数とその不偏性も相関係数と決定係数~回帰係数とその不偏性も
相関係数と決定係数~回帰係数とその不偏性も
 
データマイニング入門
データマイニング入門データマイニング入門
データマイニング入門
 
Rによるデータサイエンス:12章「時系列」
Rによるデータサイエンス:12章「時系列」Rによるデータサイエンス:12章「時系列」
Rによるデータサイエンス:12章「時系列」
 
Tokyo r12 - R言語による回帰分析入門
Tokyo r12 - R言語による回帰分析入門Tokyo r12 - R言語による回帰分析入門
Tokyo r12 - R言語による回帰分析入門
 
はじめての「R」
はじめての「R」はじめての「R」
はじめての「R」
 
ベクトルで理解する相関係数
ベクトルで理解する相関係数ベクトルで理解する相関係数
ベクトルで理解する相関係数
 
2015年度春学期 統計学 第7回 データの関係を知る(2) ― 回帰と決定係数 (2015. 6. 4.)
2015年度春学期 統計学 第7回 データの関係を知る(2) ― 回帰と決定係数 (2015. 6. 4.)2015年度春学期 統計学 第7回 データの関係を知る(2) ― 回帰と決定係数 (2015. 6. 4.)
2015年度春学期 統計学 第7回 データの関係を知る(2) ― 回帰と決定係数 (2015. 6. 4.)
 
統計学の基礎の基礎
統計学の基礎の基礎統計学の基礎の基礎
統計学の基礎の基礎
 
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料 「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
 
論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models
 
企業における統計学入門
企業における統計学入門企業における統計学入門
企業における統計学入門
 
時系列の相関係数の解釈は注意を要する(ランダムウォーク同士の相関係数は±0.72の外側に15%も分布することなど)
時系列の相関係数の解釈は注意を要する(ランダムウォーク同士の相関係数は±0.72の外側に15%も分布することなど)時系列の相関係数の解釈は注意を要する(ランダムウォーク同士の相関係数は±0.72の外側に15%も分布することなど)
時系列の相関係数の解釈は注意を要する(ランダムウォーク同士の相関係数は±0.72の外側に15%も分布することなど)
 
Why 40? なぜ40個のサンプルで調査をするのか ― 数値例からの考察
Why 40? なぜ40個のサンプルで調査をするのか ― 数値例からの考察Why 40? なぜ40個のサンプルで調査をするのか ― 数値例からの考察
Why 40? なぜ40個のサンプルで調査をするのか ― 数値例からの考察
 

More from Yuto Suzuki

5xx解消への道のり
5xx解消への道のり5xx解消への道のり
5xx解消への道のりYuto Suzuki
 
MySQLのインデックス入門
MySQLのインデックス入門MySQLのインデックス入門
MySQLのインデックス入門Yuto Suzuki
 
Mastering Bitcoin ~network~
Mastering Bitcoin ~network~ Mastering Bitcoin ~network~
Mastering Bitcoin ~network~ Yuto Suzuki
 
Aerospike基本のき
Aerospike基本のきAerospike基本のき
Aerospike基本のきYuto Suzuki
 
いまさらAkkaStream
いまさらAkkaStreamいまさらAkkaStream
いまさらAkkaStreamYuto Suzuki
 
Introduction of View Through Tracking
Introduction of View Through TrackingIntroduction of View Through Tracking
Introduction of View Through TrackingYuto Suzuki
 
エンジニアのためのマーケティング
エンジニアのためのマーケティングエンジニアのためのマーケティング
エンジニアのためのマーケティングYuto Suzuki
 
How to Build a Team
How to Build a TeamHow to Build a Team
How to Build a TeamYuto Suzuki
 
プロダクトにおけるScala
プロダクトにおけるScalaプロダクトにおけるScala
プロダクトにおけるScalaYuto Suzuki
 
Do you like scala
Do you like scalaDo you like scala
Do you like scalaYuto Suzuki
 
Slackから始めるChatOps
Slackから始めるChatOpsSlackから始めるChatOps
Slackから始めるChatOpsYuto Suzuki
 
大学の時の研究の話
大学の時の研究の話大学の時の研究の話
大学の時の研究の話Yuto Suzuki
 
F.O.Xを支える技術
F.O.Xを支える技術F.O.Xを支える技術
F.O.Xを支える技術Yuto Suzuki
 
Scala戦士を増やせ
Scala戦士を増やせScala戦士を増やせ
Scala戦士を増やせYuto Suzuki
 
スクラムに学ぶ開発の回し方
スクラムに学ぶ開発の回し方スクラムに学ぶ開発の回し方
スクラムに学ぶ開発の回し方Yuto Suzuki
 
Breezeで始めるデータ分析
Breezeで始めるデータ分析Breezeで始めるデータ分析
Breezeで始めるデータ分析Yuto Suzuki
 

More from Yuto Suzuki (20)

5xx解消への道のり
5xx解消への道のり5xx解消への道のり
5xx解消への道のり
 
MySQLのインデックス入門
MySQLのインデックス入門MySQLのインデックス入門
MySQLのインデックス入門
 
Ad vol.2
Ad vol.2Ad vol.2
Ad vol.2
 
広告勉強会
広告勉強会広告勉強会
広告勉強会
 
Mastering Bitcoin ~network~
Mastering Bitcoin ~network~ Mastering Bitcoin ~network~
Mastering Bitcoin ~network~
 
Aerospike基本のき
Aerospike基本のきAerospike基本のき
Aerospike基本のき
 
いまさらAkkaStream
いまさらAkkaStreamいまさらAkkaStream
いまさらAkkaStream
 
Introduction of View Through Tracking
Introduction of View Through TrackingIntroduction of View Through Tracking
Introduction of View Through Tracking
 
エンジニアのためのマーケティング
エンジニアのためのマーケティングエンジニアのためのマーケティング
エンジニアのためのマーケティング
 
How to Build a Team
How to Build a TeamHow to Build a Team
How to Build a Team
 
プロダクトにおけるScala
プロダクトにおけるScalaプロダクトにおけるScala
プロダクトにおけるScala
 
Do you like scala
Do you like scalaDo you like scala
Do you like scala
 
Re invent
Re inventRe invent
Re invent
 
Slackから始めるChatOps
Slackから始めるChatOpsSlackから始めるChatOps
Slackから始めるChatOps
 
大学の時の研究の話
大学の時の研究の話大学の時の研究の話
大学の時の研究の話
 
F.O.Xを支える技術
F.O.Xを支える技術F.O.Xを支える技術
F.O.Xを支える技術
 
Scala戦士を増やせ
Scala戦士を増やせScala戦士を増やせ
Scala戦士を増やせ
 
Recommend scala
Recommend scalaRecommend scala
Recommend scala
 
スクラムに学ぶ開発の回し方
スクラムに学ぶ開発の回し方スクラムに学ぶ開発の回し方
スクラムに学ぶ開発の回し方
 
Breezeで始めるデータ分析
Breezeで始めるデータ分析Breezeで始めるデータ分析
Breezeで始めるデータ分析
 

統計勉強会Vol1