Submit Search
Upload
統計学超入門 アップロード用
•
11 likes
•
1,798 views
W
w24nishi
Follow
職場で統計学の勉強会をやったときのスライドです。
Read less
Read more
Science
Slideshow view
Report
Share
Slideshow view
Report
Share
1 of 64
Download now
Download to read offline
Recommended
Excelを使った統計解析とグラフ化入門
Excelを使った統計解析とグラフ化入門
Mizumoto Atsushi
統計学勉強会 試験直前回
統計学勉強会 試験直前回
w24nishi
統計学超入門
統計学超入門
w24nishi
2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
Marius Sescu
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Expeed Software
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
Recommended
Excelを使った統計解析とグラフ化入門
Excelを使った統計解析とグラフ化入門
Mizumoto Atsushi
統計学勉強会 試験直前回
統計学勉強会 試験直前回
w24nishi
統計学超入門
統計学超入門
w24nishi
2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
Marius Sescu
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Expeed Software
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
Skeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
Introduction to Data Science
Introduction to Data Science
Christy Abraham Joy
Time Management & Productivity - Best Practices
Time Management & Productivity - Best Practices
Vit Horky
The six step guide to practical project management
The six step guide to practical project management
MindGenius
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
RachelPearson36
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Applitools
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
GetSmarter
ChatGPT webinar slides
ChatGPT webinar slides
Alireza Esmikhani
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
Project for Public Spaces & National Center for Biking and Walking
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
DevGAMM Conference
More Related Content
Featured
Skeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
Introduction to Data Science
Introduction to Data Science
Christy Abraham Joy
Time Management & Productivity - Best Practices
Time Management & Productivity - Best Practices
Vit Horky
The six step guide to practical project management
The six step guide to practical project management
MindGenius
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
RachelPearson36
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Applitools
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
GetSmarter
ChatGPT webinar slides
ChatGPT webinar slides
Alireza Esmikhani
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
Project for Public Spaces & National Center for Biking and Walking
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
DevGAMM Conference
Featured
(20)
Skeleton Culture Code
Skeleton Culture Code
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Getting into the tech field. what next
Getting into the tech field. what next
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
How to have difficult conversations
How to have difficult conversations
Introduction to Data Science
Introduction to Data Science
Time Management & Productivity - Best Practices
Time Management & Productivity - Best Practices
The six step guide to practical project management
The six step guide to practical project management
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
ChatGPT webinar slides
ChatGPT webinar slides
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
統計学超入門 アップロード用
1.
イントロダクション 2015/01/24 ● 各章のタイトルがここに入ります その章の中のどのあたりにいるかがここに入ります 西 航 統計学超入門
2.
● 西 航 (にし わたる) ● 興味: 数学(ふつうの人よりは慣れてる) プログラミング(最近勉強をサボり気味) ジョジョ(そんなにディープではない) ドラクエ(最近は触れていませんでしたが、年末年
始に4を遊んで、クリアできました) ビール(お金が飛んでいきます) 各章のタイトルがここに入ります その章の中のどのあたりにいるかがここに入ります 自己紹介
3.
● 最近統計学を勉強し始めて、これは人類の常識に なるべき知識だと思いました。 ● とりあえず、職場で勉強会をやることにしました。 ●
思いのほかちゃんと準備しないといけない雰囲気 になったので、スライドを作ることにしました。 イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何? このスライドの目的
4.
● イントロダクション - パン屋さんのおはなし -
統計学って何? ● 1次元のデータ - グラフ - 平均 - 分散 ● 2次元のデータ(時間がなくて諦めました) イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何? 本日の予定
5.
● まくら代わりのお話 ● 統計学者がパン屋さんの不正を暴く話 ●
たぶん有名な話ですが、たぶん実話ではないです 本題の前に イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
6.
● むかしむかし、あるところに、食料が大変貴重で、 配給制になっている国がありました。 ● ある町のパン屋では、国から小麦をもらい、パンを 焼き、町中の人に毎日ちょうど100gのパンを宅配 することになっていました。 第1話 悪いパン屋 イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
7.
● ところが最近、実際に配給されるパンは100gよりも 軽いようだという噂が町に流れていました。 ● ある日、ある住民がパンの重さをはかると、98gし かありませんでした。 ●
たった2gの差ですが、もし町中のパンが規定より 2g軽いとすれば、パン屋が国からもらった小麦のう ち、そう少なくない量がどこかへ消えていることにな ります。 疑惑のパン屋 イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
8.
● 住民は、パン屋が不当に私腹を肥やしていると思 い、抗議をしました。 老獪なパン屋 イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
9.
● パン屋はクレームに対して、「それはばらつきによ るもので、当然100gより軽くなってしまうこともあれ ば、それよりも重くなることもある。100gぴったりに パンを焼くことは不可能だ」と言いました。 ● 確かに、毎回100gぴったりにパンを焼くことは不可 能に思えます。住民はまだ内心では納得できませ んでしたが、意見を取り下げざるを得ませんでし た。 老獪なパン屋 イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
10.
● その日住民は眠れず、朝になるまで考えました。 ● パン屋の言うことは正しいように思えますが、何か が納得できません。 ●
翌日になって、住民はたまたま町に住んでいた統 計学者に相談することにしました。 第2話 確率論 Karl Pearson(1857 - 1936) イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
11.
● 統計学者は話を聞いて、この件について住民に代 わって調査することにしました。 ● 統計学者は、その日から100日間のパンの重さを 記録し、パンが100gより重い日と軽い日がそれぞ れ何回あったかを数えました。 ●
パンの重さが100gを超えたのは30回、超えなかっ たのは70回でした。 データを集める イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
12.
● 100gより重いパン、軽いパンがそれぞれ同じ数だ けあると仮定する。すると、 (今は分からなくても良いですが)中心極限定理より、100gより重いパンの個数をSとすると、S 30≦
で ある確率は、標準正規分布に従う確率変数が3以上の値をとる確率で近似できる。このことから、 届けられる100個のパンのうち、100gより重いパン が30個以下である確率は、0.2%以下である。 ● これは、偶然とは考えづらい低い確率である。 (いわゆる「3シグマ範囲」の境界) 確率を計算する イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
13.
● 統計学者がこのことをパン屋に指摘すると、パン屋 は不正を認め、パンの重さを適正なものにすること を約束しました。 ● その日以降も統計学者はパンの重さを記録 し、100gを超える回数と超えない回数がおおむね 等しくなることを確認しました。 罪を認めたパン屋 第1話 悪いパン屋 第2話 確率論 第3話 統計学 イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
14.
● ところがまたある日、統計学者は同様のクレームを 耳にするようになりました。 ● パンの重さをチェックし続けていた統計学者は不思 議に思いましたが、町の噂で次のようなことを聞き ました。 ● それは、パン屋の焼くパンは今までと全く変わらな い品質のもので、統計学者の家にだけ、一定の重 さを超えたパンを届けている、というものでした。 ●
統計学者は、この説を検証することにしました。 第3話 統計学 イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
15.
● パン屋に不正の指摘をする前に統計学者の家に 届けられていたパンの重さの分布 ● 最初の100日間 イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
16.
● パン屋に不正の指摘をした後に統計学者の家に 届けられたパンの重さの分布 次の100日間 イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
17.
● まさに噂に聞いた通り、「ある一定の重さに満たな いパンを切り捨てている」(一定以上のものを意図 的に選んでいる)ような形の分布になっている。 ● 依然として98gがピークになっており、100gのパン を焼こうとしているとはとても思えない。 ●
パン屋は不正を改めていない。 分析 イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
18.
● 統計学者は、これらのデータを証拠として国に提出 しました。 ● パン屋は逮捕され、その町では別のパン屋が営業 を始めることになりました。 ●
その後の警察の調べで、パン屋は小麦粉を闇市に 流していたことが判明しました。 ● めでたしめでたし パン屋の最期 イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
19.
● パン屋がもう少し賢ければ、統計学者の家には 100gを中心とした分布になるようにパンを届けて いたかもしれない。 ● というかそもそも、指摘されただけで済んだ時点で 不正をやめたかもしれない。 ●
紹介した分布のグラフは、描き方がまずい。今回 は連続的な曲線としてグラフを描けるほどのサンプ ルを集めていない。 補足 イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
20.
● 辞書的な意味 ● 統計データの分析プロセス ●
統計のウソ ● この勉強会でやること 統計学って何? イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
21.
● "statistics"の意味はだんだん変化してきた。 ● 最初は”state”
つまり国に関するデータのことを指 していた。 ● のちに、あらゆる種類の情報を集めたものを指す ようになった。 ● さらに後には、そのようなデータに対する説明や解 析のことを指すようにもなった。 統計学(statistics)とは イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
22.
● 今日では、「情報を集めたもの」、「集められた情報 に対する解釈、解析などの活動」の両方を指すよう になっている。 ● 日本語では、「統計」と言えば前者に、「統計学」と 言えば後者に近いものを指す。 今日での使われ方 イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
23.
● 統計学の理論には、記述統計学と呼ばれるもの と、推測統計学と呼ばれるものがある。 ● 記述統計学は、得られたデータの統計量(要約統 計量)を計算したり、グラフを書いたりして、規則性 や法則を見出す。 ● 推測統計学は、確率論という数学の理論を使っ て、得られた一部のデータから全体の特徴や性質 を推測する。 ●
それぞれ独立しているわけではない。推測統計学 は記述統計学を土台としている。 二つの統計学 イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
24.
● 何をするのか考える ● データを集める ●
解析する ● 表現する 統計データの分析プロセス イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
25.
● 「むやみにデータを集めて、とりあえず統計学の公 式に当てはめる」では、あまり意味がない。(教科 書には「何の意味もない」って書いてありました) ● 何を確かめるために、何を調査するために、どんな データをどんな手法で解析する必要があるのか? ● 仮説を構築することで、分析の対象を明らかにして から初めて、データが必要となる。 何をするのか考える イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
26.
● 行政機関や研究機関等の第三者が行った調査結 果をデータとして利用する場合には、多くの場合原 データは手に入らず、何らかの統計処理を施した 結果が分析対象となる。 ● 必要なデータがもともと存在しない場合には、自然 科学の分野では「実験」、人文・社会科学の分野で は「調査」と呼ばれる作業が必要となる。 データを集める イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
27.
● 現代では、具体的な計算・解析を人間が直接行う ことは少ない。 ● 統計計算用ソフトウェアが数多く存在し、ほとんど 人の手を使わずに統計計算が実行できる。 ●
R言語、 GNU Octave など。 ● ただし、コンピュータにできるのはあくまで計算で あって、どのような計算をするか選んだり、計算の 結果を分析することはできない。 解析する イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
28.
● 計算された結果を解釈し、それを 適切に表現する方法を考える。 ● グラフの書き方で、見る者に全く 逆の印象を与えることもできる。 ●
表現方法は慎重に選ばれる必 要がある。 表現する イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
29.
統計のウソ イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何? ● 統計学を使うと、ウソをつきやすい? ● 「統計学に基づく」と言えば信憑性がある? ●
統計がウソつきであるという場合、統計手法、デー タの集め方、結果の表現のどれかが適切でないこ とが多い。 ● 統計データを分析するときは、正しいデータを、正 しい手法で解析して、正しく表現しましょう。 ● 逆に、分析された統計データを見るときは、どんな データを、どんな手法で解析した結果が、どう表現 されているのか気にするようにしましょう。
30.
● 統計的に分析された結果を正しく理解することは、 現代社会で生活するうえで必須。 ● 結果を理解するには、結果が出るに至った方法に ついての知識が必要。 ●
知識をつける第1ステップとして、単語を紹介するく らいのことができればいいな。 ● 結果を理解するだけでなく、分析できるようになれ ば仕事にも使えるかも? ● 学校の授業のような一般的なクラスでは、推定と 仮説検定の理解がゴール? この勉強会でやること イントロダクション ● 1次元のデータ ● 2次元のデータ パン屋さんのおはなし 統計学って何?
31.
● データの次元 ● グラフ(ヒストグラム) ●
平均(代表値) ● 分散(一次変換、偏差値) 1次元のデータ イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 平均 分散
32.
● 次元って何? ● 1次元は線、2次元は面、3次元では縦と横と高さが あって、4次元は3次元+時間? ●
そういう話ではない。 ● たぶん言葉で抽象的に説明するよりは、例を挙げ たほうがわかりやすい。 データの次元 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 平均 分散
33.
● 15人の学生の身長 1次元のデータの例 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 平均 分散 学生 1
2 3 4 5 6 7 8 9 10 11 12 13 14 15 身長 (cm) 178 165 168 152 175 175 165 162 164 170 169 155 153 162 168 ● それぞれの人から1種類のデータ(身長)を得てい るので、このデータは1次元。
34.
● 15人の学生の身長と体重 2次元のデータの例 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 平均 分散 学生 1
2 3 4 5 6 7 8 9 10 11 12 13 14 15 身長 (cm) 178 165 168 152 175 175 165 162 164 170 169 155 153 162 168 体重 (kg) 63 62 69 41 71 61 62 48 52 55 69 48 44 49 69 ● それぞれの人から2種類のデータ(身長と体重)を 得ているので、このデータは2次元。
35.
● 15人の学生の身長と体重と性別 3次元のデータの例 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 平均 分散 学生 1
2 3 4 5 6 7 8 9 10 11 12 13 14 15 身長 (cm) 178 165 168 152 175 175 165 162 164 170 169 155 153 162 168 体重 (kg) 63 62 69 41 71 61 62 48 52 55 69 48 44 49 69 性別 男 男 男 女 男 男 男 女 女 男 男 女 女 女 男 ● それぞれの人から3種類のデータ(身長と体重と性 別)を得ているので、このデータは3次元。
36.
● 次元というのは、ただこれだけ。 ● もう少し抽象的に言えば、「各個体から得られるパ ラメータの数」が次元。 ●
100個の項目のアンケートによる調査があったら、 得られるのは100次元のデータ。 次元なんて怖くない イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 平均 分散
37.
● 1次元のデータに対して、2次元以上のデータのこ とを多次元のデータと呼ぶ。 ● 多次元の場合では、個々のパラメータの解析だけ でなく、パラメータ間の相互関係の分析も重要にな る。 ●
たとえば、身長の分布と体重の分布を別々に考え るよりも、身長と体重の関係を考えるほうが、より 意味のある結論が得られると思われる。 多次元とは イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 平均 分散
38.
● 調査や実験によって観測値が得られたとき、分析 の第一歩として、表や図にすることから始める場合 が多い。 ● いきなり計算を始めるよりも、全体の分布の状況が 明らかになりやすいため。 ●
なかでも、1次元のデータでは、ヒストグラム (histogram) または柱状グラフと呼ばれるグラフを 描くことが多い。 グラフの書き方 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 平均 分散
39.
● 横軸には観測値の取りうる値をとる。 ● 横軸を分割したそれぞれのエリアで、長方形の面 積と度数(そのエリアに入る個体の数)が一致する ように高さを決める。 例:試験得点 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 平均 分散
40.
● このように各エリアで幅が著しく異なる場合、幅を 一定にして、柱同士を離して描くほうが見やすい。 例:従業員規模別事業所数 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 平均 分散 出典:平成18年事業所・企業統計調査(総務省統計局)
41.
● データには連続型のものと離散型のものがある。 ● 血液型や性別、1世帯の人数のような離散型の データの場合、ヒストグラムでは柱を離して描く。 ●
身長や体重のような連続型のデータの場合、ヒスト グラムでは柱を分離せずに描く。 ● ただし、離散型のデータでも所得や試験の得点の ように、取りうる値が十分多く、近似的に連続型と みなせる場合もある。 ● 逆に、連続型のデータでも、それぞれの柱で幅が 著しく異なる場合、離散型とみなすことが多い。 柱を離す場合と離さない場合 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 平均 分散
42.
● 統計量とは、一連のデータに何らかの処理(統計 学的なアルゴリズム)を施して得られる数値のこと である。 ● たとえば、平均、中央値、分散、標準偏差といった ものが統計量である。 ● 順に説明していく。 統計量 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散
43.
代表値 ● 代表値 (averages)とは、統計量の中でも分布を代 表する値のことである。 ●
代表的な代表値には、平均、中央値、最頻値など がある。 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散
44.
● 5科目の試験の得点がそれぞれ100点満点中50 点、60点、70点、80点、90点でした。平均得点は 何点でしょう? ● 5年間の経済成長率が、年間でそれぞれ0%, 10%,
20%, 30%, 40%でした。平均成長率は何% でしょう? ● 500メートル走を実施して、各100メートル間でのス ピードはそれぞれ5m/s, 6m/s, 7m/s, 8m/s, 9m/s でした。平均速度は何m/sでしょう? 「平均」計算できますか? イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散
45.
● 5科目の試験の得点がそれぞれ100点満点中50 点、60点、70点、80点、90点でした。平均得点は 何点でしょう? ● 答え:70点 得点の平均 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散
46.
● 5年間の経済成長率が、年間でそれぞれ0%, 10%, 20%,
30%, 40%でした。平均成長率は何%でしょう? ● 答え:約19% ● 5年間で(1*1.1*1.2*1.3*1.4)倍になるので、1年間あ たりの成長率はその5乗根。 ● (ここに図を入れたい(1.2倍ずつに増えるとこうなっ ちゃうよ的な)) 成長率の平均 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散
47.
● 500メートル走を実施して、各100メートル間でのス ピードはそれぞれ5m/s, 6m/s,
7m/s, 8m/s, 9m/s でした。平均速度は何m/sでしょう? ● 答え:約6.7m/s 速度の平均 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散 速度の平均は、逆数の平均の逆数。
48.
● 平均と一口に言っても、いろんな平均がある。 ● 相加平均(算術平均) - 全部足して個数で割る ● 相乗平均(幾何平均) - 全部かけてn乗根をとる ●
調和平均 - 逆数の相加平均の逆数 ● 状況に応じて、適切な平均をとりましょう。 ● 単に「平均」と言ったら、ふつうは相加平均。 平均といえばふつうは相加平均ですが イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散
49.
● もちろん、平均以外にも代表値は存在する。 ● 中央値は、データを小さいほうから順に並べたとき に中央にくる値のことである。 データ[1,
1, 1, 1, 2, 3, 4, 4, 100]のように、一部の 個体が他と比べて著しく大きい、または小さい場合 に、代表値として平均よりは優れていると思われ る。 ● 人口1万人の町にビルゲイツが引っ越してきたとし て、町民の収入の代表値に「平均」が使えるか? ● 使えない。 中央値(メディアン) イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散
50.
● データの中でもっとも多い値のことを、最頻値(モー ド)と呼ぶ。 ● データの取りうる値をいくつかのエリアに分けたと きは、そのエリアを代表する値(階級値)を使う。 最頻値(モード) イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散 この場合は55がモード
51.
● 平均(mean) ● 中央値(median) ●
最頻値(mode) ● それぞれに特性があって、それぞれに使いどころ がある。 代表的な代表値 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散 http://www.digitaltonto.com/2012 /its-the-math-stupid/ より引用 (ググったら見つけた)
52.
● 以下の3つのデータでは、平均、中央値、最頻値が すべて等しい。(どれも5) ● A:
[0,3,3,5,5,5,5,7,7,10] ● B: [0,1,2,3,5,5,7,8,9,10] ● C: [3,4,4,5,5,5,5,6,6,7] ● では、これらのデータの違いは何か? 散らばり具合の尺度 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散
53.
● 分布の「ちらばり具合」が違う。 ● CはA,Bに比べて、中央に固まって分布している。 ● AとBも、比べるとAのほうがとがって分布している。 散らばり具合の尺度 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散 A:
[0,3,3,5,5,5,5,7,7,10] B: [0,1,2,3,5,5,7,8,9,10] C: [3,4,4,5,5,5,5,6,6,7]
54.
● 分布の最大値と最小値の差をレンジという。 ● 分布を4等分して得られる3つの分位のうち、1つめ の値と3つめの値の差の半分を四分位偏差という。 ●
レンジ:10 - 0 = 10 ● 四分位偏差:(7 – 3)/2 = 2 レンジ、四分位偏差 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散 A: [0,3,3,5,5,5,5,7,7,10]
55.
● 平均偏差(mean deviation)とは、各観測値が平均 からどれだけ離れているかの平均のこと。 ●
データ の平均を とすると、 平均偏差は となる。 ● 分子では、単純に差 を足し合わせると符号 が打ち消しあって0になってしまうので、絶対値をと ることで正数にしてから足している。 平均偏差 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散
56.
● 平均偏差では、絶対値をとることで符号を消してい た。 ● 分散は、2乗をとることで符号を消す。つまり、 を分散と呼ぶ。 ●
絶対値が使われる平均偏差に比べて、数学的に 圧倒的に扱いやすい。 分散 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散
57.
● (わからない場合は混乱のもとになるので気にしなくて良いですが)分散S^2の単 位の次元は元の観測値と一致しないので、次元をそろえたい状況ではその平方 根を使う。 を標準偏差と呼ぶ。 標準偏差 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散
58.
● 相加平均、平均偏差、分散をそれぞれ計算してみ ましょう。 練習問題 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散 A: [0,3,3,5,5,5,5,7,7,10] B:
[0,1,2,3,5,5,7,8,9,10] C: [3,4,4,5,5,5,5,6,6,7] D: [5,5,5,5,5,5,5,5,5,5] E: [0,0,0,0,0,10,10,10,10,10]
59.
● 点数が-100点から100点の試験Aと、0点から100 点の試験Bで、平均点とか点数の分散を単純に比 較することに意味はあるか? ● 試験Aでの0点は、試験Bでの0点と同じ価値? ●
おそらく全然違う。 ● -100点と0点が、0点と50点が、100点と100点が対 応すると思われる。 ● 試験Aの得点xは試験Bでは(1/2)x +50? データの一次変換 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散
60.
● 適当な数a, bを使って、データ
の それぞれの値に対して と一次変換を施すと、平均、分散、標準偏差はそ れぞれ以下のように変換される。(証明してみま しょう) データの一次変換 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散
61.
● 与えられたデータに対して、適当な一次変換を施 すことで、平均を0に、標準偏差を1にすることがで きる。 ● 具体的には、データの平均を
, 標準偏差を と すると、 と変換すればよい。 ● この変換を標準化と呼ぶ。 標準化 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散
62.
● 標準化されたデータに対して、さらに一次変換 ● を施したものが偏差値得点である。 ●
つまり、試験の得点を、平均が50点、標準偏差が 10点となるように変換したものである。 ● z_i, T_iはそれぞれZ得点、T得点と呼ばれることも ある。(この記述は教科書にありましたが、ほかの 本で違う記述も見ました。どっちが正しいのか判断 できてません。注意) 偏差値 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散
63.
● 10人の学生がいる統計学のクラスで、試験の得点 が次のようだった場合、得点が最小の学生と最大 の学生の偏差値得点をそれぞれ計算してみましょ う。(きれいな数字にはなりません) A: [10,
20, 30, 40, 50, 60, 70, 80, 90, 100] B: [0, 0, 10, 20, 50, 50, 80, 90, 100, 100] C: [0, 0, 0, 0, 0, 0, 0, 0, 0, 100] 練習問題 イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散
64.
● 今日話したことは、たぶん50年後には常識になっ ています。 ● この機会に、統計学に興味を持っていただければ 幸いです。 おわり イントロダクション ● 1次元のデータ ● 2次元のデータ データの次元 グラフ 代表値 分散
Download now