SlideShare a Scribd company logo
1 of 64
Download to read offline
イントロダクション
2015/01/24
●
各章のタイトルがここに入ります その章の中のどのあたりにいるかがここに入ります
西 航
統計学超入門
● 西 航 (にし わたる)
● 興味:
  数学(ふつうの人よりは慣れてる)
  プログラミング(最近勉強をサボり気味)
  ジョジョ(そんなにディープではない)
  ドラクエ(最近は触れていませんでしたが、年末年
        始に4を遊んで、クリアできました)
  ビール(お金が飛んでいきます)
各章のタイトルがここに入ります その章の中のどのあたりにいるかがここに入ります
自己紹介
● 最近統計学を勉強し始めて、これは人類の常識に
なるべき知識だと思いました。
● とりあえず、職場で勉強会をやることにしました。
● 思いのほかちゃんと準備しないといけない雰囲気
になったので、スライドを作ることにしました。
イントロダクション
●
1次元のデータ
●
2次元のデータ
パン屋さんのおはなし
統計学って何?
このスライドの目的
● イントロダクション
- パン屋さんのおはなし
- 統計学って何?
● 1次元のデータ
- グラフ
- 平均
- 分散
● 2次元のデータ(時間がなくて諦めました)
イントロダクション
●
1次元のデータ
●
2次元のデータ
パン屋さんのおはなし
統計学って何?
本日の予定
● まくら代わりのお話
● 統計学者がパン屋さんの不正を暴く話
● たぶん有名な話ですが、たぶん実話ではないです
本題の前に
イントロダクション
●
1次元のデータ
●
2次元のデータ
パン屋さんのおはなし
統計学って何?
● むかしむかし、あるところに、食料が大変貴重で、
配給制になっている国がありました。
● ある町のパン屋では、国から小麦をもらい、パンを
焼き、町中の人に毎日ちょうど100gのパンを宅配
することになっていました。
第1話 悪いパン屋
イントロダクション
●
1次元のデータ
●
2次元のデータ
パン屋さんのおはなし
統計学って何?
● ところが最近、実際に配給されるパンは100gよりも
軽いようだという噂が町に流れていました。
● ある日、ある住民がパンの重さをはかると、98gし
かありませんでした。
● たった2gの差ですが、もし町中のパンが規定より
2g軽いとすれば、パン屋が国からもらった小麦のう
ち、そう少なくない量がどこかへ消えていることにな
ります。
疑惑のパン屋
イントロダクション
●
1次元のデータ
●
2次元のデータ
パン屋さんのおはなし
統計学って何?
● 住民は、パン屋が不当に私腹を肥やしていると思
い、抗議をしました。
老獪なパン屋
イントロダクション
●
1次元のデータ
●
2次元のデータ
パン屋さんのおはなし
統計学って何?
● パン屋はクレームに対して、「それはばらつきによ
るもので、当然100gより軽くなってしまうこともあれ
ば、それよりも重くなることもある。100gぴったりに
パンを焼くことは不可能だ」と言いました。
● 確かに、毎回100gぴったりにパンを焼くことは不可
能に思えます。住民はまだ内心では納得できませ
んでしたが、意見を取り下げざるを得ませんでし
た。
老獪なパン屋
イントロダクション
●
1次元のデータ
●
2次元のデータ
パン屋さんのおはなし
統計学って何?
● その日住民は眠れず、朝になるまで考えました。
● パン屋の言うことは正しいように思えますが、何か
が納得できません。
● 翌日になって、住民はたまたま町に住んでいた統
計学者に相談することにしました。
第2話 確率論
Karl Pearson(1857 - 1936)
イントロダクション
●
1次元のデータ
●
2次元のデータ
パン屋さんのおはなし
統計学って何?
● 統計学者は話を聞いて、この件について住民に代
わって調査することにしました。
● 統計学者は、その日から100日間のパンの重さを
記録し、パンが100gより重い日と軽い日がそれぞ
れ何回あったかを数えました。
● パンの重さが100gを超えたのは30回、超えなかっ
たのは70回でした。
データを集める
イントロダクション
●
1次元のデータ
●
2次元のデータ
パン屋さんのおはなし
統計学って何?
● 100gより重いパン、軽いパンがそれぞれ同じ数だ
けあると仮定する。すると、
(今は分からなくても良いですが)中心極限定理より、100gより重いパンの個数をSとすると、S 30≦ で
ある確率は、標準正規分布に従う確率変数が3以上の値をとる確率で近似できる。このことから、
届けられる100個のパンのうち、100gより重いパン
が30個以下である確率は、0.2%以下である。
● これは、偶然とは考えづらい低い確率である。
(いわゆる「3シグマ範囲」の境界)
確率を計算する
イントロダクション
●
1次元のデータ
●
2次元のデータ
パン屋さんのおはなし
統計学って何?
● 統計学者がこのことをパン屋に指摘すると、パン屋
は不正を認め、パンの重さを適正なものにすること
を約束しました。
● その日以降も統計学者はパンの重さを記録
し、100gを超える回数と超えない回数がおおむね
等しくなることを確認しました。
罪を認めたパン屋
第1話 悪いパン屋
第2話 確率論
第3話 統計学
イントロダクション
●
1次元のデータ
●
2次元のデータ
パン屋さんのおはなし
統計学って何?
● ところがまたある日、統計学者は同様のクレームを
耳にするようになりました。
● パンの重さをチェックし続けていた統計学者は不思
議に思いましたが、町の噂で次のようなことを聞き
ました。
●
それは、パン屋の焼くパンは今までと全く変わらな
い品質のもので、統計学者の家にだけ、一定の重
さを超えたパンを届けている、というものでした。
● 統計学者は、この説を検証することにしました。
第3話 統計学
イントロダクション
●
1次元のデータ
●
2次元のデータ
パン屋さんのおはなし
統計学って何?
● パン屋に不正の指摘をする前に統計学者の家に
届けられていたパンの重さの分布
● 最初の100日間
イントロダクション
●
1次元のデータ
●
2次元のデータ
パン屋さんのおはなし
統計学って何?
● パン屋に不正の指摘をした後に統計学者の家に
届けられたパンの重さの分布
次の100日間
イントロダクション
●
1次元のデータ
●
2次元のデータ
パン屋さんのおはなし
統計学って何?
● まさに噂に聞いた通り、「ある一定の重さに満たな
いパンを切り捨てている」(一定以上のものを意図
的に選んでいる)ような形の分布になっている。
● 依然として98gがピークになっており、100gのパン
を焼こうとしているとはとても思えない。
● パン屋は不正を改めていない。
分析
イントロダクション
●
1次元のデータ
●
2次元のデータ
パン屋さんのおはなし
統計学って何?
● 統計学者は、これらのデータを証拠として国に提出
しました。
● パン屋は逮捕され、その町では別のパン屋が営業
を始めることになりました。
● その後の警察の調べで、パン屋は小麦粉を闇市に
流していたことが判明しました。
● めでたしめでたし
パン屋の最期
イントロダクション
●
1次元のデータ
●
2次元のデータ
パン屋さんのおはなし
統計学って何?
● パン屋がもう少し賢ければ、統計学者の家には
100gを中心とした分布になるようにパンを届けて
いたかもしれない。
● というかそもそも、指摘されただけで済んだ時点で
不正をやめたかもしれない。
● 紹介した分布のグラフは、描き方がまずい。今回
は連続的な曲線としてグラフを描けるほどのサンプ
ルを集めていない。
補足
イントロダクション
●
1次元のデータ
●
2次元のデータ
パン屋さんのおはなし
統計学って何?
● 辞書的な意味
● 統計データの分析プロセス
● 統計のウソ
● この勉強会でやること
統計学って何?
イントロダクション
●
1次元のデータ
●
2次元のデータ
パン屋さんのおはなし
統計学って何?
● "statistics"の意味はだんだん変化してきた。
● 最初は”state” つまり国に関するデータのことを指
していた。
● のちに、あらゆる種類の情報を集めたものを指す
ようになった。
● さらに後には、そのようなデータに対する説明や解
析のことを指すようにもなった。
統計学(statistics)とは
イントロダクション
●
1次元のデータ
●
2次元のデータ
パン屋さんのおはなし
統計学って何?
● 今日では、「情報を集めたもの」、「集められた情報
に対する解釈、解析などの活動」の両方を指すよう
になっている。
● 日本語では、「統計」と言えば前者に、「統計学」と
言えば後者に近いものを指す。
今日での使われ方
イントロダクション
●
1次元のデータ
●
2次元のデータ
パン屋さんのおはなし
統計学って何?
● 統計学の理論には、記述統計学と呼ばれるもの
と、推測統計学と呼ばれるものがある。
● 記述統計学は、得られたデータの統計量(要約統
計量)を計算したり、グラフを書いたりして、規則性
や法則を見出す。
●
推測統計学は、確率論という数学の理論を使っ
て、得られた一部のデータから全体の特徴や性質
を推測する。
● それぞれ独立しているわけではない。推測統計学
は記述統計学を土台としている。
二つの統計学
イントロダクション
●
1次元のデータ
●
2次元のデータ
パン屋さんのおはなし
統計学って何?
● 何をするのか考える
● データを集める
● 解析する
● 表現する
統計データの分析プロセス
イントロダクション
●
1次元のデータ
●
2次元のデータ
パン屋さんのおはなし
統計学って何?
● 「むやみにデータを集めて、とりあえず統計学の公
式に当てはめる」では、あまり意味がない。(教科
書には「何の意味もない」って書いてありました)
● 何を確かめるために、何を調査するために、どんな
データをどんな手法で解析する必要があるのか?
●
仮説を構築することで、分析の対象を明らかにして
から初めて、データが必要となる。
何をするのか考える
イントロダクション
●
1次元のデータ
●
2次元のデータ
パン屋さんのおはなし
統計学って何?
● 行政機関や研究機関等の第三者が行った調査結
果をデータとして利用する場合には、多くの場合原
データは手に入らず、何らかの統計処理を施した
結果が分析対象となる。
● 必要なデータがもともと存在しない場合には、自然
科学の分野では「実験」、人文・社会科学の分野で
は「調査」と呼ばれる作業が必要となる。
データを集める
イントロダクション
●
1次元のデータ
●
2次元のデータ
パン屋さんのおはなし
統計学って何?
● 現代では、具体的な計算・解析を人間が直接行う
ことは少ない。
● 統計計算用ソフトウェアが数多く存在し、ほとんど
人の手を使わずに統計計算が実行できる。
● R言語、 GNU Octave など。
●
ただし、コンピュータにできるのはあくまで計算で
あって、どのような計算をするか選んだり、計算の
結果を分析することはできない。
解析する
イントロダクション
●
1次元のデータ
●
2次元のデータ
パン屋さんのおはなし
統計学って何?
● 計算された結果を解釈し、それを
適切に表現する方法を考える。
● グラフの書き方で、見る者に全く
逆の印象を与えることもできる。
● 表現方法は慎重に選ばれる必
要がある。
表現する
イントロダクション
●
1次元のデータ
●
2次元のデータ
パン屋さんのおはなし
統計学って何?
統計のウソ
イントロダクション
●
1次元のデータ
●
2次元のデータ
パン屋さんのおはなし
統計学って何?
● 統計学を使うと、ウソをつきやすい?
● 「統計学に基づく」と言えば信憑性がある?
● 統計がウソつきであるという場合、統計手法、デー
タの集め方、結果の表現のどれかが適切でないこ
とが多い。
● 統計データを分析するときは、正しいデータを、正
しい手法で解析して、正しく表現しましょう。
● 逆に、分析された統計データを見るときは、どんな
データを、どんな手法で解析した結果が、どう表現
されているのか気にするようにしましょう。
● 統計的に分析された結果を正しく理解することは、
現代社会で生活するうえで必須。
● 結果を理解するには、結果が出るに至った方法に
ついての知識が必要。
● 知識をつける第1ステップとして、単語を紹介するく
らいのことができればいいな。
●
結果を理解するだけでなく、分析できるようになれ
ば仕事にも使えるかも?
● 学校の授業のような一般的なクラスでは、推定と
仮説検定の理解がゴール?
この勉強会でやること
イントロダクション
●
1次元のデータ
●
2次元のデータ
パン屋さんのおはなし
統計学って何?
● データの次元
● グラフ(ヒストグラム)
● 平均(代表値)
● 分散(一次変換、偏差値)
1次元のデータ
イントロダクション
●
1次元のデータ
●
2次元のデータ
データの次元
グラフ
平均
分散
● 次元って何?
● 1次元は線、2次元は面、3次元では縦と横と高さが
あって、4次元は3次元+時間?
● そういう話ではない。
● たぶん言葉で抽象的に説明するよりは、例を挙げ
たほうがわかりやすい。
データの次元
イントロダクション
●
1次元のデータ
●
2次元のデータ
データの次元
グラフ
平均
分散
● 15人の学生の身長
1次元のデータの例
イントロダクション
●
1次元のデータ
●
2次元のデータ
データの次元
グラフ
平均
分散
学生 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
身長
(cm)
178 165 168 152 175 175 165 162 164 170 169 155 153 162 168
● それぞれの人から1種類のデータ(身長)を得てい
るので、このデータは1次元。
● 15人の学生の身長と体重
2次元のデータの例
イントロダクション
●
1次元のデータ
●
2次元のデータ
データの次元
グラフ
平均
分散
学生 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
身長
(cm)
178 165 168 152 175 175 165 162 164 170 169 155 153 162 168
体重
(kg)
63 62 69 41 71 61 62 48 52 55 69 48 44 49 69
● それぞれの人から2種類のデータ(身長と体重)を
得ているので、このデータは2次元。
● 15人の学生の身長と体重と性別
3次元のデータの例
イントロダクション
●
1次元のデータ
●
2次元のデータ
データの次元
グラフ
平均
分散
学生 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
身長
(cm)
178 165 168 152 175 175 165 162 164 170 169 155 153 162 168
体重
(kg)
63 62 69 41 71 61 62 48 52 55 69 48 44 49 69
性別 男 男 男 女 男 男 男 女 女 男 男 女 女 女 男
● それぞれの人から3種類のデータ(身長と体重と性
別)を得ているので、このデータは3次元。
● 次元というのは、ただこれだけ。
● もう少し抽象的に言えば、「各個体から得られるパ
ラメータの数」が次元。
● 100個の項目のアンケートによる調査があったら、
得られるのは100次元のデータ。
次元なんて怖くない
イントロダクション
●
1次元のデータ
●
2次元のデータ
データの次元
グラフ
平均
分散
● 1次元のデータに対して、2次元以上のデータのこ
とを多次元のデータと呼ぶ。
● 多次元の場合では、個々のパラメータの解析だけ
でなく、パラメータ間の相互関係の分析も重要にな
る。
● たとえば、身長の分布と体重の分布を別々に考え
るよりも、身長と体重の関係を考えるほうが、より
意味のある結論が得られると思われる。
多次元とは
イントロダクション
●
1次元のデータ
●
2次元のデータ
データの次元
グラフ
平均
分散
● 調査や実験によって観測値が得られたとき、分析
の第一歩として、表や図にすることから始める場合
が多い。
● いきなり計算を始めるよりも、全体の分布の状況が
明らかになりやすいため。
● なかでも、1次元のデータでは、ヒストグラム
(histogram) または柱状グラフと呼ばれるグラフを
描くことが多い。
グラフの書き方
イントロダクション
●
1次元のデータ
●
2次元のデータ
データの次元
グラフ
平均
分散
● 横軸には観測値の取りうる値をとる。
● 横軸を分割したそれぞれのエリアで、長方形の面
積と度数(そのエリアに入る個体の数)が一致する
ように高さを決める。
例:試験得点
イントロダクション
●
1次元のデータ
●
2次元のデータ
データの次元
グラフ
平均
分散
● このように各エリアで幅が著しく異なる場合、幅を
一定にして、柱同士を離して描くほうが見やすい。
例:従業員規模別事業所数
イントロダクション
●
1次元のデータ
●
2次元のデータ
データの次元
グラフ
平均
分散
出典:平成18年事業所・企業統計調査(総務省統計局)
● データには連続型のものと離散型のものがある。
● 血液型や性別、1世帯の人数のような離散型の
データの場合、ヒストグラムでは柱を離して描く。
● 身長や体重のような連続型のデータの場合、ヒスト
グラムでは柱を分離せずに描く。
●
ただし、離散型のデータでも所得や試験の得点の
ように、取りうる値が十分多く、近似的に連続型と
みなせる場合もある。
● 逆に、連続型のデータでも、それぞれの柱で幅が
著しく異なる場合、離散型とみなすことが多い。
柱を離す場合と離さない場合
イントロダクション
●
1次元のデータ
●
2次元のデータ
データの次元
グラフ
平均
分散
● 統計量とは、一連のデータに何らかの処理(統計
学的なアルゴリズム)を施して得られる数値のこと
である。
● たとえば、平均、中央値、分散、標準偏差といった
ものが統計量である。
●
順に説明していく。
統計量
イントロダクション
●
1次元のデータ
●
2次元のデータ
データの次元
グラフ
代表値
分散
代表値
● 代表値 (averages)とは、統計量の中でも分布を代
表する値のことである。
● 代表的な代表値には、平均、中央値、最頻値など
がある。
イントロダクション
●
1次元のデータ
●
2次元のデータ
データの次元
グラフ
代表値
分散
● 5科目の試験の得点がそれぞれ100点満点中50
点、60点、70点、80点、90点でした。平均得点は
何点でしょう?
● 5年間の経済成長率が、年間でそれぞれ0%,
10%, 20%, 30%, 40%でした。平均成長率は何%
でしょう?
● 500メートル走を実施して、各100メートル間でのス
ピードはそれぞれ5m/s, 6m/s, 7m/s, 8m/s, 9m/s
でした。平均速度は何m/sでしょう?
「平均」計算できますか?
イントロダクション
●
1次元のデータ
●
2次元のデータ
データの次元
グラフ
代表値
分散
● 5科目の試験の得点がそれぞれ100点満点中50
点、60点、70点、80点、90点でした。平均得点は
何点でしょう?
● 答え:70点
得点の平均
イントロダクション
●
1次元のデータ
●
2次元のデータ
データの次元
グラフ
代表値
分散
● 5年間の経済成長率が、年間でそれぞれ0%, 10%,
20%, 30%, 40%でした。平均成長率は何%でしょう?
● 答え:約19%
● 5年間で(1*1.1*1.2*1.3*1.4)倍になるので、1年間あ
たりの成長率はその5乗根。
● (ここに図を入れたい(1.2倍ずつに増えるとこうなっ
ちゃうよ的な))
成長率の平均
イントロダクション
●
1次元のデータ
●
2次元のデータ
データの次元
グラフ
代表値
分散
● 500メートル走を実施して、各100メートル間でのス
ピードはそれぞれ5m/s, 6m/s, 7m/s, 8m/s, 9m/s
でした。平均速度は何m/sでしょう?
● 答え:約6.7m/s
速度の平均
イントロダクション
●
1次元のデータ
●
2次元のデータ
データの次元
グラフ
代表値
分散
速度の平均は、逆数の平均の逆数。
●
平均と一口に言っても、いろんな平均がある。
●
相加平均(算術平均)
- 全部足して個数で割る
●
相乗平均(幾何平均)
- 全部かけてn乗根をとる
● 調和平均
- 逆数の相加平均の逆数
●
状況に応じて、適切な平均をとりましょう。
● 単に「平均」と言ったら、ふつうは相加平均。
平均といえばふつうは相加平均ですが
イントロダクション
●
1次元のデータ
●
2次元のデータ
データの次元
グラフ
代表値
分散
● もちろん、平均以外にも代表値は存在する。
● 中央値は、データを小さいほうから順に並べたとき
に中央にくる値のことである。
データ[1, 1, 1, 1, 2, 3, 4, 4, 100]のように、一部の
個体が他と比べて著しく大きい、または小さい場合
に、代表値として平均よりは優れていると思われ
る。
● 人口1万人の町にビルゲイツが引っ越してきたとし
て、町民の収入の代表値に「平均」が使えるか?
● 使えない。
中央値(メディアン)
イントロダクション
●
1次元のデータ
●
2次元のデータ
データの次元
グラフ
代表値
分散
● データの中でもっとも多い値のことを、最頻値(モー
ド)と呼ぶ。
● データの取りうる値をいくつかのエリアに分けたと
きは、そのエリアを代表する値(階級値)を使う。
最頻値(モード)
イントロダクション
●
1次元のデータ
●
2次元のデータ
データの次元
グラフ
代表値
分散
この場合は55がモード
● 平均(mean)
● 中央値(median)
● 最頻値(mode)
● それぞれに特性があって、それぞれに使いどころ
がある。
代表的な代表値
イントロダクション
●
1次元のデータ
●
2次元のデータ
データの次元
グラフ
代表値
分散
http://www.digitaltonto.com/2012
/its-the-math-stupid/
より引用
(ググったら見つけた)
● 以下の3つのデータでは、平均、中央値、最頻値が
すべて等しい。(どれも5)
● A: [0,3,3,5,5,5,5,7,7,10]
● B: [0,1,2,3,5,5,7,8,9,10]
● C: [3,4,4,5,5,5,5,6,6,7]
● では、これらのデータの違いは何か?
散らばり具合の尺度
イントロダクション
●
1次元のデータ
●
2次元のデータ
データの次元
グラフ
代表値
分散
●
分布の「ちらばり具合」が違う。
● CはA,Bに比べて、中央に固まって分布している。
● AとBも、比べるとAのほうがとがって分布している。
散らばり具合の尺度
イントロダクション
●
1次元のデータ
●
2次元のデータ
データの次元
グラフ
代表値
分散
A: [0,3,3,5,5,5,5,7,7,10]
B: [0,1,2,3,5,5,7,8,9,10]
C: [3,4,4,5,5,5,5,6,6,7]
● 分布の最大値と最小値の差をレンジという。
● 分布を4等分して得られる3つの分位のうち、1つめ
の値と3つめの値の差の半分を四分位偏差という。
● レンジ:10 - 0 = 10
● 四分位偏差:(7 – 3)/2 = 2
レンジ、四分位偏差
イントロダクション
●
1次元のデータ
●
2次元のデータ
データの次元
グラフ
代表値
分散
A: [0,3,3,5,5,5,5,7,7,10]
● 平均偏差(mean deviation)とは、各観測値が平均
からどれだけ離れているかの平均のこと。
● データ           の平均を   とすると、
平均偏差は
となる。
● 分子では、単純に差    を足し合わせると符号
が打ち消しあって0になってしまうので、絶対値をと
ることで正数にしてから足している。
平均偏差
イントロダクション
●
1次元のデータ
●
2次元のデータ
データの次元
グラフ
代表値
分散
● 平均偏差では、絶対値をとることで符号を消してい
た。
● 分散は、2乗をとることで符号を消す。つまり、
を分散と呼ぶ。
● 絶対値が使われる平均偏差に比べて、数学的に
圧倒的に扱いやすい。
分散
イントロダクション
●
1次元のデータ
●
2次元のデータ
データの次元
グラフ
代表値
分散
● (わからない場合は混乱のもとになるので気にしなくて良いですが)分散S^2の単
位の次元は元の観測値と一致しないので、次元をそろえたい状況ではその平方
根を使う。
を標準偏差と呼ぶ。
標準偏差
イントロダクション
●
1次元のデータ
●
2次元のデータ
データの次元
グラフ
代表値
分散
● 相加平均、平均偏差、分散をそれぞれ計算してみ
ましょう。
練習問題
イントロダクション
●
1次元のデータ
●
2次元のデータ
データの次元
グラフ
代表値
分散
A: [0,3,3,5,5,5,5,7,7,10]
B: [0,1,2,3,5,5,7,8,9,10]
C: [3,4,4,5,5,5,5,6,6,7]
D: [5,5,5,5,5,5,5,5,5,5]
E: [0,0,0,0,0,10,10,10,10,10]
● 点数が-100点から100点の試験Aと、0点から100
点の試験Bで、平均点とか点数の分散を単純に比
較することに意味はあるか?
● 試験Aでの0点は、試験Bでの0点と同じ価値?
● おそらく全然違う。
● -100点と0点が、0点と50点が、100点と100点が対
応すると思われる。
● 試験Aの得点xは試験Bでは(1/2)x +50?
データの一次変換
イントロダクション
●
1次元のデータ
●
2次元のデータ
データの次元
グラフ
代表値
分散
● 適当な数a, bを使って、データ           の
それぞれの値に対して
と一次変換を施すと、平均、分散、標準偏差はそ
れぞれ以下のように変換される。(証明してみま
しょう)
データの一次変換
イントロダクション
●
1次元のデータ
●
2次元のデータ
データの次元
グラフ
代表値
分散
● 与えられたデータに対して、適当な一次変換を施
すことで、平均を0に、標準偏差を1にすることがで
きる。
● 具体的には、データの平均を  , 標準偏差を  と
すると、
と変換すればよい。
●
この変換を標準化と呼ぶ。
標準化
イントロダクション
●
1次元のデータ
●
2次元のデータ
データの次元
グラフ
代表値
分散
● 標準化されたデータに対して、さらに一次変換
● を施したものが偏差値得点である。
● つまり、試験の得点を、平均が50点、標準偏差が
10点となるように変換したものである。
● z_i, T_iはそれぞれZ得点、T得点と呼ばれることも
ある。(この記述は教科書にありましたが、ほかの
本で違う記述も見ました。どっちが正しいのか判断
できてません。注意)
偏差値
イントロダクション
●
1次元のデータ
●
2次元のデータ
データの次元
グラフ
代表値
分散
● 10人の学生がいる統計学のクラスで、試験の得点
が次のようだった場合、得点が最小の学生と最大
の学生の偏差値得点をそれぞれ計算してみましょ
う。(きれいな数字にはなりません)
A: [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]
B: [0, 0, 10, 20, 50, 50, 80, 90, 100, 100]
C: [0, 0, 0, 0, 0, 0, 0, 0, 0, 100]
練習問題
イントロダクション
●
1次元のデータ
●
2次元のデータ
データの次元
グラフ
代表値
分散
● 今日話したことは、たぶん50年後には常識になっ
ています。
● この機会に、統計学に興味を持っていただければ
幸いです。
おわり
イントロダクション
●
1次元のデータ
●
2次元のデータ
データの次元
グラフ
代表値
分散

More Related Content

Featured

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...DevGAMM Conference
 

Featured (20)

Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 

統計学超入門 アップロード用