SlideShare a Scribd company logo
1 of 11
有意差の検出と信頼区間の構成
— R言語による簡便な計算法 —
2015.03.02 T.S.
「差があるのかどうなのか?」という問題に答えることは、
そんなに簡単なことではありません。
ここでは様々な場面で数値が現れた時に即座に使える
R言語などを使った計算の方法を説明します。
1
初めの断り書き
気にしない人に取っては、ここの断り書きはあまり重要でないかもしれませ
ん。しかし、本文書の立場をはっきりさせるための但し書きをこのページに記
すこととします。
• 本文書では、統計学の基本的な考え方である、有意性検定や仮説検定の考え方を用います。
• それに従って、有意性がある/なしを判断したり、信頼区間を構成します。
• 検定のp値は0.05, 信頼区間は95%信頼区間を用います。
• この文書では、尤度比を考えて判断をしたり、ベイズ統計学の考え方は用いません。それでも、そ
の考え方を用いて、本文書の内容を発展させることは有意義なことです。
• 本文書は、「問題設定」に対して、それ以上の背後の状況などは考えません。やや不自然かもしれませ
んが、あえてそういう最小限の情報から、数について算出する方法を説明します。
• 説明を簡潔にするため、あえて専門用語を多用します。意味はご自身でお調べください。途中の考え方
も細かいところは説明しません。自分で考えて、何か間違いがあればご報告して頂くことは歓迎します。
2
本文書のねらい
• 日常生活や社会生活で、やや遭遇する機会の多い基本
的な、統計の数の問題を、扱います。
• その中でも、R言語で即座に算出できる問題を扱います。
– これは必要なときにすぐ使えるノウハウこそ、まとめておくこと
が大事と考えるためです。
– 電車の中でも計算できる位に簡単なノウハウを目指しました。
• 3桁(100〜999)程度の数でも、有意差がなかなか出ないこ
とがあることを知るのも、数の感覚として大事なことだと、
本文書作成者は考えています。
3
R言語に関して
• R言語は、インターネット上で検索して、(英語
のサイトですが)非常に簡単にインストール出
来ます。 Windows, Mac, Linux を問いません。
• 次ページ以降に表示されるコマンドの使い方
が分からなければ、? command のように
? に続けてコマンド名を入力することで、
詳細なヘルプが得られます。
4
2個の数に違いはあるか?
設定 ある商品を売り出したら、男性が515個、女性が459個購入してくれた。
売れ具合に男女差があると考えて良いか?
R言語での計算法 : binom.test を使う。
結論 : p値は 0.07796 > 0.05 であり、有意差は無い。
男女比の信頼区間は [ 0.987 , 1.275] になる。
例-1
5
2個のオッズに違いはあるか?
例「2商品の売れ方に男女差はあるか?」
設定 ある2商品を売り出したら、商品AとBは、それぞれ男性に131個と95個、
女性に120個と65個売れた。商品間の売れ行きで男女差はあるか?
R言語での計算法 : fisher.test を使う。
近似値で良い場合はchisq.testを使う。
結論 : p値は 0.1565 > 0.05 であり、有意差は無い。
オッズ比の信頼区間は [ 0.489 , 1.137] になる。
例-2
6
商品の売り上がる効率の推定
例「ある日の売上げが25個だった」
設定 ある商品のある日の売上げを担当者に聞いたら、25個であった。
一日当たりの売上がる個数の母平均の信頼区間は?
R言語での計算法 : poisson.test を使う。
結論 : 母数の信頼区間は [ 16.17, 36.90 ] になる。
ポアソン分布に従う変数の標準偏差は母平均 λ の平方根 λ1/2 に等しいで
す。信頼区間は [ λ-2λ1/2 , λ+2λ1/2 ] にほぼ等しいことは注目すべきことです。
例-3
7
中央値の信頼区間の構成をしたい。
例「毎日の売上げデータから毎月の様子を知りたい」
設定 ある商品の毎日のデータから、月ごとに1日の売れ行きの中央値の信
頼区間を構成したい。
Rによる計算法 : qbinom(1/40,c(28,29,30,31),1/2)による数値を使う。
結論 :
各月の、毎日の売上げデータ28〜31個を並べ、小さい順に並べる。
そして、2月は両端から9番目の値を信頼区間の上下限とする。それ以外の
月は両端から10番目の値を信頼区間の上下限とする。
この方法を採用すると、5個以下のデータからは中央値の信頼区間は構成できず、6〜8個の
データの場合は、データの最大値と最小値が信頼区間の上下限に一致することは、注目に値
する。
例-4
8
2個のオッズ比に違いはあるか?
例「2個のキャンペーンで新商品への誘導効果に差はあったか?」
設定 古い商品を購入している客を減らして、新しい商品へ移行させたい。
2個のキャンペーンを行った。効果に違いはあっただろうか?
計算法 : ワルド検定の考え方を使う
対数オッズ比とその分散を計算する。
対数オッズ比は θ= log ad/bc
その分散は s2=a-1+b-1+c-1+d-1 である。
(変数は右の図を参照)
z:= (θ1-θ2) / (s1
2+s2
2)1/2 に対して
Rでpnorm(z) の値が[0.025,0.975] の
の外にあれば、有意差ありとする。
ちなみに、右上のような図のことをモザイクプロットと呼ぶ。
なお、「オッズ odds 」と「オッズ比 odds ratio」は違う概念である。
例-5
9
キャンペーン 1
の前後の様子
キャンペーン 2
の前後の様子
a1
b1
c1
d1
a2
b2
c2
d2
4個の四角で構成されるブロックの上側が古い商品、
下側が新商品。左側がキャンペーン前、右側がキャ
ンペーン後。四角の面積が売れ行きに比例する。
この計算法についてはもっと良い
方法があるかもしれません。
付け加え
• 5% = 0.05 の有意水準で、有意差が無かった場
合、それでも「違いがある」と言いたい場合には、
他に十分説得力のある根拠が必要です。
– 観察対象となった標本から取り出した属性が適切で
なかったかもしれません。
– 観測が足りなかったのかもしれません。
– 一般的には、信頼区間の幅が標本サイズの平方根
に反比例して縮むことを用いて、必要なサイズを大雑
把に見積もることが可能です。
10
その他忘れざるべきこと
• 両側検定なのか、片側検定なのか考えること。
• あらかじめ計画立てて、必要観測数を見積もることも重要で
その場合は pwrパッケージのコマンドを使うこと。
• (無)相関についての検定には、cor.testが使えること。
• ちゃんと統計学を学ぶこと。
– 数理的なこともそうで無いことも大事であること。
– t検定やマンホイットニーのU検定は基礎である。
– スコア検定など知っておくべきこと。
– フィッシャーと、ネイマン/ピアソンの間の論争は解決していないこと。多分。
– それだけではないこと。
– 学術レベルの論文でも、統計学的観点から怪しいものがあれば、
それを見破る目を持つべきこと。
11

More Related Content

What's hot

StanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータStanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータMiki Katsuragi
 
トピックモデルの基礎と応用
トピックモデルの基礎と応用トピックモデルの基礎と応用
トピックモデルの基礎と応用Tomonari Masada
 
Theory to consider an inaccurate testing and how to determine the prior proba...
Theory to consider an inaccurate testing and how to determine the prior proba...Theory to consider an inaccurate testing and how to determine the prior proba...
Theory to consider an inaccurate testing and how to determine the prior proba...Toshiyuki Shimono
 
充足可能性問題のいろいろ
充足可能性問題のいろいろ充足可能性問題のいろいろ
充足可能性問題のいろいろHiroshi Yamashita
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究についてMasahiro Suzuki
 
連続時間フラクショナル・トピックモデル(NLP2023 金融・経済ドメインのための言語処理)
連続時間フラクショナル・トピックモデル(NLP2023 金融・経済ドメインのための言語処理)連続時間フラクショナル・トピックモデル(NLP2023 金融・経済ドメインのための言語処理)
連続時間フラクショナル・トピックモデル(NLP2023 金融・経済ドメインのための言語処理)Kei Nakagawa
 
20170422 数学カフェ Part2
20170422 数学カフェ Part220170422 数学カフェ Part2
20170422 数学カフェ Part2Kenta Oono
 
5分でわかるかもしれないglmnet
5分でわかるかもしれないglmnet5分でわかるかもしれないglmnet
5分でわかるかもしれないglmnetNagi Teramo
 
2 7.一般化線形混合モデル
2 7.一般化線形混合モデル2 7.一般化線形混合モデル
2 7.一般化線形混合モデルlogics-of-blue
 
馬に蹴られるモデリング
馬に蹴られるモデリング馬に蹴られるモデリング
馬に蹴られるモデリングShushi Namba
 
機械学習工学の進展と課題 2021
機械学習工学の進展と課題 2021機械学習工学の進展と課題 2021
機械学習工学の進展と課題 2021Fuyuki Ishikawa
 
技術者が知るべき Gröbner 基底
技術者が知るべき Gröbner 基底技術者が知るべき Gröbner 基底
技術者が知るべき Gröbner 基底Hiromi Ishii
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門Kawamoto_Kazuhiko
 
社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森Masashi Komori
 
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習Masahiro Suzuki
 
実践コンピュータビジョン 3章 画像間の写像
実践コンピュータビジョン 3章 画像間の写像実践コンピュータビジョン 3章 画像間の写像
実践コンピュータビジョン 3章 画像間の写像yaju88
 

What's hot (20)

正準相関分析
正準相関分析正準相関分析
正準相関分析
 
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータStanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
 
最低6回は見よ
最低6回は見よ最低6回は見よ
最低6回は見よ
 
トピックモデルの基礎と応用
トピックモデルの基礎と応用トピックモデルの基礎と応用
トピックモデルの基礎と応用
 
Theory to consider an inaccurate testing and how to determine the prior proba...
Theory to consider an inaccurate testing and how to determine the prior proba...Theory to consider an inaccurate testing and how to determine the prior proba...
Theory to consider an inaccurate testing and how to determine the prior proba...
 
充足可能性問題のいろいろ
充足可能性問題のいろいろ充足可能性問題のいろいろ
充足可能性問題のいろいろ
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
連続時間フラクショナル・トピックモデル(NLP2023 金融・経済ドメインのための言語処理)
連続時間フラクショナル・トピックモデル(NLP2023 金融・経済ドメインのための言語処理)連続時間フラクショナル・トピックモデル(NLP2023 金融・経済ドメインのための言語処理)
連続時間フラクショナル・トピックモデル(NLP2023 金融・経済ドメインのための言語処理)
 
20170422 数学カフェ Part2
20170422 数学カフェ Part220170422 数学カフェ Part2
20170422 数学カフェ Part2
 
5分でわかるかもしれないglmnet
5分でわかるかもしれないglmnet5分でわかるかもしれないglmnet
5分でわかるかもしれないglmnet
 
EMアルゴリズム
EMアルゴリズムEMアルゴリズム
EMアルゴリズム
 
線形計画法入門
線形計画法入門線形計画法入門
線形計画法入門
 
2 7.一般化線形混合モデル
2 7.一般化線形混合モデル2 7.一般化線形混合モデル
2 7.一般化線形混合モデル
 
馬に蹴られるモデリング
馬に蹴られるモデリング馬に蹴られるモデリング
馬に蹴られるモデリング
 
機械学習工学の進展と課題 2021
機械学習工学の進展と課題 2021機械学習工学の進展と課題 2021
機械学習工学の進展と課題 2021
 
技術者が知るべき Gröbner 基底
技術者が知るべき Gröbner 基底技術者が知るべき Gröbner 基底
技術者が知るべき Gröbner 基底
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森
 
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習
 
実践コンピュータビジョン 3章 画像間の写像
実践コンピュータビジョン 3章 画像間の写像実践コンピュータビジョン 3章 画像間の写像
実践コンピュータビジョン 3章 画像間の写像
 

More from Toshiyuki Shimono

国際産業数理・応用数理会議のポスター(作成中)
国際産業数理・応用数理会議のポスター(作成中)国際産業数理・応用数理会議のポスター(作成中)
国際産業数理・応用数理会議のポスター(作成中)Toshiyuki Shimono
 
インターネット等からデータを自動収集するソフトウェアに必要な補助機能とその実装
インターネット等からデータを自動収集するソフトウェアに必要な補助機能とその実装インターネット等からデータを自動収集するソフトウェアに必要な補助機能とその実装
インターネット等からデータを自動収集するソフトウェアに必要な補助機能とその実装Toshiyuki Shimono
 
extracting only a necessary file from a zip file
extracting only a necessary file from a zip fileextracting only a necessary file from a zip file
extracting only a necessary file from a zip fileToshiyuki Shimono
 
A Hacking Toolset for Big Tabular Files -- JAPAN.PM 2021
A Hacking Toolset for Big Tabular Files -- JAPAN.PM 2021A Hacking Toolset for Big Tabular Files -- JAPAN.PM 2021
A Hacking Toolset for Big Tabular Files -- JAPAN.PM 2021Toshiyuki Shimono
 
新型コロナの感染者数 全国の状況 2021年2月上旬まで
新型コロナの感染者数 全国の状況 2021年2月上旬まで新型コロナの感染者数 全国の状況 2021年2月上旬まで
新型コロナの感染者数 全国の状況 2021年2月上旬までToshiyuki Shimono
 
Multiplicative Decompositions of Stochastic Distributions and Their Applicat...
 Multiplicative Decompositions of Stochastic Distributions and Their Applicat... Multiplicative Decompositions of Stochastic Distributions and Their Applicat...
Multiplicative Decompositions of Stochastic Distributions and Their Applicat...Toshiyuki Shimono
 
Interpreting Multiple Regression via an Ellipse Inscribed in a Square Extensi...
Interpreting Multiple Regressionvia an Ellipse Inscribed in a Square Extensi...Interpreting Multiple Regressionvia an Ellipse Inscribed in a Square Extensi...
Interpreting Multiple Regression via an Ellipse Inscribed in a Square Extensi...Toshiyuki Shimono
 
BigQueryを使ってみた(2018年2月)
BigQueryを使ってみた(2018年2月)BigQueryを使ってみた(2018年2月)
BigQueryを使ってみた(2018年2月)Toshiyuki Shimono
 
既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案
既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案
既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案Toshiyuki Shimono
 
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...Toshiyuki Shimono
 
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...Toshiyuki Shimono
 
Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)
Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)
Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)Toshiyuki Shimono
 
企業等に蓄積されたデータを分析するための処理機能の提案
企業等に蓄積されたデータを分析するための処理機能の提案企業等に蓄積されたデータを分析するための処理機能の提案
企業等に蓄積されたデータを分析するための処理機能の提案Toshiyuki Shimono
 
新入社員の頃に教えて欲しかったようなことなど
新入社員の頃に教えて欲しかったようなことなど新入社員の頃に教えて欲しかったようなことなど
新入社員の頃に教えて欲しかったようなことなどToshiyuki Shimono
 
ページャ lessを使いこなす
ページャ lessを使いこなすページャ lessを使いこなす
ページャ lessを使いこなすToshiyuki Shimono
 
Guiを使わないテキストデータ処理
Guiを使わないテキストデータ処理Guiを使わないテキストデータ処理
Guiを使わないテキストデータ処理Toshiyuki Shimono
 
データ全貌把握の方法170324
データ全貌把握の方法170324データ全貌把握の方法170324
データ全貌把握の方法170324Toshiyuki Shimono
 
Macで開発環境を整える170420
Macで開発環境を整える170420Macで開発環境を整える170420
Macで開発環境を整える170420Toshiyuki Shimono
 

More from Toshiyuki Shimono (20)

国際産業数理・応用数理会議のポスター(作成中)
国際産業数理・応用数理会議のポスター(作成中)国際産業数理・応用数理会議のポスター(作成中)
国際産業数理・応用数理会議のポスター(作成中)
 
インターネット等からデータを自動収集するソフトウェアに必要な補助機能とその実装
インターネット等からデータを自動収集するソフトウェアに必要な補助機能とその実装インターネット等からデータを自動収集するソフトウェアに必要な補助機能とその実装
インターネット等からデータを自動収集するソフトウェアに必要な補助機能とその実装
 
extracting only a necessary file from a zip file
extracting only a necessary file from a zip fileextracting only a necessary file from a zip file
extracting only a necessary file from a zip file
 
A Hacking Toolset for Big Tabular Files -- JAPAN.PM 2021
A Hacking Toolset for Big Tabular Files -- JAPAN.PM 2021A Hacking Toolset for Big Tabular Files -- JAPAN.PM 2021
A Hacking Toolset for Big Tabular Files -- JAPAN.PM 2021
 
新型コロナの感染者数 全国の状況 2021年2月上旬まで
新型コロナの感染者数 全国の状況 2021年2月上旬まで新型コロナの感染者数 全国の状況 2021年2月上旬まで
新型コロナの感染者数 全国の状況 2021年2月上旬まで
 
Multiplicative Decompositions of Stochastic Distributions and Their Applicat...
 Multiplicative Decompositions of Stochastic Distributions and Their Applicat... Multiplicative Decompositions of Stochastic Distributions and Their Applicat...
Multiplicative Decompositions of Stochastic Distributions and Their Applicat...
 
Interpreting Multiple Regression via an Ellipse Inscribed in a Square Extensi...
Interpreting Multiple Regressionvia an Ellipse Inscribed in a Square Extensi...Interpreting Multiple Regressionvia an Ellipse Inscribed in a Square Extensi...
Interpreting Multiple Regression via an Ellipse Inscribed in a Square Extensi...
 
Sqlgen190412.pdf
Sqlgen190412.pdfSqlgen190412.pdf
Sqlgen190412.pdf
 
BigQueryを使ってみた(2018年2月)
BigQueryを使ってみた(2018年2月)BigQueryを使ってみた(2018年2月)
BigQueryを使ってみた(2018年2月)
 
Seminar0917
Seminar0917Seminar0917
Seminar0917
 
既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案
既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案
既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案
 
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
 
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
 
Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)
Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)
Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)
 
企業等に蓄積されたデータを分析するための処理機能の提案
企業等に蓄積されたデータを分析するための処理機能の提案企業等に蓄積されたデータを分析するための処理機能の提案
企業等に蓄積されたデータを分析するための処理機能の提案
 
新入社員の頃に教えて欲しかったようなことなど
新入社員の頃に教えて欲しかったようなことなど新入社員の頃に教えて欲しかったようなことなど
新入社員の頃に教えて欲しかったようなことなど
 
ページャ lessを使いこなす
ページャ lessを使いこなすページャ lessを使いこなす
ページャ lessを使いこなす
 
Guiを使わないテキストデータ処理
Guiを使わないテキストデータ処理Guiを使わないテキストデータ処理
Guiを使わないテキストデータ処理
 
データ全貌把握の方法170324
データ全貌把握の方法170324データ全貌把握の方法170324
データ全貌把握の方法170324
 
Macで開発環境を整える170420
Macで開発環境を整える170420Macで開発環境を整える170420
Macで開発環境を整える170420
 

R言語による簡便な有意差の検出と信頼区間の構成