SlideShare a Scribd company logo
1 of 23
Download to read offline
DNAマイクロアレイの解析
と多重検定補正
東京理科大学 薬学研究科
薬科学専攻
露崎弘毅
DNAマイクロアレイの解析
mRNA
転写
翻訳,折りたたみ
…ATGCATCGTAGATGCTAGCATGCTAGTAGCT… ゲノム
mRNA
タンパク質
DNAマイクロアレイはこのmRNAを
定量的に計測する技術
⇒遺伝子の機能解析、遺伝子間相
互作用の解析等に利用
各種生体内機能
マイクロアレイとは
マイクロアレイ = 基盤上に何かを固定化させたもの
Micro:1/1000レベルに分割して
Array:並べたもの
DNAマイクロアレイ = DNAを基盤上に固定化
細胞マイクロアレイ = 細胞を基盤上に固定化
タンパク質マイクロアレイ
抗体アレイ
組織マイクロアレイ
化合物マイクロアレイ
…
DNAマイクロアレイの原理
生物の細胞からmRNAを抽出
ハイブリダイゼーション反応
各スポットにcDNAと相補的なプローブが並んだ基盤
ビオチン
アレイ解析の基礎
-5.6-4.2-5.54.44.45.3遺伝子3
5.15.34.45.35.56.5遺伝子1
2.12.41.34.40.41.5遺伝子30000
5.77.55.61.03.32.3遺伝子2
t3t2t1c3c2c1
1チップの値だけでは意味を為さず、必ず対照群 vs 処置群の比較がなされる
各統計手法(例:t検定)
p=0.1
p=0.007
p=0.001
p=0.09
対照群
何も刺激を与えていないもの
処置群
試薬の投与、培養条件の変化
など、刺激を与えたもの
発現変動遺伝子の判定等
FDR制御
画像データ
(.DAT)
数値データ、生データ
(.CEL)
正規化 & log2変換
実験
データ取得
http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE30668
対照群
(n=4)
カロリー制限群
(n=4)
AL1.CEL AL2.CEL AL3.CEL AL4.CEL CR1.CEL CR2.CEL CR3.CEL CR4.CEL
正規化、対数変換
1色法(Affymetrix型)はRMA,MAS5がよく使われる
2色法(Oxford型)はLOWESSがよく使われる
# ライブラリロード
library(“affy”)
# CELファイルを読み込む
Data <- ReadAffy()
# RMA正規化+対数変換
est <- rma(Data)
express <- exprs(est)
# コントロールプローブ削除
express <- express[1:31042,]
# データ保存
write.table(express, “rma.txt”)
31042×8 行列
1.2 1.4 1.4 1.3 1.5 0.4 0.6 0.9
1.5 1.6 0.7 0.4 4.3 4.2 4.1 4.0
2.4 2.5 2.9 2.2 1.9 1.3 1.5 2.31399167_a_at
1367453_at
1367452_at
AL1
.CEL
AL2
.CEL
AL3
.CEL
AL4
.CEL
CR1
.CEL
CR2
.CEL
CR3
.CEL
CR4
.CEL
検定
たくさんの検定手法が提案されている
を参考
# t検定
p <- c()
for(i in 1:31042){
p[i] <- t.test(
express[i, 1:4],
express[i, 5:8]
)$p.value
}
# データ保存
names(p)
<- rownames(express)
write.table(p, “p.txt”)
0.1405
0.0013
0.0355 p値
1.2 1.4 1.4 1.3 1.5 0.4 0.6 0.9
1.5 1.6 0.7 0.4 4.3 4.2 4.1 4.0
2.4 2.5 2.9 2.2 1.9 1.3 1.5 2.31399167_a_at
1367453_at
1367452_at
AL1
.CEL
AL2
.CEL
AL3
.CEL
AL4
.CEL
CR1
.CEL
CR2
.CEL
CR3
.CEL
CR4
.CEL
1399167_a_at
1367453_at
1367452_at
FDR制御
FDR、q値(またはQ値)って何なのかは次のページ以降で説明
q値
# 別途パッケージロード
library(“fdrtool”)
# FDR制御
fdr1 <- p.adjust(p, “BH”)
fdr2 <- fdrtool(p, statistic=“pvalue”)$qvql
fdr3 <- fdrtool(p, statistic=“pvalue”)$lfdr
# データ保存
names(fdr1) <- rownames(express)
names(fdr2) <- rownames(express)
names(fdr3) <- rownames(express)
write.table(fdr1, “BH.txt”)
write.table(fdr2, “Q.txt”)
write.table(fdr3, “LFDR.txt”)
0.1405
0.0013
0.0355 p値1399167_a_at
1367453_at
1367452_at
0.1555
0.0257
0.05921399167_a_at
1367453_at
1367452_at
多重検定補正
提案された色々な多重検定法
• FWER: Family-wise Error Rate
– Bonferroni、Tukey、Dunnet …
• FDR: False Discovery Rate
– BH、ABH、BY、Q-value、LocalFDR …
• その他:GFWER、TPPFP、EFP、ETP
BH法の原著論文(みんなが引用するからすごいことに)
最近の論文は多重性を考慮していないと査読
で何かと文句言われる
Gabriele Zoppoli, et. Al., PNAS, 2012
Barry S. Taylor, et. al., Cancer Cell, 2010
Simon Anders, et. Al., Genome Biology, 2010
多重検定って?
検定数があまりにも多いと、通常の有意水準
0.05はほぼ100%一度は間違う事に相当する
有意水準を0.05と設定したとする
n=1の時
0.05
n=2の時
1 - (1-0.05)2 = 0.0975
n=3の時
1 - (1-0.05)3 = 0.142625 …
n=kの時
1 – (1-0.05)k
仮説検定数
有意水準
複数回検定をする場合、間違った結果を含む確率が増加する
多重検定って?
n=1
n=2
n=3
かつての多重検定はこのくら
いのものを想定していた
(多群検定)
N血糖値、赤血球数
など一つの値
FWER制御法:Bonferroni法
マイクロアレイ等の超多重検定の場合、FWERでは基準が厳しすぎ
→ 一つの遺伝子も有意に判定できない
Bonferroniの不等式
𝑃 𝐸𝑖
𝑘
𝑖=1
≤ 𝑃(𝐸𝑖)
𝑘
𝑖=1
有意水準をα=0.05にしたい場合、検定数で割る
α/N
𝑃(𝐸𝑖): 事象Eiが起こる確率
例:k=3
𝑃 𝐸1 ∪ 𝐸2 ∪ 𝐸3 ≤ 𝑃 𝐸1 + 𝑃 𝐸2 + 𝑃(𝐸3)
FWER制御:一度でも間違う確率を制御する
FDR制御法
一つも間違わないでいる確率(FWER)は基準として厳しすぎる
↓
間違っても良い事にしよう
↓
ただし、発現変動遺伝子のリストの中にどのくらいの間違いが含まれているのかを推定し
てそれを新たな基準にしよう(FDR)
+
自分がどれくらいまで間違いを許すかの有意水準はp値と区別するためにq値と呼ぼう
↓
どれが間違いか正解かは神様しかしらないので、各手法が何らかの統計学的な仮定(p
値の一様分布性など)をもうけて、FDRの期待値を計算する
p値の分布は一様分布とする
BH法
Yes No
p値の分布は帰無仮説と対立仮説の
混合分布とする(混合比 π0 : 1 - π0)
自然スプライン回帰でπ0を推定
+
BH法のq値にπ0をかける
ベイズの定理における
事後分布として解釈
Q-value法 LocalFDR法
𝑞𝑖 =
𝑝𝑖 × 𝑁
𝑖
𝑄𝑖 =
𝜋0 × 𝑝𝑖 × 𝑁
𝑖
𝑙𝑓𝑑𝑟 =
𝑓0 𝑝 × 𝜋0
𝑓(𝑝)
𝜋(𝜃|𝐷) =
𝑓(𝐷|𝜃) × 𝜋 (𝜃)
𝑓(𝐷)
FDR制御法:BH法
①p値を昇順に並べ替え
②p値をq値に変換
i: 昇順に並べた時の上からの順番
N: 全遺伝子数
③閾値以下のq値の遺伝子を発現変動したとする
0.005gene5
0.06gene4
0.1gene3
0.001gene2
0.21gene1
p-value
0.001(gene2)
0.005(gene5)
0.06(gene4)
0.1(gene3)
0.21(gene1) ○gene5
×gene4
×gene3
○gene2
×gene1
発現変動
0.001*(5/1) = 0.005
0.005*(5/2) = 0.00125
0.06*(5/3) = 0.1
0.1*(5/4) = 0.125
0.21*(5/5) = 0.21
①
②
③q値p値
< 0.05
< 0.05
> 0.05
> 0.05
> 0.05
閾値
= P
= E[FP]
𝑞𝑖 =
𝑝𝑖 × 𝑁
𝑖
p値の一様分布性の破綻
BH法が想定しているp値の分布
実際のデータでのp値の分布
(0側に偏る場合が多い)
# 一様分布シミュレーション
for(i in 1:31042){
x <- rnorm(4)
y <- rnorm(4)
pp[i] <- t.test(x, y)$p.value
}
# プロット
hist(pp)
# 実際のデータのプロット
hist(p)
FDR制御法: Q-value法
帰無仮説(差が無い)
対立仮説(差が有る)
0側に寄る
一様分布する 0側に寄り気味な
一様分布ができる
平均値の差
頻度
0
0
0 1
1
1
頻度
頻度
頻度
混合分布
0
𝑄𝑖 =
𝝅 𝟎 × 𝑝𝑖 × 𝑁
𝑖
帰無仮説:対立仮説 = 𝜋0 ∶ 1 − 𝜋0
FDR制御法: LocalFDR法
𝑃 𝐻0|𝑝 = 𝑙𝑓𝑑𝑟 =
𝑓0 𝑝 × 𝜋0
𝑓(𝑝)
帰無仮説(差が無い)
対立仮説(差が有る)
平均値の差
頻度
0
𝑃 𝐻1| 𝑝 = 1 −
𝑓0 𝑝 × 𝜋0
𝑓(𝑝)
ベイズの定理
𝑃 𝐻|𝐷 =
𝑃(𝐷|𝐻) × 𝑃(𝐻)
𝑃(𝐷)
D: データ
H: 仮説
まとめ
CELファイル
↓
正規化
↓
対数変換
↓
検定
↓
FDR制御
↓
発現変動遺伝子リスト
RMAかMAS5が無難
みんな対数とる
p値を計算するようなものの
ほうが良い
p値の分布に合わせて、各手法
を利用
(FDR<0.1くらいが一つの目安)

More Related Content

What's hot

次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習
sesejun
 
5分でわかるかもしれないglmnet
5分でわかるかもしれないglmnet5分でわかるかもしれないglmnet
5分でわかるかもしれないglmnet
Nagi Teramo
 

What's hot (20)

潜在クラス分析
潜在クラス分析潜在クラス分析
潜在クラス分析
 
決定木学習
決定木学習決定木学習
決定木学習
 
10分でわかる主成分分析(PCA)
10分でわかる主成分分析(PCA)10分でわかる主成分分析(PCA)
10分でわかる主成分分析(PCA)
 
主成分分析
主成分分析主成分分析
主成分分析
 
次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習
 
はじめての「R」
はじめての「R」はじめての「R」
はじめての「R」
 
5分でわかるかもしれないglmnet
5分でわかるかもしれないglmnet5分でわかるかもしれないglmnet
5分でわかるかもしれないglmnet
 
forestFloorパッケージを使ったrandomForestの感度分析
forestFloorパッケージを使ったrandomForestの感度分析forestFloorパッケージを使ったrandomForestの感度分析
forestFloorパッケージを使ったrandomForestの感度分析
 
心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する
 
関数データ解析の概要とその方法
関数データ解析の概要とその方法関数データ解析の概要とその方法
関数データ解析の概要とその方法
 
画像処理応用
画像処理応用画像処理応用
画像処理応用
 
傾向スコアの概念とその実践
傾向スコアの概念とその実践傾向スコアの概念とその実践
傾向スコアの概念とその実践
 
データサイエンス概論第一=2-2 クラスタリング
データサイエンス概論第一=2-2 クラスタリングデータサイエンス概論第一=2-2 クラスタリング
データサイエンス概論第一=2-2 クラスタリング
 
ベイズ最適化
ベイズ最適化ベイズ最適化
ベイズ最適化
 
主成分分析(Pca)
主成分分析(Pca)主成分分析(Pca)
主成分分析(Pca)
 
Stanコードの書き方 中級編
Stanコードの書き方 中級編Stanコードの書き方 中級編
Stanコードの書き方 中級編
 
ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】
 
ベイジアンネットとレコメンデーション -第5回データマイニング+WEB勉強会@東京
ベイジアンネットとレコメンデーション -第5回データマイニング+WEB勉強会@東京ベイジアンネットとレコメンデーション -第5回データマイニング+WEB勉強会@東京
ベイジアンネットとレコメンデーション -第5回データマイニング+WEB勉強会@東京
 
第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)
 
ベイズファクターとモデル選択
ベイズファクターとモデル選択ベイズファクターとモデル選択
ベイズファクターとモデル選択
 

Similar to DNAマイクロアレイの解析と多重検定補正

遺伝子(勉強会)
遺伝子(勉強会)遺伝子(勉強会)
遺伝子(勉強会)
nozma
 
Normalization of microarray
Normalization of microarrayNormalization of microarray
Normalization of microarray
弘毅 露崎
 
Meta analysis of microarray
Meta analysis of microarrayMeta analysis of microarray
Meta analysis of microarray
弘毅 露崎
 

Similar to DNAマイクロアレイの解析と多重検定補正 (10)

Dbda chapter15
Dbda chapter15Dbda chapter15
Dbda chapter15
 
遺伝子(勉強会)
遺伝子(勉強会)遺伝子(勉強会)
遺伝子(勉強会)
 
Normalization of microarray
Normalization of microarrayNormalization of microarray
Normalization of microarray
 
言いたいことと言えること talk at ATR 神谷研 セミナ 2008年12月
言いたいことと言えること talk at ATR 神谷研 セミナ 2008年12月言いたいことと言えること talk at ATR 神谷研 セミナ 2008年12月
言いたいことと言えること talk at ATR 神谷研 セミナ 2008年12月
 
マルコフ連鎖モンテカルロ法入門-2
マルコフ連鎖モンテカルロ法入門-2マルコフ連鎖モンテカルロ法入門-2
マルコフ連鎖モンテカルロ法入門-2
 
RNAi
RNAiRNAi
RNAi
 
Survival analysis0702
Survival analysis0702Survival analysis0702
Survival analysis0702
 
Survival analysis0702 2
Survival analysis0702 2Survival analysis0702 2
Survival analysis0702 2
 
Meta analysis of microarray
Meta analysis of microarrayMeta analysis of microarray
Meta analysis of microarray
 
異常検知と変化検知の1~3章をまとめてみた
異常検知と変化検知の1~3章をまとめてみた異常検知と変化検知の1~3章をまとめてみた
異常検知と変化検知の1~3章をまとめてみた
 

More from 弘毅 露崎

大規模テンソルデータに適用可能なeinsumの開発
大規模テンソルデータに適用可能なeinsumの開発大規模テンソルデータに適用可能なeinsumの開発
大規模テンソルデータに適用可能なeinsumの開発
弘毅 露崎
 
Predicting drug-induced transcriptome responses of a wide range of human cell...
Predicting drug-induced transcriptome responses of a wide range of human cell...Predicting drug-induced transcriptome responses of a wide range of human cell...
Predicting drug-induced transcriptome responses of a wide range of human cell...
弘毅 露崎
 
非負値テンソル分解を用いた細胞間コミュニケーション検出
非負値テンソル分解を用いた細胞間コミュニケーション検出非負値テンソル分解を用いた細胞間コミュニケーション検出
非負値テンソル分解を用いた細胞間コミュニケーション検出
弘毅 露崎
 
データベースとデータ解析の融合
データベースとデータ解析の融合データベースとデータ解析の融合
データベースとデータ解析の融合
弘毅 露崎
 
Identification of associations between genotypes and longitudinal phenotypes ...
Identification of associations between genotypes and longitudinal phenotypes ...Identification of associations between genotypes and longitudinal phenotypes ...
Identification of associations between genotypes and longitudinal phenotypes ...
弘毅 露崎
 
A novel method for discovering local spatial clusters of genomic regions with...
A novel method for discovering local spatial clusters of genomic regions with...A novel method for discovering local spatial clusters of genomic regions with...
A novel method for discovering local spatial clusters of genomic regions with...
弘毅 露崎
 
文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ
文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ
文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ
弘毅 露崎
 
ISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernelISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernel
弘毅 露崎
 

More from 弘毅 露崎 (20)

大規模テンソルデータに適用可能なeinsumの開発
大規模テンソルデータに適用可能なeinsumの開発大規模テンソルデータに適用可能なeinsumの開発
大規模テンソルデータに適用可能なeinsumの開発
 
バイオインフォ分野におけるtidyなデータ解析の最新動向
バイオインフォ分野におけるtidyなデータ解析の最新動向バイオインフォ分野におけるtidyなデータ解析の最新動向
バイオインフォ分野におけるtidyなデータ解析の最新動向
 
Benchmarking principal component analysis for large-scale single-cell RNA-seq...
Benchmarking principal component analysis for large-scale single-cell RNA-seq...Benchmarking principal component analysis for large-scale single-cell RNA-seq...
Benchmarking principal component analysis for large-scale single-cell RNA-seq...
 
R-4.0の解説
R-4.0の解説R-4.0の解説
R-4.0の解説
 
scTGIFの鬼QC機能の追加
scTGIFの鬼QC機能の追加scTGIFの鬼QC機能の追加
scTGIFの鬼QC機能の追加
 
20191204 mbsj2019
20191204 mbsj201920191204 mbsj2019
20191204 mbsj2019
 
1細胞オミックスのための新GSEA手法
1細胞オミックスのための新GSEA手法1細胞オミックスのための新GSEA手法
1細胞オミックスのための新GSEA手法
 
Predicting drug-induced transcriptome responses of a wide range of human cell...
Predicting drug-induced transcriptome responses of a wide range of human cell...Predicting drug-induced transcriptome responses of a wide range of human cell...
Predicting drug-induced transcriptome responses of a wide range of human cell...
 
LRBase × scTensorで細胞間コミュニケーションの検出
LRBase × scTensorで細胞間コミュニケーションの検出LRBase × scTensorで細胞間コミュニケーションの検出
LRBase × scTensorで細胞間コミュニケーションの検出
 
非負値テンソル分解を用いた細胞間コミュニケーション検出
非負値テンソル分解を用いた細胞間コミュニケーション検出非負値テンソル分解を用いた細胞間コミュニケーション検出
非負値テンソル分解を用いた細胞間コミュニケーション検出
 
Exploring the phenotypic consequences of tissue specific gene expression vari...
Exploring the phenotypic consequences of tissue specific gene expression vari...Exploring the phenotypic consequences of tissue specific gene expression vari...
Exploring the phenotypic consequences of tissue specific gene expression vari...
 
データベースとデータ解析の融合
データベースとデータ解析の融合データベースとデータ解析の融合
データベースとデータ解析の融合
 
ビール砲の放ち方
ビール砲の放ち方ビール砲の放ち方
ビール砲の放ち方
 
Identification of associations between genotypes and longitudinal phenotypes ...
Identification of associations between genotypes and longitudinal phenotypes ...Identification of associations between genotypes and longitudinal phenotypes ...
Identification of associations between genotypes and longitudinal phenotypes ...
 
A novel method for discovering local spatial clusters of genomic regions with...
A novel method for discovering local spatial clusters of genomic regions with...A novel method for discovering local spatial clusters of genomic regions with...
A novel method for discovering local spatial clusters of genomic regions with...
 
Rによる統計解析と可視化
Rによる統計解析と可視化Rによる統計解析と可視化
Rによる統計解析と可視化
 
文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ
文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ
文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
 
カーネル法を利用した異常波形検知
カーネル法を利用した異常波形検知カーネル法を利用した異常波形検知
カーネル法を利用した異常波形検知
 
ISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernelISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernel
 

Recently uploaded

Recently uploaded (7)

Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 

DNAマイクロアレイの解析と多重検定補正