7. 7
wound healing genes
cholesterol biosynthesis genes
Cluster analysis and display of genome-wide expression patterns
Eisen et al. PNAS 95:14863, 1998
An integrated encyclopedia of DNA
elements in the human genome.
The ENCODE Project Consortium
Nature 489:57, 2012
cell cycle
Removed
Removed
9. マイクロアレイ
• 遺伝子発現を大規模 に観測(ほぼ全遺伝子 or 全exon)
• Agilent社の場合,各遺伝子60塩基のプローブ
• 相補鎖の配列を持つ遺伝子が観測できる
M
icroarray
ATGCCAG ATGCCAG
CATGTACGGTCGATCAG
Probes in a spot
A probe
Cells
mRNAs
33. 教師あり(教師つき)学習
• データが訓練データとテストデータに分けられる.
• 各訓練データにはクラス(=答え)が存在している.
• テストデータのクラスを当てたい
5.1. クラス分類問題 123
サンプル番号 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 発病
A -0.43 1.39 0.87 0.79
B -0.4 -0.45 1.07 0.87 ×
C 0.63 0.23 -2.56 0.45
D -0.42 1.59 -0.15 -0.74 ×
E 0.23 -0.86 0.39 -0.55 ×
F -0.43 -0.7 1.69 0.25 ×
G 0.26 0.21 0.29 0.34
H 0.42 -0.27 0.86 0.58 ×
I -0.63 -0.58 -0.25 -0.19 ×
J -0.92 0.51 0.64 -0.32 ×
K -0.53 0.25 -0.23 0.3
L 0.21 -0.12 -0.28 -0.46
表 5.1 クラス分類問題の訓練データ
サンプル番号 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 発病
M -0.43 1.39 0.87 0.79 ?
N 0.63 -0.45 1.07 0.87 ?
O -0.4 0.23 -2.56 0.45 ?
5.1. クラス分類問題 123
サンプル番号 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 発病
A -0.43 1.39 0.87 0.79
B -0.4 -0.45 1.07 0.87 ×
C 0.63 0.23 -2.56 0.45
D -0.42 1.59 -0.15 -0.74 ×
E 0.23 -0.86 0.39 -0.55 ×
F -0.43 -0.7 1.69 0.25 ×
G 0.26 0.21 0.29 0.34
H 0.42 -0.27 0.86 0.58 ×
I -0.63 -0.58 -0.25 -0.19 ×
J -0.92 0.51 0.64 -0.32 ×
K -0.53 0.25 -0.23 0.3
L 0.21 -0.12 -0.28 -0.46
表 5.1 クラス分類問題の訓練データ
サンプル番号 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 発病
M -0.43 1.39 0.87 0.79 ?
N 0.63 -0.45 1.07 0.87 ?
O -0.4 0.23 -2.56 0.45 ?
P 0.42 1.59 -0.15 -0.74 ?
クラス
訓練データ
(Training Data)
テストデータ
(Test Data)
属性(特徴量)
33
34. 教師あり(教師つき)学習
• 患者の疾患を予測
• データ=患者,属性=遺伝子,クラス=疾患の有無
• 遺伝子の機能を予測
• データ=遺伝子,属性=サンプル,クラス=機能
5.1. クラス分類問題 123
サンプル番号 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 発病
A -0.43 1.39 0.87 0.79
B -0.4 -0.45 1.07 0.87 ×
C 0.63 0.23 -2.56 0.45
D -0.42 1.59 -0.15 -0.74 ×
E 0.23 -0.86 0.39 -0.55 ×
F -0.43 -0.7 1.69 0.25 ×
G 0.26 0.21 0.29 0.34
H 0.42 -0.27 0.86 0.58 ×
I -0.63 -0.58 -0.25 -0.19 ×
J -0.92 0.51 0.64 -0.32 ×
K -0.53 0.25 -0.23 0.3
L 0.21 -0.12 -0.28 -0.46
表 5.1 クラス分類問題の訓練データ
サンプル番号 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 発病
M -0.43 1.39 0.87 0.79 ?
N 0.63 -0.45 1.07 0.87 ?
O -0.4 0.23 -2.56 0.45 ?
5.1. クラス分類問題 123
サンプル番号 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 発病
A -0.43 1.39 0.87 0.79
B -0.4 -0.45 1.07 0.87 ×
C 0.63 0.23 -2.56 0.45
D -0.42 1.59 -0.15 -0.74 ×
E 0.23 -0.86 0.39 -0.55 ×
F -0.43 -0.7 1.69 0.25 ×
G 0.26 0.21 0.29 0.34
H 0.42 -0.27 0.86 0.58 ×
I -0.63 -0.58 -0.25 -0.19 ×
J -0.92 0.51 0.64 -0.32 ×
K -0.53 0.25 -0.23 0.3
L 0.21 -0.12 -0.28 -0.46
表 5.1 クラス分類問題の訓練データ
サンプル番号 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 発病
M -0.43 1.39 0.87 0.79 ?
N 0.63 -0.45 1.07 0.87 ?
O -0.4 0.23 -2.56 0.45 ?
P 0.42 1.59 -0.15 -0.74 ?
クラス
訓練データ
(Training Data)
テストデータ
(Test Data)
属性(特徴量)
34
35. k-最近点分類 (Nearest Neighbor)
• 最も近いk点のクラスを調べ,多数決を取る.
• 下図では,Qの点のクラスが丸か四角かを予想したい
• 3-最近点分類であれば,E,F,Jが最も近い3点で,丸が
2点含まれるので,Qは丸と予測する.
遺伝子1の
発現量
遺伝子2の発現量
3-NN
遺伝子1の
発現量
遺伝子2の発現量
(A) 訓練データ (B) サンプルのクラス予測
A
B
C
D E
F
G
I
L
J
K
H
Q
A
B
C
D E
F
G
I
L
J
K
H
Q
35
56. 超幾何分布
• 全部で N個の玉が入った箱を考える.
• 内,N0個が赤,N-N0個が青だとする.
• n回引いた時に,x回以上 赤を引く確率は?(非復元抽出)
• Nが十分大きいと,非復元と復元に差異がなくなるので,
二項分布(母比率p=N0/N)と一致.
• 全 N遺伝子中, N0 遺伝子が調べたい機能Fを有している.
• (着目する)クラスタに n遺伝子が入っている.
• x遺伝子以上が機能Fを有している確率は?
N0
x
N N0
n x
N
n
.
N0X
x0=x
N0
x0
N N0
n x0
N
n
.丁度x回の場合 x回以上なので
56
65. RPKM
(Reads Per Kilobase per Million mapped reads)
• 遺伝子1と遺伝子2の発現量を求めたい
14本のリード 14本のリード
遺伝子1 遺伝子2
発現量は同一? => No
単位長さあたりの発現量 RPKM が利用される [Montazavi et al., 2008 ]
RPKM=Reads Per Kilobase of exon model per
Million mapped reads
遺伝子(Exon)上の全リード
実験で読まれた全リード(100万単位) * 遺伝子(Exon)長(KB)
正規化
65
66. FPKM
(Fragments Per Kilobase per Million mapped
reads)
• 基本的にRPKMと同じ
• 配列をPaired-endで取得することが増えてきた
• 2本の配列が1本の配列に由来している
• 各readではなく,paired-end 1つで1個とカウントする.
• 利点:
• Paired-endの距離には目安がある(実験プロトコルに寄る
が,大体180-200bpを中心とする分布)ので,この距離から
誤ってmapされたものを発見し,取り除く事ができる.
• Alternative splicing の発現を求める方法も出ている
正規化
66