【第8回】ゼロから始めるゲノム解析（R編）

【第8回】ゼロから始め
るゲノム解析（R編）
Chapter 8 RNA-seq
当⽇スライドの内容に増補しています

⾃⼰紹介
u @TyaoiB
u 分⼦⽣物学ウェット系＠京都
u 京都のPythonコミュニティ「はんなりPythonの会」の運営もやってます
u https://hannari-python.connpass.com/
u 活動の⼀端で読書会もやってます
u 昨年は「ゼロから実践する遺伝統計学セミナー疾患とゲノムを結びつける」（岡⽥随
象／著︓⽺⼟社）」をハンズオンでやりました。２⽉から、『ビジネスデータサイエンス
の教科書』を読みます。バイオ系でもフィットする内容です。

今回の内容
u 発現変動遺伝⼦を解析する共通ワークフローを、Gene Ontologyや遺伝⼦セッ
トのエンリッチメント解析といったその下流のアプリケーションと合わせて、
実例を⽰しながら説明していく。

8.3 ハイスループットシーケンス技術を
⽤いた遺伝⼦発現解析
u 次世代シーケンス技術の登場により、⼀回の実験で発現レベルをプロファイリ
ングできる遺伝⼦の数は、数万のオーダーになった。
u 解析のボトルネックは、データ⽣成よりもデータ解析
u データから意味のある結果を得るためには、多くの統計的⼿法や計算ツールが
必要
u RNA-seq解析のほとんどのステップは、⻑年の間に⾮常に成熟してきた。
u Illuminaのシーケンシングランで得た⽣データ（fastqリード）からリードカウ
ントテーブルに到る⽅法を説明。
u 次に、このカウントテーブルを処理し、ケース-コントロール間での発現変動
解析を⾏い、下流の機能的エンリッチメント解析を⾏う⽅法をRで実⾏する

8.3.1 ⽣データの処理
u 8.3.1.1 品質チェックと読み取り処理
最初のステップは、下流の解析を開始する前に、リードのシーケンシングの品質
をチェックすることである。
⼊⼒配列の品質は、実験から導き出された結論の信頼性を担保する。
前章で扱ったQC処理のツールやワークフローは RNA-seq 解析にも適⽤できる。

u 8.3.1.2 品質の向上
RNA-seq解析ワークフローの第2のステップは、⼊⼒されたリードの品質を上げる
ことである。
このステップは、シーケンシングの品質が⾮常に良い場合には、任意のステップと考え
ることができる。しかし、最⾼品質のシーケンシングデータセットであっても、このス
テップは⼊⼒配列の品質を向上させる可能性がある。
最も⼀般的な技術的アーティファクト
アダプター配列の混⼊
配列の末端に⾒られる低品質の塩基

<⼀般的に使⽤されているツール>
u R以外
u trimmomatic (Bolger, Lohse, and Usadel 2014)
u trimGalore (Andrews 2010))
u 同じ機能を実⾏するための代替のRライブラリ
u QuasR (Gaidatzis, Lerch, Hahne, et al. 2015) (QuasR::preprocessReads関数)
u ShortRead (Morgan, Anders, Lawrence, et al. 2009) (ShortRead::filterFastq関数)
u これらのアプローチのいくつかは第7章で紹介済み。
u シーケンス品質管理とリードの前処理というステップは、シーケンスデータの品質
が満⾜のいくレベルに達するまで、繰り返すことになる。

8.3.2 アライメント
u 遺伝⼦の発現レベルを定量化するために、最初に配列を参照ゲノムにマッピン
グし、次に、各遺伝⼦にマッピングされているリードの数をカウントするため
に、アラインメントされたリードを遺伝⼦アノテーションに照合して遺伝⼦の
発現レベルを定量化することがでる。
u 研究対象の種が⼗分にアノテーションされたトランスクリプトーム情報を持っ
ている場合
u 参照ゲノムの代わりに、トランスクリプト配列にリードをアラインメントする。
u 質の良い参照ゲノムやトランスクリプトームがない場合
u 配列からトランスクリプトームをde novoでアセンブルし、遺伝⼦/トランスクリプ
トの発現レベルを定量する。

参照ゲノムやアノテーションの有無は別として、RNA-seqによるリードアラインメ
ントを⾏うために使うアライメントツールを選ぶ際の最重要ポイントは
u ターゲットゲノムにイントロンが含まれる
u シーケンスリードにはイントロン領域が含まれていない
ということを考慮しているかどうか。
u 選択的スプライシングを考慮したアライメントツールを選ぶことが重要であ
る。

⼀般的に使⽤されているツール
u C/C++⾔語 – ベンチマークテストを⾏なっている論⽂あり
u STAR（Dobin, Davis, Schlesinger, et al. 2013）
u 物理メモリ64GB必要（マウス・ヒトで実⾏中に34~37GBをコンスタントに使⽤）
u ENCODEで採⽤。コマンドのオプション設定もHPに記載
u Tophat2（Kim, Pertea, Trapnell, et al. 2013
u Hisat2（Kim, Langmead, and Salzberg 2015）
u 物理メモリはあまり使わずCPU依存。処理時間を気にしないならノートPCでも。
u 同じ機能を実⾏するための代替のRライブラリ
u GSNAP（Wu, Reeder, Lawrence, et al. 2016）
u ツールによってはfastqの圧縮ファイルを⼊⼒に使えるものもある。
ディスク容量を節約するために事前に確認しておくことを勧めます
u ショートリードアラインメントを⾏うことができるRライブラリ︔第7章

8.3.3 定量化
u リードがターゲットにアラインメントされると、ゲノム座標でソートされた
SAM/BAMファイルが得られる。
u BAMファイルには、ターゲット配列にアラインメントした全リードのアライン
メント関連情報が含まれる。
u 配列がターゲット配列にマッチした場所のゲノム座標（染⾊体、開始、終了、鎖）
u ⼊⼒配列とターゲット配列の違い（in/del/mismatches）

8.3.3 定量化
u これらの情報は、遺伝⼦/トランスクリプトモデルなどのゲノムアノテーショ
ンのゲノム座標と⼀緒に使⽤され、遺伝⼦/トランスクリプトからどれだけの
リードが配列決定されたかをカウントします。
u アノテーションと配列のゲノム座標を⽐較するだけの単純な作業ではない。
u 遺伝⼦アノテーションの重複、
u 遺伝⼦の異なるトランスクリプトアイソフォームからのエクソンアノテーションの重複
u 異なるDNA鎖からのアノテーションの重複など
u ツールによっては、アラインメントを定量化に結びつけることができるものも
あれば（例︓STAR）、アラインメント機能がなく、⼊⼒としてBAMファイルを
必要とするものがある。

8.3.3 定量化
u ⼀⽅、質の良いトランスクリプトームアノテーションがあれば、アラインメン
トフリーの⽅法
u Salmon（Patro, Duggal, Love, et al. 2017）
u Kallisto（Bray, Pimentel, Melsted, et al. 2016）
u Sailfish（Patro, Mount, and Kingsford 2014））
も、転写産物や遺伝⼦の発現レベルを推定するために使⽤することができる。
u 現状、Salmon, Kallistoの２者択⼀と⾔っていい。
u 性能・機能の違いがほぼ無くなりつつある。

8.3.4 リードカウントのサンプル内正規化
遺伝⼦の発現が定量化された後、異なる条件での遺伝⼦発現を、遺伝⼦のリード
カウントで⽐較する前に注意すること
1. ライブラリーサイズ（すなわちシーケンシング深度）
2. ⻑い遺伝⼦ほどリード数が多くなる。
3. ライブラリの構成（対象とするトランスクリプトームの相対的な複雑度）は、異な
る⽣物学的条件間では違う可能性
4. 異なるサンプル間でのGC含有量の偏りは、遺伝⼦の偏ったサンプリングにつながる
可能性（シーケンスし難い/易い配列の存在）
5. トランスクリプトのリードカバレッジには偏りがあり、トランスクリプトに沿って
不均⼀に分布している可能性がある

8.3.5 Rにおける異なる正規化スキーム
u CPM（100万リードあたりのカウント）︓シークエンシング深度の偏りに着⽬し
て対処する。
各遺伝⼦のリードカウントを「ある値」で割って10^6を掛け（＝ライブラリサイズを考
慮する）、遺伝⼦ごとのリードカウントを正規化。
u 全てのカウントの合計
u カウントの上四分位値
u すべてのカウントの中央値
u RPKM︓CPMの値を1キロベースあたりの遺伝⼦の⻑さで割って得られるもの。
FPKMはRPKMのペアエンドリード⽤。
u シークエンシング深度＋遺伝⼦⻑さを考慮
u TPM︓リードカウントを遺伝⼦⻑（1キロベースあたり）で正規化し、この総和
で割って10^6倍。
u シークエンシング深度＋遺伝⼦⻑さを考慮、ＴＰＭの正規化値の和は、各ライブラ
リにおいて常に１０^6に等しくなる

u ⼊⼒
u ⽣のカウントからなるRNA-seqカウントテーブル（遺伝⼦x発現⾏列）
u カウントテーブルの⾏は遺伝⼦に対応し、列は異なるサンプル
u リード数が正規化されておらず、整数
u 遺伝⼦⻑をbp単位で含む列widthが追加されている。

8.3.5.1 CPM値の算出
u カウントテーブルを要約:最初の3列だけのサマリーを表⽰

8.3.5.1 CPM値の算出
u 各サンプル（列 widthを除く）のCPM値を計算
列名widthに”-”
を付けてsample
列のデータのみ
使うことを指⽰

8.3.5.2 RPKM値の算出
u サンプルごとのRPKMの総和を確認します。サンプル間で総和がすべて異なっ
ていることに注意。

8.3.5.3 TPM値の算出
u サンプルごとのTPMの総和を確認します。。標本の和がすべて10^6になること
に注⽬

u これら値は、サンプル間で遺伝⼦の発現レベルを⽐較する際のもう⼀つの重要
な交絡因⼦であるライブラリ構成を考慮していない。
u 異なる⽣物学的条件下にあるサンプルのトランスクリプトーム間では、相対的にそ
の複雑度が違う可能性を考慮していない。
u 例えば、異なる組織のトランスクリプトームを⽐較する場合、ある組織では
リード数の多くを消費する遺伝⼦のセットがある⼀⽅で、他の組織では全く発
現していない遺伝⼦のセットもある。⽐較されるトランスクリプトーム間でこ
のような発現遺伝⼦種とその発現量の不均衡があると、どの遺伝⼦が実際に異
なる発現をしているかを誤って結論づける可能性がある。
u 2つの⼈気のあるツール（Rパッケージ）では、このあたりを考慮している。
u DESeq2 (Love, Huber, and Anders 2014)
u edgeR (Robinson, McCarthy, and Smyth 2010)

8.3.6 リードカウントデーブルの探索的
解析
u まずデータ全体を眺めてみる︓任意のサンプルに対して最も類似した
サンプルが、そのサンプルの⽣物学的レプリケートであるかどうかを
⾒る。
u 階層的クラスタリングなどの教師なしクラスタリング技術を⽤いて
計算し、デンドログラムと組み合わせてヒートマップとして可視化
してやる。
u 最も⼀般的な⼿法として他には、主成分分析（PCA）と呼ばれる次元削
減技術があり、2次元（場合によっては3次元）散布図として可視化で
きる。
u 第4章を参照

8.3.6.1 クラスタリング
u 基本的なRのインストールによって付属してくるstatsライブラリーの
heatmap関数を使える。
u CRAN (例: pheatmap (Kolde 2019))やBioconductor (例: ComplexHeatmap
(Z. Gu, Eils, and Schlesner 2016a))で利⽤可能な他のライブラリがあり、
より柔軟で魅⼒的な可視化を可能にしてくれます。

各遺伝⼦のサンプル間の分散の値でソートし、分散
の値が⼤きい上位100個の遺伝⼦をヒートマップ作成
の対象として抽出
先に計算したTPM⾏列を⼊⼒としてpheatmap パッ
ケージを使ってヒートマップを作成
group、
source_name
の情報を変数
colDataに代⼊
Annnotation_colにcolDataを渡さな
ければ、ベースになるヒートマップ
とデンドログラムだけの描画にな
る。
「より柔軟で魅⼒的な可視化を可

ここでは、同じレプリケート・サンプルが互いに最も近接してクラスタリングされ
ているかどうかを確認することが重要。
このようなアノテーションをヒートマップ
に重ねて、サンプルグループをはっきりと
した⾊で表⽰すると、予想通りにクラスタ
リングされてないサンプルがあるかどうか
をすぐに確認できる

8.3.6.2 PCA
u PCAプロットを作成して、レプリケートのクラ
スタリングを2次元の散布図として⾒る
第１成分の寄与が⼤き
く効いて２群に綺麗に
別れている

u 要約関数を使⽤してPCAの結果を要約することで、群間の違いを説明する上で
主成分による寄与度を知ることができる
0
0.2
0.4
0.6
0.8
1
PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9 PC10
Cumulative Proportion
Cumulative Proportion
Cumulative Proportionでプロット
すると各成分の寄与度の⼤きさを
把握し易い。この例では、事実上
PC1 （に対応する遺伝⼦セット）
のみで群間の違いを説明できるこ
とがわかる。PC2以降の寄与度は
⾮常に⼩さいことがわかる。

8.3.6.3 相関プロット
u 実験の再現性を⾒るためのもう⼀つの補完的なアプローチ︔
u 各標本ペア間のペアワイズ相関スコアを計算（シンプルなコード︕）
u corrplotパッケージを使って魅⼒的な相関プロットを描く。
addrect 引数でクラスタをグループに分割し、矩形で囲める。
addCoef.col引数を ‘white’ に設定して相関係数を⽩字で表⽰。

u このケースでは、すべてのサンプルが⾼いペアワイズ相関ス
コアを持っているので、corrplotの代わりにヒートマップを使
⽤すると、サンプル間の違いをより把握しやすくなります。
u ここでもpheatmap を使っています。
cutree_rows/cutree_colsを使って、階層的クラスタリ
ングに基づいて、⾏/列を分割するクラスタの数を指
定することができます。
cutree_cols=2としたので
最上位の２つのクラス
ターに合わせてマップが
分割されています

8.3.7 発現変動解析
u 発現変動解析では、遺伝⼦の活性が2つの異なる条件で同じままであるという帰無
仮説に対して、何万もの仮説（各遺伝⼦に対して1つの検定）を検定することがで
きる。
u 2つの⽣物学的条件間における真の変動遺伝⼦の検出⼒に影響する複数の要因があ
る(Love, Huber, and Anders 2014) 。
1. 限られた⽣物学的レプリケート数
2. リードカウントの分布の⾮正規性
3. ⾼発現遺伝⼦よりも低発現遺伝⼦に対する計測値の不確かさがより⾼くなる
u edgeRやDESeq2などのツールは、このようなノイズとなる変動の多いデータセット
からできうる限りの知⾒を抽出するために、⾼度な統計モデルを使ってこれらの限
界に対処している。

-DESeq2の計算ワークフロー
1. リードカウントは、ライブラリサイズだけでなく、ライブラリ組成の違いにも
対応したサイズ係数を計算することで正規化される。
2. 各遺伝⼦について、分散推定値を算出する。
3. 「ステップ2で計算されたすべての遺伝⼦の分散推定値」と「遺伝⼦の平均正
規化カウント」との間でラインフィッティングする。
4. 各遺伝⼦の分散値は、ステップ3でフィットした線に向かって縮⼩される。
5. ⼀般化線形モデルは、シーケンスバッチ、治療法、温度、患者の年齢、シーケ
ンス技術などの実験デザインに関連する追加の交絡変数を考慮して最適化され
る。カウントデータの負の⼆項分布を使⽤する。
6. 与えられた⽐較（例えば、治療タイプ︓薬剤-A対未治療）について、このグ
ループのペアにおける遺伝⼦の正規化されたカウントの対数倍の変化がゼロで
あるという帰無仮説に対して、差次的発現の検定を実施する。
7. 多重検定のp値を調整する。

-DESeq2への⼊⼒
1. リードカウントテーブル
u このテーブルは、正規化されていない整数値の⽣のリードカウント。
u ⾏は特徴量（遺伝⼦、転写産物、ゲノム間隔など）、列はサンプル名。
2. colData テーブル
3. 実験デザイン式︓
u 解析で注⽬する変数（例︓治療状態）を、（オプションで）他の共変量（例︓バッ
チ、温度、シーケンス技術）とともに記述するために必要です。

-DESeq2の実⾏ DESeq dataset objectの作成
# DESeq dataset objectの作成
# objectの中味の確認
# 出⼒# objectクラス
# ⾏数x列数
# ⾏名がGeneSymbol
# 列名がサンプル名
# 実験設定
#カウントテーブル

-DESeq2の実⾏発現変動を計算する
# 関⼼のある変数に基づいて⽐較することがでる。ここでは、groupのみが
⼊⼒されているので、CASEとCTRL間での⽐較になる
# contrast引数の配列順
序に注意。このCTRLに
に対してCASEのlog2倍
が正の変化を⽰す遺伝
⼦がCTRLに対してCASE
でアップレギュレー
ションされているとい
うことを前提としてい
る。
#調整されたp値でソート

-DESeq2の実⾏結果の出⼒
# DEresultsの表の内容を⾒る
• ⽐較対照の組み合わせ
• 統計的検定
• 得られた表の列数と⾏数
倍数変化(Log2) Log2の
標準偏
差

8.3.7.1 診断プロット
8.3.7.1.1 MAプロット
u この時点で、下流の分析に進み、⽣物学的
洞察について結論を出す前に、データの質
と実験のセットアップに関する信頼性を向
上させるために、さらにいくつかの診断テ
ストを⾏うことが重要です。
u MA プロットは、データの正規化がうまく
いったかどうかを観察するのに便利
(microarrayでも馴染みの⽅法)
u x 軸はサンプル間の正規化されたカウント
の平均
u y 軸は対数倍の変化
u ほとんどの遺伝⼦が変動しないと予想され
るので、散布図のほとんどの点は、y=0の
線上にあると予想される。

8.3.7.1.2 P値分布
u p値の分布を観察することも重要
u 低いp値の周辺にピークがあり、
0.1以上のp値では⼀様な分布が
なければ、多重検定のための調
整がうまくいかず、結果に意味
がなくなる。

8.3.7.1.3 PCAプロット
u 最終的な診断は、PCAプロットま
たはヒートマップでサンプルレプ
リケートの⽣物学的再現性を
チェックすること
u 正規化されたカウントを
DESeq2::rlog 関数を⽤いて変換し，
DESeq2::plotPCA() を使って PCA
の結果をプロットするのが簡便

8.3.7.1.4 Relative Log Expression (RLE) plot
u データが正規化を必要としている
かどうかを知るのに便利
（Gandolfo and Speed 2018）。
u 時には、正規化したデータセット
でも、ライブラリの調製、実験を
⾏う⼈、シークエンシングの⽇付、
ライブラリ調製時の実験室内の温
度変化などに起因する不測の変動
要因によって、さらなる正規化が
必要になることがあり、RLEプ
ロットを正規化前後のカウント
データに適⽤して、処理が必要か
どうかひと⽬で確認できる。

8.3.8 Functional enrichment analysis
8.3.8.1 GO term analysis
u 典型的な発現変動解析では、 2群間で変動発現している何千もの遺伝⼦が⾒つかる
u 個々の遺伝⼦の機能に関する事前知識をこれら遺伝⼦リスト全体に渡り⼿作業で調べ
るのは⾮常に⾯倒であり、最終的にはあまり有益な情報を得るに⾄らない。
u この問題に対処するために⼀般的に使⽤されるのは、発現変動遺伝⼦セットに関連す
る分⼦機能の⽤語（遺伝⼦オントロジー（GO））についてのエンリッチメント分析
である。
u こうした⽤語は通常、複数の遺伝⼦に関連しており、その共有性に着⽬して遺伝⼦をグルー
プ化できる。
u 発現変動解析後に適⽤される最も⼀般的な解析。GO分析は、サンプルグループ間の違いを
記述する系統的な変化を迅速に⾒つけるのに役⽴つ。
u マイクロアレイ解析が主流の頃に開発されたアプローチ

# 0.1以下の調整されたp値
を持ち、対照と⽐較して
ケースで2倍の変化（正負）
を⽰す遺伝⼦を抽出
#この遺伝⼦セットを
gProfileR 関数に⼊⼒

8.3.8.2 Gene set enrichment analysis(GSEA)
u 「⼆群間で発現が異なる遺伝⼦が特定の遺伝⼦セットに偏っているかどうか」
を調べる⼿法
u マイクロアレイ解析が主流の頃に開発されたアプローチ
n 例えば、ある⽣物学的パスウェイを構成する遺伝⼦セットの各遺伝⼦が、正常サン
プルと⽐較して疾患サンプルでわずかな発現変動しか⽰さない場合、個々の遺伝⼦
は遺伝⼦ごとの発現変動解析ではピックアップされない可能性がある。その結果、
GO解析ではこのパスウェイが濃縮をされてこないことになる。
n しかし、個々の遺伝⼦のわずかな変化が相加的に、遺伝⼦セットレベルでの⼤きな
効果をもたらす可能性は⼗分にある。GSEAを使うと、こうしたパスウェイが、疾患
メカニズムの説明に重要なパスウェイとして検出されることが可能となる。倍数変
化の⼤きな遺伝⼦が⽬⽴って得られない場合は特に有効な解析法となる。

- Bioconducter/gage packageで実⾏
u ここでは、2つの遺伝⼦セットのみを
使⽤
u 前項のGO解析から⾒出されたトップ
GOタームに由来するもの
u 遺伝⼦のリストをランダムに選択して
コンパイルしたもの
ただし通常は、
n KEGG（Kanehisa, Sato, Kawashima, et
al. 2016）
n REACTOME（Antonio Fabregat, Jupe,
Matthews, et al. 2018）
のような様々なリソースから遺伝⼦セッ
トをコンパイルしているMSIGDB
（Subramanian, Tamayo, Mootha, et al.
2005）のようなデータベースの遺伝⼦
セットを利⽤する

u 実⾏

u 結果は、ランダムな遺伝⼦セットは有意なアップレギュレーションまたはダウ
ンレギュレーションを⽰さないことがわかる
gseaResults$greater
gseaResults$less

8.3.9 変動要因の更なる検討
u case-control群間の発現変動⽐較を⾏う場合
u 症例サンプルとcontrolを分ける想定された要因（説
明変数）
u 治療法、遺伝⼦型の違い、特定の表現型など
u 実際のシークエンスデータには、想定外の要因がサン
プル間の変動に寄与する可能性もある
u サンプル調整やシーケンシング⼯程に影響される要因
u 例えば、バッチの違い、サンプル保存条件などが知られて
いる
u 想定外の要因は必ずしも⽣物学的なものではなく、む
しろ技術的なもので、このような変動要因は、得られ
た測定値を系統的な偏りを⽣む。
u 変動原因となることが実際に知られている偏りに、
DESeq2を使⽤してそのような変動要因に対処する⽅法が
ある
u 症例サンプルとcontrolを分ける想定された説明変数がク
ラスターの違いと乖離している場合に、そのような変動
要因を補正する⽅法がある(FIGURE8.12)。
ライブラリー調整法
の違いがクラスター
を２分する要因

8.3.9.1 DESeq2を使う⽅法
u FIGURE8.12では、CASEとCTRLは、両⽅のクラスタ各々に存在する。
u 理想的には、追加の変数に関係なく、 CASEとCTRLが分離されるのを⾒たいところ
u このような変動要因を指定して実⾏することで、DESeq2は発現変動遺伝⼦を抽
出できる。
u DESseq Data objectを作成する際に、design引数に交絡因⼦の変数を追加する。変数
の順序に注意することが⾮常に重要。着⽬する変数が最後にくる。

8.3.9.2 RUVSeqを使う⽅法
u こうした潜在的な変動要因がわからない場合
u RUVSeqやsvaのようなツールを使⽤して、こうした要因を推定しカウントテー
ブルをクリーンアップすることができる。その後で、推定された要因はDESeq2
の実⾏コマンドに統合できる。

u RUVseqで問題を診断し解決する実⾏例
u 新たなデモデータ（正規化前データ）を⼊⼒として⽤いる
u 変数にカウントデータなどの⼊⼒データを格納

# ヒートマップで確認
CASE_5のミスクラスタリング。
バッチ効果やサンプル調整の技術
的要因の結果である可能性があ
る。しかし、colDataオブジェクト
には、この原因の正確な特定に使
⽤える変数は含まれていない。

u RUVSeqを使って潜在的要因を推定し、クラスタリングの結果の改善を試みる
# セットアップ

u 8.3.7.1.4 のRelative Log Expression (RLE) plotで、正規化前後のカウントデー
タについて診断プロットで⾒てみる
# raw count
# TPM

u 8.3.7.1.4 のRelative Log Expression (RLE) plotで、正規化前のカウントデータ
について診断プロットで⾒てみる
# raw count
# TPM
RLE プロット
からは正規化
の効果は出て
いる
PCAプロット
からはさらな
る改善が必要
であることが
わかる。原因
の説明をして
いるわけでは
ない。

8.3.9.3 アーティフィシャな変動データの除去
u RUVSeqには、不要な変動を除去するための主に3つの機能がある
u RUVg()
u RUVs()
u RUVr()
u ここではRUVgとRUVsを使い⽅を紹介する

8.3.9.3.1 RUVgを使ってみる
u ノイズとなる変動を除去する⼀つの⽅法は、技術的要因によって変動しない参
照遺伝⼦のセットを使⽤することである。
u 発現変動解析で⾒出した⾮変動遺伝⼦セットやハウスキーピング遺伝⼦のセッ
トをネガティブコントロールとして参照し、データの系統的バイアスを修正
し、データをクリーンアップする。

＃ここではhttps://www.tau.ac.il/~elieis/HKG/HK_genes.txtにまとめられた
500個のハウスキーピング遺伝⼦のリストを使ってみる。

u 変動要因数kを試しに1として、RUVg()を実⾏
する
u ノイスとなる変動を除去した後、PCAプロット
によりクラスターの分離の様⼦を確認する。変
動要因数 kの値を変更して、サンプル・グルー
プ間のより良い分離をもたらすk値を決める
u 左図からうまく⼆分されたk = 1を選択

u RLEplotでRUVgによる正規化前後
の効果を確認

u PCA plotでクラスターの分離へのRUVg
の使⽤効果を確認
u ハウスキーピング遺伝⼦をリファレン
スとして RUVg()を使⽤することで、
クラスタリングが改善されたが、理想
的な分離を得られたわけではない。お
そらく、CASE_5がコントロールサンプ
ルに振り分けられる原因の影響を、ま
だ完全には除去されていないと思われ
る。

8.3.9.3.2 RUVsを使ってみる
u RUVSeqには、交絡のある実験デザインが存在せずレプリ
ケートが存在する場合に、よりうまく機能するRUVs()が
ある。次にRUVs()がどのように機能するか⾒てみる。
u ハウスキーピング遺伝⼦ではなく、すべての遺伝⼦を
RUVs()への⼊⼒として使⽤する。
u この関数は、レプリケートが⼀定の⽣物学的変動を持つ
と仮定して、補正係数を推定する。

u 変動要因数kを試しに2として、RUVs()を実⾏する

u 変動要因数 kの値をさらに変更して実⾏した上
で、 PCAプロットによりクラスターの分離の様
⼦を確認する。サンプル・グループ間のより良
い分離をもたらすのに必要⼗分なk値を決める
u K=3,4でも分離できているが、変動要因数を増や
すことで、重要な⽣物学的差異と相関する可能性
のある遺伝⼦を取り除くことを避けるために、不
必要に⾼い値を設定しない

u RUVgがCASEとCTRLの正規化とクラスター分離に与える効果を⾒るために、診断プロッ
ト（RLEとPCA）を作成して、カウント⾏列を⽐較する。

u 正規化とクラスターの分離はうまくいっている

u RUVsとRUVgからのPCAの結果を、正規化前の
カウント⾏列と⽐較してみる。
u 異なる正規化スキームで plotPCA() 関数を単純
に実⾏。
u 今回はRUVg()よりもRUVs()の⽅がパフォーマン
スが良かった。
u Summary()で各成分のCumulative Proportionをプ
ロットすれば、 RUVs()の⽅はPC1のみでほぼ説明
可能であることが確認できるはず(➡8.3.6.2 PCA)

u RUVs()で処理されたカウントデータを使って
ヒートマップ(➡ 8.3.9 冒頭)を作り直してみ
る。
u 異なるグループのレプリケートは、RUVs()で
処理された後、うまく２つのクラスターに振
り分けられた。
u RUVsはレプリケートからの情報を利⽤して発現
データをシフトさせる⼿法であることから、
CASEのレプリケートとCTRLのレプリケートが
異なるバッチでシーケンスされているようなデ
ザインでは機能しないことに注意。
CASE_5の振
分けが上⼿く
いった

8.3.9.4 RUVs-DESeq2による発現変動遺伝⼦抽
出の再実⾏
u RUVs()で処理したカウント⾏列をDESeq2で統合し、発現変動遺伝⼦の抽出をやり直
す。

8.4 RNA-seqのその他の応⽤
u RNA-seqは、遺伝⼦レベルの発現の定量だけでなく、エクソンや転写産物レベ
ルの情報も取得できる。
n 新規アイソフォームの同定（Trapnell, Williams, Pertea, et al. 2010）
n エクソン利⽤効率（Anders, Reyes, and Huber 2012）など選択的スプライシングイ
ベントの検出。
n 翻訳効率に影響する可能性のある配列変異（置換、挿⼊、⽋失、RNA編集）
(McKenna, Hanna, Banks, et al. 2010)。
u 癌ゲノムの⽂脈では、融合遺伝⼦の検出 (McPherson, Hormozdiari, Zayed, et
al. 2011)。
遺伝⼦予測や既存の遺伝⼦予測を改善するためのRNA-seqの活⽤(Stanke and
Morgenstern 2005)。
l これらを実装するには、各ツールのチュートリアルに⽬を通すことを勧める。

【第8回】ゼロから始めるゲノム解析（R編）

Recommended

Recommended

More Related Content

Featured

Featured (20)

【第8回】ゼロから始めるゲノム解析（R編）