2. ⾃⼰紹介
u @TyaoiB
u 分⼦⽣物学ウェット系@京都
u 京都のPythonコミュニティ「はんなりPythonの会」の運営もやってます
u https://hannari-python.connpass.com/
u 活動の⼀端で読書会もやってます
u 昨年は「ゼロから実践する 遺伝統計学セミナー 疾患とゲノムを結びつける」(岡⽥随
象/著︓⽺⼟社)」をハンズオンでやりました。2⽉から、『ビジネスデータサイエンス
の教科書』を読みます。バイオ系でもフィットする内容です。
7. 8.3.1 ⽣データの処理
<⼀般的に使⽤されているツール>
u R以外
u trimmomatic (Bolger, Lohse, and Usadel 2014)
u trimGalore (Andrews 2010))
u 同じ機能を実⾏するための代替のRライブラリ
u QuasR (Gaidatzis, Lerch, Hahne, et al. 2015) (QuasR::preprocessReads関数)
u ShortRead (Morgan, Anders, Lawrence, et al. 2009) (ShortRead::filterFastq関数)
u これらのアプローチのいくつかは第7章で紹介済み。
u シーケンス品質管理とリードの前処理というステップは、シーケンスデータの品質
が満⾜のいくレベルに達するまで、繰り返すことになる。
10. 8.3.2 アライメント
⼀般的に使⽤されているツール
u C/C++⾔語 – ベンチマークテストを⾏なっている論⽂あり
u STAR(Dobin, Davis, Schlesinger, et al. 2013)
u 物理メモリ64GB必要(マウス・ヒトで実⾏中に34~37GBをコンスタントに使⽤)
u ENCODEで採⽤。コマンドのオプション設定もHPに記載
u Tophat2(Kim, Pertea, Trapnell, et al. 2013
u Hisat2(Kim, Langmead, and Salzberg 2015)
u 物理メモリはあまり使わずCPU依存。処理時間を気にしないならノートPCでも。
u 同じ機能を実⾏するための代替のRライブラリ
u GSNAP(Wu, Reeder, Lawrence, et al. 2016)
u ツールによってはfastqの圧縮ファイルを⼊⼒に使えるものもある。
ディスク容量を節約するために事前に確認しておくことを勧めます
u ショートリードアラインメントを⾏うことができるRライブラリ︔第7章
13. 8.3.3 定量化
u ⼀⽅、質の良いトランスクリプトームアノテーションがあれば、アラインメン
トフリーの⽅法
u Salmon(Patro, Duggal, Love, et al. 2017)
u Kallisto(Bray, Pimentel, Melsted, et al. 2016)
u Sailfish(Patro, Mount, and Kingsford 2014))
も、転写産物や遺伝⼦の発現レベルを推定するために使⽤することができる。
u 現状、Salmon, Kallistoの2者択⼀と⾔っていい。
u 性能・機能の違いがほぼ無くなりつつある。
23. 8.3.5 Rにおける異なる正規化スキーム
u これら値は、サンプル間で遺伝⼦の発現レベルを⽐較する際のもう⼀つの重要
な交絡因⼦であるライブラリ構成を考慮してい ない。
u 異なる⽣物学的条件下にあるサンプルのトランスクリプトーム間では、相対的にそ
の複雑度が違う可能性を考慮していない。
u 例えば、異なる組織のトランスクリプトームを⽐較する場合、ある組織では
リード数の多くを消費する遺伝⼦のセットがある⼀⽅で、他の組織では全く発
現していない遺伝⼦のセットもある。⽐較されるトランスクリプトーム間でこ
のような発現遺伝⼦種とその発現量の不均衡があると、どの遺伝⼦が実際に異
なる発現をしているかを誤って結論づける可能性がある。
u 2つの⼈気のあるツール(Rパッケージ)では、このあたりを考慮している。
u DESeq2 (Love, Huber, and Anders 2014)
u edgeR (Robinson, McCarthy, and Smyth 2010)
30. 8.3.6.3 相関プロット
u 実験の再現性を⾒るためのもう⼀つの補完的なアプローチ︔
u 各標本ペア間のペアワイズ相関スコアを計算(シンプルなコード︕)
u corrplotパッケージを使って魅⼒的な相関プロットを描く。
addrect 引数でクラスタをグループに分割し、矩形で囲める。
addCoef.col引数を ‘white’ に設定して相関係数を⽩字で表⽰。
38. 8.3.7 発現変動解析
8.3.7.1 診断プロット
8.3.7.1.1 MAプロット
u この時点で、下流の分析に進み、⽣物学的
洞察について結論を出す前に、データの質
と実験のセットアップに関する信頼性を向
上させるために、さらにいくつかの診断テ
ストを⾏うことが重要です。
u MA プロットは、データの正規化がうまく
いったかどうかを観察するのに便利
(microarrayでも馴染みの⽅法)
u x 軸はサンプル間の正規化されたカウント
の平均
u y 軸は対数倍の変化
u ほとんどの遺伝⼦が変動しないと予想され
るので、散布図のほとんどの点は、y=0の
線上にあると予想される。
40. 8.3.7 発現変動解析
8.3.7.1 診断プロット
8.3.7.1.3 PCAプロット
u 最終的な診断は、PCAプロットま
たはヒートマップでサンプルレプ
リケートの⽣物学的再現性を
チェックすること
u 正規化されたカウントを
DESeq2::rlog 関数を⽤いて変換し,
DESeq2::plotPCA() を使って PCA
の結果をプロットするのが簡便
41. 8.3.7 発現変動解析
8.3.7.1 診断プロット
8.3.7.1.4 Relative Log Expression (RLE) plot
u データが正規化を必要としている
かどうかを知るのに便利
(Gandolfo and Speed 2018)。
u 時には、正規化したデータセット
でも、ライブラリの調製、実験を
⾏う⼈、シークエンシングの⽇付、
ライブラリ調製時の実験室内の温
度変化などに起因する不測の変動
要因によって、さらなる正規化が
必要になることがあり、RLEプ
ロットを正規化前後のカウント
データに適⽤して、処理が必要か
どうかひと⽬で確認できる。
42. 8.3.8 Functional enrichment analysis
8.3.8.1 GO term analysis
u 典型的な発現変動解析では、 2群間で変動発現している何千もの遺伝⼦が⾒つかる
u 個々の遺伝⼦の機能に関する事前知識をこれら遺伝⼦リスト全体に渡り⼿作業で調べ
るのは⾮常に⾯倒であり、最終的にはあまり有益な情報を得るに⾄らない。
u この問題に対処するために⼀般的に使⽤されるのは、発現変動遺伝⼦セットに関連す
る分⼦機能の⽤語(遺伝⼦オントロジー(GO))についてのエンリッチメント分析
である。
u こうした⽤語は通常、複数の遺伝⼦に関連しており、その共有性に着⽬して遺伝⼦をグルー
プ化できる。
u 発現変動解析後に適⽤される最も⼀般的な解析。GO分析は、サンプルグループ間の違いを
記述する系統的な変化を迅速に⾒つけるのに役⽴つ。
u マイクロアレイ解析が主流の頃に開発されたアプローチ
43. 8.3.8 Functional enrichment analysis
8.3.8.1 GO term analysis
# 0.1以下の調整されたp値
を持ち、対照と⽐較して
ケースで2倍の変化(正負)
を⽰す遺伝⼦を抽出
#この遺伝⼦セットを
gProfileR 関数に⼊⼒
45. 8.3.8 Functional enrichment analysis
8.3.8.2 Gene set enrichment analysis(GSEA)
u 「⼆群間で発現が異なる遺伝⼦が特定の遺伝⼦セットに偏っているかどうか」
を調べる⼿法
u マイクロアレイ解析が主流の頃に開発されたアプローチ
n 例えば、ある⽣物学的パスウェイを構成する遺伝⼦セットの各遺伝⼦が、正常サン
プルと⽐較して疾患サンプルでわずかな発現変動しか⽰さない場合、個々の遺伝⼦
は遺伝⼦ごとの発現変動解析ではピックアップされない可能性がある。その結果、
GO解析ではこのパスウェイが濃縮をされてこないことになる。
n しかし、個々の遺伝⼦のわずかな変化が相加的に、遺伝⼦セットレベルでの⼤きな
効果をもたらす可能性は⼗分にある。GSEAを使うと、こうしたパスウェイが、疾患
メカニズムの説明に重要なパスウェイとして検出されることが可能となる。倍数変
化の⼤きな遺伝⼦が⽬⽴って得られない場合は特に有効な解析法となる。
46. 8.3.8 Functional enrichment analysis
8.3.8.2 Gene set enrichment analysis(GSEA)
- Bioconducter/gage packageで実⾏
u ここでは、2つの遺伝⼦セットのみを
使⽤
u 前項のGO解析から⾒出されたトップ
GOタームに由来するもの
u 遺伝⼦のリストをランダムに選択して
コンパイルしたもの
ただし通常は、
n KEGG(Kanehisa, Sato, Kawashima, et
al. 2016)
n REACTOME(Antonio Fabregat, Jupe,
Matthews, et al. 2018)
のような様々なリソースから遺伝⼦セッ
トをコンパイルしているMSIGDB
(Subramanian, Tamayo, Mootha, et al.
2005)のようなデータベースの遺伝⼦
セットを利⽤する
47. 8.3.8 Functional enrichment analysis
8.3.8.2 Gene set enrichment analysis(GSEA)
- Bioconducter/gage packageで実⾏
u 実⾏
48. 8.3.8 Functional enrichment analysis
8.3.8.2 Gene set enrichment analysis(GSEA)
- Bioconducter/gage packageで実⾏
u 結果は、ランダムな遺伝⼦セットは有意なアップレギュレーションまたはダウ
ンレギュレーションを⽰さないことがわかる
gseaResults$greater
gseaResults$less
49. 8.3.9 変動要因の更なる検討
u case-control群間の発現変動⽐較を⾏う場合
u 症例サンプルとcontrolを分ける想定された要因(説
明変数)
u 治療法、遺伝⼦型の違い、特定の表現型など
u 実際のシークエンスデータには、想定外の要因がサン
プル間の変動に寄与する可能性もある
u サンプル調整やシーケンシング⼯程に影響される要因
u 例えば、バッチの違い、サンプル保存条件などが知られて
いる
u 想定外の要因は必ずしも⽣物学的なものではなく、む
しろ技術的なもので、このような変動要因は、得られ
た測定値を系統的な偏りを⽣む。
u 変動原因となることが実際に知られている偏りに、
DESeq2を使⽤してそのような変動要因に対処する⽅法が
ある
u 症例サンプルとcontrolを分ける想定された説明変数がク
ラスターの違いと乖離している場合に、そのような変動
要因を補正する⽅法がある(FIGURE8.12)。
ライブラリー調整法
の違いがクラスター
を2分する要因
50. 8.3.9 変動要因の更なる検討
8.3.9.1 DESeq2を使う⽅法
u FIGURE8.12では、CASEとCTRLは、両⽅のクラスタ各々に存在する。
u 理想的には、追加の変数に関係なく、 CASEとCTRLが分離されるのを⾒たいところ
u このような変動要因を指定して実⾏することで、DESeq2は発現変動遺伝⼦を抽
出できる。
u DESseq Data objectを作成する際に、design引数に交絡因⼦の変数を追加する。変数
の順序に注意することが⾮常に重要。着⽬する変数が最後にくる。
51. 8.3.9 変動要因の更なる検討
8.3.9.2 RUVSeqを使う⽅法
u こうした潜在的な変動要因がわからない場合
u RUVSeqやsvaのようなツールを使⽤して、こうした要因を推定しカウントテー
ブルをクリーンアップすることができる。その後で、推定された要因はDESeq2
の実⾏コマンドに統合できる。
71. 8.4 RNA-seqのその他の応⽤
u RNA-seqは、遺伝⼦レベルの発現の定量だけでなく、エクソンや転写産物レベ
ルの情報も取得できる。
n 新規アイソフォームの同定(Trapnell, Williams, Pertea, et al. 2010)
n エクソン利⽤効率(Anders, Reyes, and Huber 2012)など選択的スプライシングイ
ベントの検出。
n 翻訳効率に影響する可能性のある配列変異(置換、挿⼊、⽋失、RNA編集)
(McKenna, Hanna, Banks, et al. 2010)。
u 癌ゲノムの⽂脈では、融合遺伝⼦の検出 (McPherson, Hormozdiari, Zayed, et
al. 2011)。
遺伝⼦予測や既存の遺伝⼦予測を改善するためのRNA-seqの活⽤(Stanke and
Morgenstern 2005)。
l これらを実装するには、各ツールのチュートリアルに⽬を通すことを勧める。