Skip to content

Latest commit

 

History

History

04_morioka

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 

Track Hubを使ってオリジナルデータと公共データを比較した図を作成する

UCSC Track Hubには、さまざまな公共データが登録されており、ゲノム情報を必要に合わせてカスタマイズすることができます。また、Custom trackでUCSC genome browser上にファイルをアップロード、もしくはURLを指定することで、ゲノム地図上にオリジナルデータなどを載せ、目的とする遺伝子座などの地図を作成して論文のfigureなどを作成することができます。

UCSC GB上で可視化し、図を作成する際は、主にエピゲノムデータなどを表示してデータ間のオーバーラップを確認できる図を作成することが多いと思います。今回は先ほど紹介したATF3遺伝子について、その上流シス領域に注目して、ATF3のChIP-seqデータをブラウザに加えてATF3が自身の転写制御(autoregulation)に関係している可能性を示唆するデータを作成してみたいと思います。

Track Hubからテストデータをつくる


オリジナルデータの例として、既にUCSC GBに存在するATF3 ChIP-seqデータのダウンロードを行いたいと思います。UCSC GBでは、主にbigWigや、bigBedとよばれるバイナリーファイルが読み込まれています。オリジナルのデータから、この2つのファイルに変換するには、UCSC GBに存在するUtility スクリプトを用いることで変換することができます。

補足: オリジナルのBAMファイルからBigWigファイルを作成するには、こちらのパイプラインを利用すると可能です。このパイプラインは、samtools, bedtoolsそしてUtilityのスクリプトであるbedGraphToBigWigをインストールすると利用することができます。

変換したファイルをUCSC GB上に表示する方法は2つの方法があります。

  1. UCSC GBとは異なる外部サーバーにファイルをアップロードして、その情報(URL)をUCSC GBに入力する。

    自前の公開サーバーなどを用意してファイルをアップロードする必要がある。Track Hubの中にあるUCSC GB以外の機関が登録した情報は、この方法でトラック情報を公開している。

  2. UCSC GBに直接ファイルをアップロードする。

    簡単ですが、ファイルのサイズに制限がある。

今回は、2の方法について解説します。

まず、Track Hubへ移動します。

スクリーンショット 2023-01-17 14 46 28

Track Hubでは、UCSC GBに登録されている接続可能なデータを横断的に検索することができます。Search termsATF3,assemblyhg38を入力してsubmitしてください (結果が表示されるまでに少し時間がかかります)。

スクリーンショット 2023-01-17 14 52 56

スクリーンショット 2023-01-17 14 54 22

ATF3に関連するデータセットが接続されているHubとして、5つの候補が存在するようです。この中からChIP-seqのデータを得るためにENCODE DNA Track hubのSearch detailsをクリックして階層を辿っていきます。注意点として、右にあるAssembliesに表示されているゲノムバージョンのみ、そのトラック情報を閲覧することができます。

スクリーンショット 2023-01-17 14 55 17

ATF3のChIP-seqの複数のデータに辿り着くことができました。このHubに接続したいと思いますのでブランチの一番上にあるConnectボタンを押します。成功すれば **~ Successful **という表示が一瞬だけ現れてgatewayのページに飛びます。gatewayから、genomes -> hg38をクリックしてください。

スクリーンショット 2023-01-17 15 08 56

ゲノムブラウザは、 ATF3遺伝子座が表示された以前の状態のままですが、その下段にENCODE DNA Trackhubが上段にきて接続されている様子がわかります。この中から、TF ChIP-seq by targetの文字をクリックしてください。

スクリーンショット 2023-01-17 15 07 40

ChIP-seqのデータ一覧が表示されました。ATF3を上記のようにdenseモードでsubmitして表示させましょう。

スクリーンショット 2023-01-17 15 13 28

最下段にATF3のChIP-seqのpeak summitが現れました。この遺伝子座の面白いのは、ATF3のプロモーターのシス領域にATF3自身が結合しているところです。さらに、最長ATF3の上流にあるENCODEでは遺伝子アノテーションとして登録されているexon1つの領域がReMap, ATF3の結合サイト、GenHancerと密にオーバーラップしています(これらのトラックをONにしていない場合表示されていないかもしれません、ここでは、テストデータ作成の解説のためにONの操作を省いています)。

さあ、ATF3の自己応答の目処がつきました。トラックにすでにシス情報を載せて確認している時点でチートで恐縮ですが、このChIP-seqデータをオリジナルデータの代わりにするためにダウンロードします。ATF3/liver signalのtrackの上で右クリックして、**Configure ATF3/liver signal (by target) ATF3 track set...**を選択してください。

スクリーンショット 2023-01-17 15 19 09

スクリーンショット 2023-01-17 15 23 14

するとtrackの設定を変更するページが出てきます。ATF3/liver peaksの右側にあるSchemaをクリックしてください。

スクリーンショット 2023-01-17 15 26 47

すると、データの詳細な情報(実験の情報、論文の情報など)を閲覧することができます。実は、このページからこのデータがインターネット上のどこにあるかが記載されています。上段のBinary file of type bigWig stored at~に続くURLになります。つまり、track hubは、ENCODEのサーバー上のデータを読み込んでブラウザに表示しています。今回このデータをダウンロードしてテストデータとして利用します。データはご覧の通りbigWigファイルですね。ダウンロードには20分ほどかかりますので、レクチャー内では行わないでください。その後のファイル整形は例として記載します。ではまず、?proxy=trueを除いてwgetでダウンロードします。

wget https://www.encodeproject.org/files/ENCFF608OBE/@@download/ENCFF608OBE.bigWig

ダウンロードしたbigWigファイルを編集し、UCSC GBで読み込みやすいように染色体1番だけのbedGraphファイルを作成します。そのためにbedGraphへのファイル変換操作を行います。

# 必要なツールとファイルをダウンロード
wget http://hgdownload.soe.ucsc.edu/admin/exe/macOSX.x86_64/bigWigToBedGraph
wget https://genome.ucsc.edu/goldenPath/help/hg38.chrom.sizes

chmod 755 bigWigToBedGraph
chmod 755 bedGraphToBigWig
# 染色体単位で変換を実行
# ./bigWigToBedGraph -chrom=chr1 ENCFF608OBE.bigWig ENCFF608OBE.chr1.bedGraph
# 座標を指定してATF3遺伝子座がある限定的な領域で実行
./bigWigToBedGraph -chrom=chr1 -start=212509895 -end=212676211 ENCFF608OBE.bigWig ENCFF608OBE.chr.1212509895.212505D9895.bedGraph

bedGraphは、テキストデータなので、テキストエディタで編集することができます。テキストエディタで開き、グラフの設定用のheaderを追加します。ENCFF608OBE.chr.1212509895.212505D9895.bedGraphファイルを開き、先頭に以下の文字を入力し、保存します。

browser position chr1:212509895-212676211
browser hide all
track type=bedGraph name=ATF3_ChIP description="ATF3 ChIP-seq" visibility=full color=200,128,0 altcolor=0,100,200
#chrom chromStart chromEnd score

この設定の詳細は、こちらに記載されています。編集後に保存したbedGraphをCustom Tracksから読み込みます。

スクリーンショット 2023-01-17 19 36 44

スクリーンショット 2023-01-17 19 38 16

assemblyがhg38になっていることを確認後、ファイルを選択し、submitしてください。

スクリーンショット 2023-01-17 19 39 29 無事読み込まれたら、Manage Custom Tracksにデータが表示されているはずです。return to current positionを押して、genome browserに移動します。

スクリーンショット 2023-01-17 19 35 39

ATF3のChIP-seqデータが表示されました。上の図のようにcustom trackでデータをロードすると今まで表示されていた**他のtrackの情報は失われてしまう点にご注意ください。必要に応じて、再度情報を足していきます。

公共データの情報をゲノム地図に追加する


地図の下にあるデータのコレクションからGENCODE V41,、DNase-seqCpGの情報、そしてエンハンサー候補を眺めるためにReMap, GeneHancerをONにしていきます。初めは画面を見やすくするようにdenseやpackモードで表示するといいかもしれません。GeneHancerは相互作用の推定が見えるようにfullで設定します。

スクリーンショット 2023-01-17 14 20 18

スクリーンショット 2023-01-17 14 20 58

スクリーンショット 2023-01-17 14 22 06

最後に一番底にあるrefreshボタンを押すと選んだデータが表示されます。

スクリーンショット 2023-01-17 19 47 06

次に、表示したデータの順番を変更します。トラックの左端ドラックアンドドロップすると上下を入れ替えることができます。入れ替えた後は次のような図です。どう見せるかは好みなので、見えやすい順序を模索してください。

スクリーンショット 2023-01-17 19 49 45

一番上の段にGENCODEアノテーションにしました。ATF3の結合がプロモーター付近や、gene body最長のATF3より上流の位置にシグナルがみられます。そして、GeneHancerによって推定されたエンハンサー領域の相互作用として、この2つが繋がっています。上流シスのChIP-seqのpeakは、indirectなATF3結合ではないかと想像させる一枚です。

ここから少しだけ見栄えを調節します。まず、ChIP-seqのデータのトラックの高さを調節してみます(そのままでも良いかもしれませんが、練習のため)。ATF3-ChIPのトラック上で右クリックをしてください。

スクリーンショット 2023-01-17 19 59 01

Track heightを60smoothing windowを5ぐらいにセットしてみたいと思います。

スクリーンショット 2023-01-17 20 02 16

論文用の図のために、魅せたいところをハイライトする


ATF3のChIP-seq peakとATF3プロモーター、エンハンサー相互作用の推定箇所のオーバーラップをハイライトする図を作りたいと思います。

まず、強調したい座標をShift keyを押しながら左クリックで囲います。

スクリーンショット 2023-01-17 20 07 05

すると選択領域が薄青い枠でかこまれた後、Drag-and-selectのwindowがあらわれますので、zoom inしてください。

スクリーンショット 2023-01-17 20 09 53

ChIP-seqのpeak領域を拡大することができました。この領域を綺麗に囲ってハイライト(もしくはGenHancerのエリアを囲ってもいいかもしれません)しやすいように拡大した訳です。先ほどと同様にShiftを押しながら左クリックでPeakを裾野から綺麗に包含するように囲ってください。

スクリーンショット 2023-01-17 20 12 30

色はデフォルトの水色にして、Add Highlightしてください(Single Highlightを選択した場合、1つのエリアをハイライトしたら他のハイライトしていたエリアが消えてしまいます)。同様の操作を下流のプロモータ領域でも行いましょう。

スクリーンショット 2023-01-17 20 15 31

スクリーンショット 2023-01-17 20 17 49

これで図の完成です。

完成した図をPDF or EPSで保管する


作成した図をillustratorなどで編集可能なPDF, EPSで保管する方法になります。ViewからPDF/PSを選択してください。

スクリーンショット 2023-01-17 20 24 25

スクリーンショット 2023-01-17 20 26 46

PDFやEPSとしてダウンロードすることができます。フォントや線の太さ、いらない空白などの削除など細かい設定は描画ソフトで調整する方がよいでしょう。また、保存したファイルはトラックが縦に長くてもしっかり保存されますので、必要な情報を全て載せておいて保存することもできます。

おまけ: Track Collection Builderはトラックを統合する


UCSC genome browserで複数のオリジナルファイルを一つのトラックで表示したり、ファイルを結合したい場合にTrack Collection Builderを利用します。MyDataからTrack Collection Builderを選択してください。

スクリーンショット 2023-01-17 20 54 55

まず、利用するデータのコレクション(フォルダのようなもの)を右のAdd Collectionから作成します。この時の名前がトラックに表示されるので、コレクションを代表する名前にしたほうが良いと思います。

スクリーンショット 2023-01-17 20 35 24

saveを押した後、そのフォルダにファイルを加えていきます。

スクリーンショット 2023-01-17 20 36 10

右のファイルリストから加えたいファイルのplusボタンを押すと、右のコレクションに追加されます。その後、右上にある**GO!**ボタンを押しましょう。

スクリーンショット 2023-01-17 20 39 01

先ほどの図に6つのATF3 ChIP-seqのトラックが追加されました。このようにグループにまとめて1つのトラックにすると、トラックを並べる順番を調節しやすく、編集にも便利だと思います。今回追加したトラックの配色が薄いですが、これは私の色の選択ミスです(後で修正しています)。つぎに、このコレクション内の6つのファイルのシグナルを結合し、1つのトラック上で表示する操作を実施してみたいと思います。トラック上で右クリックを押して、configureを選択します。

スクリーンショット 2023-01-17 20 44 37

このsetting画面は今までの設定画面とは異なり、Merge methodが加わっています。この項目では、コレクションの中にあるトラックのシグナル値をマージするaddや、transpalent, solid, stacked, subtractがあります。

まず試しにaddを行い、smoothing windowを5で可視化してみたものを表示します。

スクリーンショット 2023-01-17 21 12 40

少し見辛いですが、データが足されたものが表示されています。次にtranspalentを試してみましょう。

スクリーンショット 2023-01-17 21 15 33

Peakの変化を透過色で眺めることができました。例えば時系列データなどでこの描画を行うと美しい変化を描画できるかもしれません。このコレクションの情報はMySessionsで保存しなければ残りませんので、必要な場合はかならず保存するようにしてください。また、コレクションの名前や色はTrack Collection Builderの画面に戻って、コレクションをダブルクリックすれば後からでも変更することができます。