Skip to content

Latest commit

 

History

History

01_ono

AJACSオンライン3 遺伝子発現データ解析(RefEx、ChIP-Atlas、DAVID、metascape、GEO2Rなど)

大学共同利用機関法人 情報・システム研究機構
データサイエンス共同利用基盤施設
ライフサイエンス統合データベースセンター
小野 浩雅
[email protected]
2020年11月11日(水) AJACSオンライン3


これは統合データベース講習会 AJACSオンライン3「遺伝子発現データ解析(RefEx、ChIP-Atlas、DAVID、metascape、GEO2Rなど)」の講習資料です。
講習会全体のプログラムはこちらです。 © 2020 小野 浩雅, CC-BY-4.0


自己紹介


概要

本講習では、だれでも自由に使うことができる公共データベースやウェブツールを活用して、研究のさまざまな場面で調べることの多い個々の遺伝子発現データを簡単に調べるための方法と基礎知識について学びます。また、数百~数千におよぶ遺伝子セットについて、生物学的な解釈をするための各種ツールとその使い方を学びます。さらに、公共データベース上にある生データを解析するためのツールを紹介します。


講習の流れ

今回の講習では、以下の内容について説明します。

  • 個々の遺伝子の発現プロファイルを調べる

    • RefEx
      • 【デモ】RefExを使って、組織特異的遺伝子を検索する
  • 数十~数千の遺伝子群の生物学的解釈

    • ChIP-Atlas
      • 【デモ】ChIP-AtlasのEnrichment Analysis を使って、興味ある遺伝子リストを制御する可能性の高い転写因子を調べる
    • DAVID
    • metascape
    • Enrichr
  • 公共データベース上にある遺伝子発現データを解析する

    • GEO
    • GEO2R
    • GREIN
    • iDEP
    • BioJupies
  • 研究現場で頻繁に使われるデータベースやツールを知る

    • 統合TV

講義に際しての注意とお願い

  • みんなで同時にアクセスするとサイトにつながりにくくなることが予想されます。

    • 資料を見ながら自力で進められそうな方はどんどん先に、そうでない方は講師と一緒にすすめていきましょう。
    • サイトの反応が悪い時はタイミングをずらして実行してみてください。
    • 反応が無いからと言って何度もクリックするとますます繋がらなくなってしまいます。おおらかな気持ちで臨みましょう。
  • Web上で質問・コメントできるフォームを用意していますので、ご活用ください。

    • https://www.sli.do (「新しいタブで開く」とよいです)
    • ウェブブラウザで sli.do と入力(スマホでもアクセス可能)
    • AJ84 と入力
    • 質問をする (゚д゚)カンターン
  • こんなことは知ってて当たり前だと他の人に思われるような「シロウト」質問を歓迎します。

    • 当たり前に感じる質問や一見関係なさそうな質問がでると、「そういう質問をしてもよいのだ」という空気になり、この講義から得られる情報が増え、皆さんの受講満足度が上がります(たぶん)。
    • あなたがいま疑問に思ったことは、実は、隣の人やその隣の人もそう思っていることが多いです。
    • 知っている人は講師を助けてください。サポート大歓迎です
    • でも講師も知らないことは(多々)あります。(以下ループ)

受講前アンケートにご協力いただき、ありがとうございます (回答数 158)(11/2時点)

統合TVを知っていますか? 人数 割合
知らない 21 名 13 %
知っている 137 名 87 %

自分で実験して得た、数十〜数千の遺伝子からなる
「遺伝子リスト」(例: 発現差のあった遺伝子など) を持っていますか?
人数 割合
既に持っている 61 名 40.7 %
これから実験をする・したい 29 名 19.3 %
公共データを活用する・したい 47 名 31.3 %
大規模発現解析の予定はない 13 名 8.7 %

誰でも使える公共の遺伝子発現データ

  • さまざまな実験で得られたデータは、論文投稿時などに公共データベース上に登録し、その後誰でも参照可能になるようにすることが義務付けられていることが多いですが、それは遺伝子発現データについても同様です。公共データベースには多種多様な遺伝子発現データが日々大量に登録、蓄積され続けています。
    • これらのデータをうまく活用すれば、例えば、予備実験をせずに済む、自分の実験結果を支持する知見が得られる、仮説立案の新たな切り口が得られるなど、多くのメリットがあります。
    • 一方で、いざ使おうと思ったときに、その膨大さから、どのデータを選び、詳しく調べればよいのか分かりにくく、利用することが困難で諦めてしまうことが多いです。
  • これらの困難さを軽減するために、いくつかの二次的なデータベースやツールが開発されています。これらをうまく使うことで、自分のデータと組み合わせられる遺伝子発現データをすばやく検索、発見し、活用できるようになるでしょう。

個々の遺伝子の発現プロファイルを調べる

  • 遺伝子発現解析の基準となるデータを快適に検索できるウェブツール
  • 公共DBにある正常組織や細胞株における遺伝子発現データを再利用・整理
  • 4つの異なる実験手法(EST、GeneChip、CAGE、RNA-seq)によって得られた正常組織、初代培養細胞、細胞株における遺伝子発現データを検索、閲覧可能
    • FANTOM5 CAGEデータ(phase1)も閲覧可能です(ヒト556種、マウス286種)
      • FANTOM5 CAGEデータ
        • 理化学研究所のFANTOM プロジェクト5(FANTOM5)では、ゲノムにコードされているプロモーターと転写因子制御ネットワークを明らかにすることを目的として膨大なCAGEデータを測定し、それらを閲覧できるウェブサイトも公開されている。
      • 現在、RefExに載っているデータで、一番、データ精度が高く、また、サンプル数も多いため、オススメです。
    • 掲載しているデータやオリジナルデータなどの詳細については、RefExについて
  • このツールでできること
    • 正常組織における遺伝子発現データを調べる
    • 測定手法による遺伝子発現量の差異を比較する
    • 組織特異的遺伝子をワンタッチで検索可能
    • 遺伝子発現解析などで見出された不詳な遺伝子群の機能および関係性を調べる
  • RefExで掲載されているデータはすべて再利用可能

参考文献


【使用例】RefExを使って、組織特異的遺伝子を検索する

  1. https://refex.dbcls.jp/ を開きます。
  2. 画面中央の「組織特異的に発現する遺伝子を見る」の臓器アイコンにカーソルを合わせると、更に詳細な部位のアイコンが出るので、調べたい臓器(例として肝臓)をクリックします。
    • http://gyazo.com/35c8f38340753e8f433cb8c4d8fd812b
  3. 検索結果一覧が表示されます。検索結果一覧では、「ソート項目の切り替え」や「絞り込み検索」、「リストへの追加」ができます。(手順11以降で解説します。)
  4. 各遺伝子の青字の部分(例 fibrinogen alpha chain)をクリックすると詳細情報を閲覧できます。
  5. 「ヒートマップ on Bodyparts3D」では、表示する部位の切り替え(全身・体幹部・頭部)ができます。「皮膚・骨格筋を表示」もしくは「アニメーション表示」にチェックを入れるとどのように表示されるでしょうか。
  6. 「組織40分類別データ」では、バーの上にマウスオーバーすると測定部位と発現値が表示されます。
  7. 「Download」をクリックすると、表示中の遺伝子の組織40分類別の発現データがタブ区切り形式でダウンロードできます。
  8. 「Probe set ID」のリンク先をクリックすると、どういう情報が参照できるでしょうか。
  9. 遺伝子オントロジー(Gene Ontology:GO ID)をクリックすると、そのGO termを持つ他の遺伝子を一括で検索できます。
    • 例として、GO:0007596 blood coagulation をクリックしてみましょう。
    • 遺伝子詳細情報
  10. 右側のFANTOM5 CAGEのタブをクリックすると、FANTOM5 CAGEデータのビューアに切り替わります。
    • ビューアは上部が拡大図で、下部が全体表示になっています。
    • 検索窓にキーワードを入れるとサンプル名を検索できます。ヒットしたサンプルはオレンジ色で強調されます。
    • 右側に、サンプル名と発現値、サンプル分類が表示されます。
    • RefEx用に整理したサンプル情報一覧も閲覧可能です。
    • FANTOM5 CAGE Viewer
  11. 検索結果一覧に戻ります。ソート項目を切り替えて、どのように結果が変わるでしょうか。
    • 検索結果一覧
  12. 様々な条件で検索結果を絞り込むことができます。絞り込み検索は左のバーから行えます。
    • 遺伝子名に「liver」を含むデータは何件あるでしょうか。
    • 「遺伝子名」の下の「条件なし」をクリックして表示されるウインドウに「liver」と入力し、「Include」をクリックし、「この条件で絞り込み」を押します。
    • 「遺伝子名」の項目で「Exclude」に「solute」を加えると、検索結果はどう変わるでしょうか。
    • 「組織」の項目で、データ元をRNA-seqに変更したり、臓器の指定を追加すると検索結果はどう変わるでしょうか。
    • 「必ず含むデータセット」の「ALL」にチェックを入れると、検索結果はどう変わるでしょうか。
  13. 個々の遺伝子の詳細情報は、リストに追加することで並列に比較することができます。
    • 肝臓特異的遺伝子の検索結果一覧に移動して、3つの遺伝子を「リストに追加」してみましょう。
    • 追加した件数は「リストを見る」の横に表示されます。
    • 「リストを見る」をクリックするとリストに移動します。
    • 『並べて表示する』にチェックを入れて、「遺伝子を並べて表示」をクリックします。
    • 遺伝子発現データやGeneOntology情報を並列に比較することで見えてくる「違い」はなんでしょうか。その違いからどういうことが推測できるでしょうか。
    • 並列比較1
    • 並列比較2
  14. 自分の研究テーマに関連する、また興味のある遺伝子について検索してみましょう。

関連するツール


数十~数千の遺伝子群の生物学的解釈

  • マイクロアレイやNGS実験を行うと大量の発現変動遺伝子 (Differentially Expressed Genes: DEGs)が得られます。
  • 一般的な遺伝子発現解析の第一歩は、実験条件によって得られた数十~数千のDEGsが生物学的にどういう意味を持つかを考えることです。
    • Gyazo

ChIP-Atlas

ChIP-Atlasは、論文などで報告された ChIP-seq データを閲覧し、利活用するためのウェブサービスです。データ処理の知識やスキルがない方でも簡単に利用できます。データソースは、公開 NGS データレポジトリ (NCBI, EMBL-EBI, DDBJ) に登録されたほぼ全ての ChIP-seq データです。ChIP-Atlas は、九州大学大学院医学研究院 発生再生学分野 (http://www.dev.med.kyushu-u.ac.jp) と DBCLS が共同で開発しています。
(https://chip-atlas.org/)

fig10

fig11

ChIP-Atlasの機能

Peak Browser
Target Genes
Colocalization
Enrichment Analysis

利用例

  • 論文として発表された ChIP-Seq データを閲覧したい
  • 興味のあるゲノム領域における、転写因子や修飾ヒストンの分布を知りたい
  • 興味のある転写因子の下流遺伝子や、複合体形成パートナーを知りたい
  • 自身の研究データと公開 ChIP-seq データを用いて比較解析をおこないたい

参考文献

【使用例】ChIP-AtlasのEnrichment Analysis を使って、興味ある遺伝子リストを制御する可能性の高い転写因子を調べる

  1. ChIP-Atlas - Enrichment Analysisにアクセスします。
  2. 下図のようにオプションを設定します。 fig12
  3. submit すると遺伝研スパコンへクエリが飛びます。(ので、講義中は見てるだけにしてください)
  4. submit したあとの画面 fig13
  5. 計算が終わるまで待ちます fig14
  6. 計算が終わると、「Result URL」が有効になります。
  1. 結果の解釈をします。
  • 今回は、どういう「興味ある遺伝子リスト」を使ったか、について上記の結果から考察してみましょう。
    • p-valueが小さい=統計的に有意にEnrichしている
    • Overlaps/My dataが多い=自分の遺伝子リスト中でピークがオーバーラップしている数
    • Fold Enrichmentが高い=(Overlaps/Control)/(Overlaps/My data)の割合が高い
    • これらを満たす転写因子がたくさんヒットしている → 入力した遺伝子群をまとめて制御する、マスター転写因子を抽出できている可能性が高いと解釈できる。
  1. 答え合わせ

関連するツール


公共データベース上にある遺伝子発現データを解析する

  • NCBIが提供・維持管理している世界最大の遺伝子発現情報のデータベース
  • 自分の興味のある発現データセットや遺伝子プロファイルを検索することができるだけでなく、それらの生データを自由にダウンロードすることが可能です。
    • GEOのエントリについて(GEO ID番号の最初の3文字の意味)
      • GPL: Platform ー 実験手法の種類別に振られたID
      • GSM: Sample ー 1つのサンプルから得られたデータごとに振られたID
      • GSE: Series ー 1つの実験で得られたGSMのセットごとに振られたID
      • GDS: DataSet ー NCBIのスタッフが解析可能なデータを集めて再編成したGSMのセット
    • 【統合TV】NCBI GEOのデータセットブラウザを使って公共データの遺伝子発現解析を行う 2019
  • NCBIが提供している遺伝子発現データの解析ツール
    • 統計解析ソフト R をベースに解析します。
    • GEOに登録されているデータセットの中から、それぞれのサンプルデータを比較したいグループに分け、統計解析することによって発現量に差がある遺伝子群のリストを取得できます。
  • マイクロアレイの生データの検索から簡易的な統計解析までを収録したハンズオン動画をご参照ください。

関連するツール

  • GEOに登録されているRNA-Seqデータを再利用するための処理済みデータと各種解析ツールを提供しているウェブツール
    • GREINで提供されている処理済みデータセットはヒト・マウス・ラットを対象に6,500以上(40万サンプル相当)
    • 各データは、GREP2: GEO RNA-seq Experiments Processing Pipelineによって処理されています。
    • データセットのクオリティコントロールや発現パターンの視覚化、サンプルサイズとそれに基づく発現変動遺伝子の検出力分析などのRNA-seqデータの再利用に必要な典型的な調査が容易に実行できます。
    • 発現変動遺伝子の検出やクラスタリング、主成分分析(PCA)、t-SNE、エンリッチメント解析およびネットワーク解析についてもインタラクティブに実行することができます。
  • 【統合TV】GREINを使ってNCBI GEOのRNA-seqデータを分析する
  • ウェブブラウザ上でRNA-seqデータ解析を行うことができるウェブツール
    • RNA-seqやマイクロアレイ、ChIP-seq実験等で得られた遺伝子発現データ(リードカウントまたはFPKM、正規化済みの発現値、Fold-changeなど)を入力
    • ヒートマップやPCA、発現差解析、パスウェイ解析、エンリッチメント解析、バイクラスタリング法および共発現ネットワーク解析などの一連のデータ解析をインタラクティブに実行することができます。
  • 【統合TV】iDEPを使ってウェブブラウザ上でRNA-seqデータ解析を行う
  • ウェブブラウザ上で、RNA-seqデータ解析のJupyter Notebookを作成することができるツール
    • データ解析ツールも多数用意されており、オプションを自由に指定することや作成された図を動かしながらデータの解釈をすることができます。
    • 作成したJupyter Notebookは個別にURLも発行されるので、データの共有や第三者による再現が可能です。
      • Jupyter Notebook (読み方は「ジュピター・ノートブック」) とは、ノートブックと呼ばれる形式で作成したプログラムを実行し、実行結果を記録しながら、データの分析作業を進めるためのツールのこと
  • 【統合TV】BioJupiesを使ってウェブブラウザ上でRNA-seqデータ解析を行う

研究現場で頻繁に使われるデータベースやツールを知る

生命科学分野の有用なデータベースやツールの使い方を動画で紹介するウェブサイト

  • https://togotv.dbcls.jp/
  • 統合TVトップページ
  • 各動画はYouTubeに上がっており、おなじみの再生画面で快適にご覧いただけます。(環境に応じた解像度、倍速表示等)
  • 1800本を超える動画が公開されており、YouTube版だけで のべ 1,800,000回以上 再生されています。(2020年10月末現在)
  • YouTube統計
  • 統合TV 再生画面
    • ウェブサイトへのアクセスの仕方から結果の解釈まで、操作の一挙手一投足がわかります。
    • 動画ファイルのみの一部および一括ダウンロード(NBDC生命科学系データベースアーカイブ)も可能で、オフライン視聴もできます。
    • 動画の概要を示すダイジェスト見出しで視聴すべき箇所がわかりやすくなっています。
    • 各動画には、恒久的な URL として利用されている DOI (Digital Object Identifier) が付与されています(引用可能)。
    • 講義・講習などの参考資料や後輩指導の教材として利用できます。

動画以外のコンテンツも拡充中

  • AJACS講習会資料
    • 2014年8月以降に開催された過去の講習会の資料・テキストと動画が同時閲覧できます。
    • 受講生の復習のみならず、初学者の学習教材として活用できます。
  • Togo Picture Gallery(静止画)
    • 誰でも自由に利用可能なライフサイエンス分野のイラストが、統合TVから閲覧、利用することができるようになりました。「自由に使える画像を探す」
    • Togo picture galleryと生物アイコンの全画像700点以上を一覧できます。
    • 研究発表のスライド作成や資料作成等に、ぜひお使いください。
    • 自由に使える画像を探す

募集と宣伝

  • お探しの動画・静止画が見つからない場合は、統合TV番組リクエストフォームでお気軽にリクエストを。
  • 統合TVでコンテンツを作ってみたい方も募集中です。
    • オンラインで完結する作成環境を整備しており、遠隔地でもOKです。謝金あり。)
  • 統合TVを効果的に利用するためのガイドブックが出版されました。(2018年12月)

ウェブサイトリニューアル(11月中を予定)

習熟度ややりたいこと別に、とりあえず押さえておきたい統合TVオススメ番組


まとめ

  • つまみ食い的ではありますが、遺伝子発現データの生物学的解釈を助ける(ごく一部の)データベース・ウェブツールの使い方を紹介しました。
  • データベースやウェブツールは、顕微鏡 や 実験試薬 などと同じ「道具(ツール)」なので使ってナンボです。
  • 便利な「道具」を知って、その使い方が分かれば、あとは情報分析力と想像力の勝負です。
    • 正面からしか見られなかったものが横や後ろやナナメから見ることができて初めて気づくことがあるかもしれません。
  • 仮説構築から始まり、実験計画・検証、データ解析、そして論文執筆(以下ループ)という研究サイクルを加速化・効率化していきましょう。
  • データベースやウェブツールで困ったら、「統合TV」でまず探して・見てみる・使ってみる
  • 研究に役立ったら、ぜひ引用・クレジットを!
    • NBDC/DBCLSの提供するサービス(あるいはそれ以外でも)が、あなたの研究に役立ったら、どんなに些細な事でもぜひ引用(論文、URL等)してください。NBDC/DBCLSの活動は、提供するサービスがどのくらい活用されたかについて主に引用数やアクセス数などで評価されており、利用者の方の積極的なサポートが必要不可欠です!!
    • NBDC関連サービスの活用に関する情報提供フォーム