ChIP-Atlasのアップデート:エピゲノムのランドスケープを探索するデータマイニングプラットフォームの10周年

  • その他
  • ファンディング
  • 統合化推進プログラム
2026年5月14日

2026年4月29日、熊本大学 生命資源研究・支援センターの沖 真弥 教授らは、ChIP-Atlasの公開10周年とメジャーアップデートに関する論文を、科学雑誌「Nucleic Acids Research」のウェブサーバー特集号に発表しました。あわせて5月8日に熊本大学、千葉大学、理化学研究所、国立遺伝学研究所が共同プレスリリースをおこないました。

ChIP-Atlasは、ヒトと5つのモデル生物(マウス、ラット、ショウジョウバエ、線虫、出芽酵母)のゲノム-タンパク質相互作用(ChIP-seq)、オープンクロマチン情報(DNase-seq, ATAC-seq)、メチローム情報(Bisulfite-seq)を収載したエピゲノミクスの統合データベースです。2015年のリリース以来、ChIP-Atlasは、遺伝学、疾患メカニズムの研究、創薬、発生生物学など、多くの研究分野で利用されており、国内外の1,500以上の論文で引用されています。

今回のアップデートでは、個々の実験データの信頼性を可視化する新機能が導入されました。この機能では、各実験データのリード数やピーク数が、同じような実験データ全体の中でどのような位置にあるかが視覚化されます。これにより、その実験データが信頼に足る十分なデータに基づいているかを把握できるようになりました。さらに、同じような条件で実施された他の実験と比較することで、それらの実験データ間の類似度を評価できるようになり、その実験データが典型的なものか、あるいは他の実験データとは異なる何か特徴的な挙動を示しているのかを直感的に判断できるようになりました。

ChIP-Atlasは、数十万件の実験データを統合し、横断的にデータマイニングし遺伝子発現の制御因子を推定する転写因子エンリッチメント解析機能が実装されています。これまでのエンリッチメント解析機能では、利用者が作成した発現が異なる遺伝子(DEG)のリストに共通して結合する転写因子を網羅的に調べることで、それらをまとめて制御する上流因子を特定していました。今回のアップデートでは、RNA-seq実験で得られた遺伝子発現のデータを入力データとする新たな解析モジュール(PAGEベースのエンリッチメント解析)が追加されました。このモジュールを使うと、すべての遺伝子の発現変化を連続値として統計的に扱い、各転写因子の標的遺伝子群が全体としてどの方向に変化しているかを評価することから、発現変化が小さな重要遺伝子を外すことなく、その背後にある制御因子を網羅的に推定することが可能となりました。

図1 実験データの品質管理フレームワーク

SRX10829255 (https://chip-atlas.org/view?id=SRX10829255) の品質管理パネル。(左)リード数とピーク数の分布プロットは、比較可能なデータセットに対する選択された実験 (オレンジ色の水平線) の位置を示す。(右)相関ヒートマップは、実験間のペアワイズピアソン相関を示し、色は青 (相関が低い) から赤 (相関が高い) まで変化する。階層的クラスタリングは、ゲノム全体のシグナルプロファイルの類似性に基づいて実験をグループ化したもの。矢印は選択された実験の位置を示し、色は同じ生物学的コンテキスト内の他の実験との選択された実験の相関の中央値を反映している。

図2 DEGベースのエンリッチメント解析とPAGEベースのエンリッチメント解析の概略図

(a) DEG(差次的発現遺伝子)に基づくエンリッチメント解析の概略図。発現が異なる遺伝子(DEG)のリストに共通して結合する転写因子を網羅的に調べ、それらをまとめて制御する上流因子を特定して提示する。(b) PAGE(遺伝子セットエンリッチメントのパラメトリック解析)に基づくエンリッチメント解析の概略図。PAGEではすべての遺伝子の連続リードカウントを使用し、各ChIP-seqデータセット(ターゲット遺伝子セット)に関連付けられた遺伝子の平均log₂FCを、すべての遺伝子のゲノム全体の平均log₂FCと比較して、遺伝子セットレベルでの転写エンリッチメントを定量化するZスコアを生成する。このことにより、閾値依存型のDEG解析では見逃される可能性があった、変動幅が小さくても協調的に転写変化する遺伝子群を反映して、それらの制御因子を解析できるようになる。

統合化推進プログラムの研究開発課題「統合的な転写制御データ基盤の構築」(研究代表者:粕川 雄也 理化学研究所 生命医科学研究センター チームリーダー)では、転写制御データ基盤「INTRARED」の一環として、ChIP-Atlasを開発・運用しています。

詳細は、論文ならびにプレスリリースをご覧ください。

<ChIP-Atlas収載データ>(2026年5月1日現在)

ChIP-seq (ゲノム-タンパク質相互作用) 262,634件
ATAC-seq (オープンクロマチン情報) 97,673件
DNase-seq (オープンクロマチン情報) 6,495件
Bisulfite-seq (メチローム情報) 65,516件
合計 432,318件

NBDCメルマガ

「NBDCメルマガ」NBDCの講習会・研究費公募・成果情報などを月1回お届けします。