世界初となるヒトゲノム全体を網羅するハプロタイプデータベースJoint Open Genome and Omics Platform (JoGo) が公開されました
- その他
- ファンディング
- 統合化推進プログラム
2025年11月29日、九州大学 生体防御医学研究所の長﨑 正朗 教授らの研究グループは、ヒト遺伝子を網羅するハプロタイプカタログを収載したデータベースJoint Open Genome and Omics Platform (JoGo)の公開について、科学雑誌「Nucleic Acids Research」のDatabase Issue (データベース特集号) に掲載したことを報告しました。また本論文は、本雑誌のBreakthrough articleに選出されました。九州大学、理化学研究所、国立健康危機管理研究機構 国立国際医療研究センター、情報・システム研究機構、北里大学、およびJSTは、12月3日付でプレスリリースをおこない、JoGoに収載されたデータの詳細や機能とともにその意義を紹介しています。
これまでの遺伝子配列の違いの解析は、個々の遺伝子変異や多型(バリアント)が与える影響を調べる研究が中心でした。しかしながら、体質など遺伝子のバリアントが与える影響には、複数の遺伝子のバリアントの組み合わせ(ハプロタイプ(※1))によって決まるものがあります。その身近な例としては、例えばABO式血液型(※2)があります。
これまで、こうしたハプロタイプ解析は、例えば、薬剤代謝に関わるシトクロムP450(CYP)遺伝子群など、限られた遺伝子群のみを対象として行われ、薬物代謝能力の分類や薬物投与最適化などの臨床応用などに活用されてきました。このように、ハプロタイプ解析の重要性は以前から認識されていましたが、短鎖型シーケンス法(※3)で決められた多くのゲノム配列では、ゲノムの長い領域にわたる正確なハプロタイプを決めることが困難だったため、ヒトゲノム全体を網羅するハプロタイプデータベースは、これまで存在しませんでした。
近年、長鎖型シーケンス法(※4)の技術開発が進み、ゲノム全長にわたる正確なハプロタイプを決めることができるヒトのゲノム配列を決定できるようになりました。そこで、長﨑教授らは、ハプロタイプを、A(タンパク質コード領域内のアミノ酸置換を伴うバリアント)/C(タンパク質コード領域内のアミノ酸置換を伴わないバリアント)/T(転写産物の非コード領域(5'-UTRと3'-UTR)のバリアント)/G(ゲノム遺伝子領域のイントロン内のバリアント)の階層で定義し、ハプロタイプをゲノム全体へ拡張して一意のIDを付与することができる「ACTG階層命名法」(※5)を提案するとともに、長鎖型シーケンス法で決定された5大陸258人分のゲノム配列を用いて同定したハプロタイプカタログを構築しました。そして、それらを収載したデータベース、Joint Open Genome and Omics Platform (JoGo)を公開しました。ゲノム全体にわたるハプロタイプカタログとしては、世界で初めてのデータベースになります。この中には日本人108人に由来するサンプルのゲノム配列も含まれています。
さらに、長﨑教授らは、3つの研究プロジェクトにおいて不死化B細胞で調べられた1,280人分の遺伝子発現情報と、同一検体におけるハプロタイプと遺伝子発現量の相関を調べて、JoGo Platformを使ってACTG階層命名法で定義されたハプロタイプと遺伝子の発現量の関係を調べられるようにしました。
ヒトのゲノムの配列は99.9%が同じだと言われていますが、残り0.1%の違いによって、特定の病気への罹りやすさとか、特定の薬への副作用の出やすさといった個人の体質の違いが決まるものと考えられています。これまで、一つ一つの遺伝子の変異や多型(="点")の違いでは説明できなかった個人の体質の違いを、複数箇所の変異や多型の組合せ(="線")である「ハプロタイプ」としてとらえることで、人間の遺伝学的な多様性を広く説明できるようになると長﨑教授は述べています。
本研究の詳細は、論文「JoGo 1.0: the ACTG hierarchical nomenclature and database covering 4.7 million haplotypes across 19,194 human genes」ならびにプレスリリースをご覧ください。
<JoGoプラットフォーム v.1.0の収載データ数>(2025年11月29日現在)
- 解析対象サンプル:258サンプル
うち日本人由来サンプル:108サンプル - MANE標準タンパク質コード遺伝子:19,194遺伝子
- ハプロタイプ:4,656,478件
A(タンパク質コード領域内のアミノ酸置換を伴うコード領域内のバリアント):174,376件
C(タンパク質コード領域内のアミノ酸置換を伴わないバリアント):300,610件
T(転写産物の非コード領域(5'-UTRと3'-UTR)のバリアント):486,288件
G(ゲノム遺伝子領域のイントロン内のバリアント):3,695,204件
JoGo Platformは、統合化推進プログラムの研究開発課題「日本人塩基配列情報の公開可能なゲノム・オミクス情報基盤による双方向型研究教育データベース開発と国際連携」(研究代表者 九州大学 生体防御医学研究所 長﨑 正朗 教授)の一環として開発されました。
用語解説
※1 ハプロタイプ(haplotype):同じ染色体上で一緒に受け継がれる複数のバリアントの組み合わせ。単独のバリアントよりも、まとまりとして機能に影響することがある。
※2 ABO式血液型: ABO式血液型は、赤血球表面の2種類の糖鎖抗原の組み合わせによって決まる。A型糖鎖には末端にN-アセチルガラクトサミンが、B型糖鎖にはガラクトースが結合している。9番染色体上にある両親から受け継いだA型糖鎖とB型糖鎖を作る2箇所の糖転移酵素遺伝子座の配列の違いの組み合わせによって、AA、AO、BB、BO、AB、OO(「O」はその型の糖鎖が付加しない)の違いが生じ、A型(AA、AO)、B型(BB、BO)、AB型(AB)、O型(OO)の血液型に分かれる。
※3 短鎖型シーケンス法:一般的に「次世代シーケンサー」と呼ばれる装置で読み取る遺伝子配列で、ヒトゲノム配列の多くがこの方法で決定されてきた。DNAを短い断片に切断し、その両端の100-150塩基程度の短い配列を同時に並行して大量に配列を読み取り、それらの短い配列をコンピュータ上でつなぎ合わせる塩基配列決定法。大規模な解析が安価でできる一方、類似した配列が繰り返される反復配列領域や、読み取り長を超える長さの挿入や欠失、転座、逆位といった大きな構造変異の検出ができない。
※4 長鎖型シーケンス法:一度に数千から数万塩基の長いDNA断片の配列を読み取る塩基配列決定法。短鎖型シーケンス法(※3)とは異なり、反復配列領域や大きな構造変異の検出ができるほか、両親のそれぞれから受け継いだゲノムを区別して配列を読み取ることができる。そのため、短鎖型シーケンス法で決定したゲノム配列では困難だったハプロタイプ解析が可能なゲノム配列となる。
※5 ACTG階層命名法:本研究で新たに提案されたゲノムワイドに適用可能なハプロタイプ命名方式。遺伝子配列型を A(アミノ酸置換を伴うコード領域内の変異)/C(タンパク質コード領域)/T(非翻訳領域を含む転写領域)/G(イントロンを含む遺伝子本体)の階層で表し、頻度順にIDを付けている。
図1 (A) JoGoポータルのコンテンツと機能の概要。(B) ACTGハプロタイプ表記法とJoGoデータベースのハプロタイプコレクションの概要。(C) A、C、T、GレベルのハプロタイプIDの割り当てと階層的ハプロタイプIDの構築例。
図2 (A) HBB遺伝子座のオンラインハプロタイプエクスプローラー表示。AレベルからCレベル、Tレベル、Gレベルまでの階層的なACTGハプロタイプ表記に加え、ACレベル、ACTレベル、およびACTGレベル全体のハプロタイプ構造の組み合わせを示す。インセットには、ランク付けされたハプロタイプID(例:a1、c1、t1、g1)と、代表的な配列モチーフ、および色分けされたアレル差異が表示されている。(B) HBB遺伝子座におけるAレベルハプロタイプのオンラインハプロタイプエクスプローラーの詳細表示。上部のカラーバーは各バリアントのグローバル頻度を示し(濃い色ほど頻度が高いことを示す)、マウスオーバーで表示されるバープロットのツールチップには、JoGo参照集団全体のアレル数が表示される。左側のカラーバーは各Aレベルハプロタイプのグローバル頻度を示し、ハプロタイプ数についても同様のツールチップが表示される。変異体をクリックするか、マウスを移動すると、ClinVar 注釈も表示され、変異体の注釈を集約する JoGo が連携するデータベースTogoVar 内の対応するレコードへの直接リンクが提供される。
図3 (A) IGVにおけるHBB遺伝子座のローカルハプロタイプエクスプローラーセッション。JoGoの遺伝子ごとのACTGハプロタイプ辞書は、事前アライメント済みのBAMとして提供され、各「リード」はハプロタイプを表し、A、C、T、G(およびAC、ACT、ACTG)IDのカスタムタグと集団ラベルが付与されている。公開されているJoGo参照トラック(領域1)と、IGVに非公開でロードされた同じ公開JoGoデータ(領域2)がGRCh38座標(chr11:5,226,550-5,227,092)上に一緒に表示され、共通配列領域と相違配列領域を安全に並べて探索できる。(B) GRCh38およびCHM13v2参照コード配列を含む、HBBの推定Aレベルタンパク質ハプロタイプの多重配列アライメント。 (C) HBB遺伝子座のACTGレベル連鎖不平衡(LD)ヒートマップ。セルはコーディングバリアント間のペアワイズD′値(濃い色=強いLD、薄い色=弱いLD)によって網掛けされており、ヌクレオチドレベルでのハプロタイプ構造を示している。(D) 5つのJoGo参照集団(EAS、AFR、AMR、SAS、EUR)におけるAレベルHBBハプロタイプの集団別カウント。バーは各集団で観察された異なるAレベルハプロタイプの数を示し、集団内および集団間のハプロタイプ多様性の比較ができる。
関連リンク
- プレスリリース「ヒト遺伝子の"型"を網羅 データベース「JoGo」一般公開 ~1.9万遺伝子に対する470万の配列型を収載、病気や遺伝解析を後押し~」(2025年12月3日) | JST
- 論文「JoGo 1.0: the ACTG hierarchical nomenclature and database covering 4.7 million haplotypes across 19,194 human genes」| Nucleic Acids Research
- データベース JoGo Platform
- 「日本人塩基配列情報の公開可能なゲノム・オミクス情報基盤による双方向型研究教育データベース開発と国際連携」(研究代表者 九州大学 生体防御医学研究所 長﨑 正朗 教授) - 採択課題 | NBDCサイト
課題概要や報告書などを掲載しています。