国立研究開発法人 科学技術振興機構

日本人ゲノム多様性統合データベース「TogoVar」が取り組んだヒトゲノム研究における2つの課題

2018年9月5日
豊岡 理人(NBDC)

NBDCの豊岡です。

2018年6月7日、私も開発に携わった新サービス「TogoVar」がリリースされました。TogoVarは、国内外のデータベースで公開されているヒトゲノムのバリアントの頻度情報や、それに付随するアノテーション情報、そして既報論文をワンストップで提供するサービスです。

TogoVarは下記のURLから誰でも無料でアクセス可能です。
https://togovar.biosciencedbc.jp

図1

ヒトゲノムの塩基配列には個人ごとに様々な"違い"があることが知られており、ゲノム配列中で参照配列と異なる箇所をバリアントと呼びます。疾患を含む様々な形質とこのバリアントとの関連を調べる研究が数多く行われています。

TogoVarの開発の出発点となったのは、ヒトゲノムと形質との関連を調べる研究において、研究者が突き当たっている以下の2つの課題でした。

  1. 次世代シークエンサー(NGS)を用いた解析から大量に出力されるバリアントにはrs番号が付かないものがある
  2. バリアントのアリル頻度(ある集団において特定のバリアントが出現する頻度)を集団間で比較する際や、バリアントに関する様々な情報を収集する際に、Web上にデータが散在していることから、取得するのに時間が掛かる

本記事では、これらの課題にどのようにTogoVarが取り組んだかについて紹介します。

課題1:NGSを用いた解析から大量に出力されるバリアントにはrs番号が付かないものがある

ヒトゲノムのバリアントのユニークな識別子(他のものと区別するために付けられる文字列)として、一塩基多型等のバリアントについては、米国NIHのdbSNPへの登録時に発行されるrs番号が、構造多型等のバリアントについては、dbVarへの登録時に発行されるnsv/esv番号が、よく利用されています。しかし、昨今のNGS技術の進展に伴い、それらの番号と紐づかないバリアントが大量に検知されるようになりました。

例えば、日本人1,070人の検体を用いて全ゲノム領域をシークエンスした2015年の論文では、検知された一塩基が変化したバリアントのうちの56.55%、1bp以上100bp未満の欠失(deletion)のうちの72.60%、1bp以上100bp未満の挿入(insertion)のうちの74.98%が、rs番号などの識別子が付けられていない新規なものであったと報告されています1)

ユニークな識別子が付けられてないバリアントについて、他のデータベースと情報をリンクさせようと思うと、ゲノムアセンブリのバージョンやストランド、位置を揃える必要があり、様々なデータベース上や論文に記載されているバリアント情報を統一的に扱うのは、とても手間のかかる作業です。

そこでTogoVarでは、日本人ゲノムデータを多く収録している東北メディカル・メガバンク機構のiJGVDや京都大学のHGVD、そして様々な集団の頻度情報を収載した米国ブロード研究所のExACからバリアント情報を収集し、新たな識別子TogoVar IDを付与しました。

また、NBDCはヒトゲノムのデータリポジトリとして「NBDCヒトデータベース」を運用していますが、こちらから公開されたデータについても、バリアント情報を収集しTogoVar IDを付与しました。なお、「NBDCヒトデータベース」に登録されたすべてのデータが対象となるわけではなく、データを寄託される際に寄託者からデータの利用を促進する目的で、データの概要を公開するための2次データの作成に許諾を頂いたデータを対象にバリアントデータを収集しています。

これにより、前述のデータセット間では、TogoVar IDを使ってスムーズにデータを結合できるようになりました。

また、ユーザーの利便性のため、バリアントの論文内表記としてしばしば見られるHGVS(Human Genome Variation Society)表記も併記しています。

課題2:バリアントのアリル頻度を集団間で比較する際や、バリアントに関する様々な情報を収集する際に、Web上にデータが散在していることから、取得するのに時間が掛かる

様々な形質とバリアントとの関連を研究する際に、ある形質と関連があると考えられるバリアントについて、研究対象集団のアリル頻度と様々なデータベースに登録された集団のアリル頻度とを比較することがあります。

ある形質と関連があると考えられるバリアントは、1回の解析において数個~数十個、数百個と検出されることもあるので、バリアントごとに様々なデータベースに散在する情報を収集することは、研究者にとって時間のかかる作業でした。

そこでTogoVarでは、前述したiJGVD、HGVD、ExACおよびNBDCヒトデータベースのバリアントのアリル頻度情報を収載し、横断的に参照できるようにしました。

現在は、1つのバリアントについて横断的に参照できるだけですが、本年度中には複数個のバリアントについて一括して検索する機能を追加する予定です。また、TogoVarではバリアントのアリル頻度情報だけではなく、アノテーション情報としてよく利用されるVariant Effect Predictor(VEP)の情報やバリアントに関連した既報論文、ClinVarの情報も取得することができます。

今後は、利便性向上のための機能(複数のバリアントの検索や検索結果のダウンロード、HGVS表記での検索等)を追加する予定です。また、サービス開始時はNGSのデータとして125検体の全エクソームシークエンスデータを用いましたが、より大規模なデータとして「オーダーメイド医療の実現プログラム」より寄託され、本年8月に前述の「NBDCヒトデータベース」より公開した1,026検体の全ゲノムシークエンスデータの情報を反映する予定です。

その他、TogoVarに関するご意見・ご要望などありましたら、ぜひNBDCまでお寄せください。

なお、TogoVarの詳しい使い方については、解説動画統合TVより公開しましたので、興味を持たれた方はそちらもご覧ください。

末筆ながら、TogoVar開発に際し、情報・システム研究機構データサイエンス共同利用基盤施設ライフサイエンス統合データベースセンターの片山俊明特任助教、川島秀一特任助教、藤原豊史特任研究員に協力いただいたことを感謝申し上げます。

1) Masao Nagasaki et al. Rare variant discovery by deep whole-genome sequencing of 1,070 Japanese individuals. Nature Communications. 2015, 6, 8018. doi:10.1038/ncomms9018

著者紹介

豊岡 理人(とよおか りひと)

システムエンジニア等を経て現在NBDC研究員。ヒトデータベース関連のサービスを担当。ヒトゲノムデータの再利用を促進中。趣味は城巡りとサッカー。

cc-by Licensed under a Creative Commons 表示4.0国際 license
©2018 豊岡理人(国立研究開発法人科学技術振興機構バイオサイエンスデータベースセンター)

AJACSウェビナー

染色体高次構造の基礎、Hi-C解析手法の原理と実践的な解析の流れまでを解説!
データ解析講習会:AJACS「Hi-C解析を知って・学んで・使う」 は2025年1月16日開催です。