国立研究開発法人 科学技術振興機構

ASHG2019 および GA4GH 7th plenary に参加して

2020年3月16日
豊岡 理人(NBDC)

NBDC の豊岡です。

2019年10月16日から19日に米国ヒューストンで開催された「アメリカ人類遺伝学会年次総会(ASHG2019)」および2019年10月21日から23日に米国ボストンで開催された「GA4GH 7th plenary」に参加して来ましたので、その報告をしたいと思います。

アメリカ人類遺伝学会(American Society for Human Genetics)は、ヒトに関連する遺伝学研究の学会として世界最大級であり、年次総会では疾患や形質、バイオインフォマティクスに関連した研究だけではなく、倫理や教育を含む広汎な内容についても発表が行われます。

また、GA4GH は Global Alliance for Genomics and Health の略であり、ゲノムデータおよびそれに付随するデータを倫理的な観点を考慮しながらも国を超えた共有や解析をするための枠組みや標準的なツールの開発を行うことで、ゲノムデータを用いた研究の促進を目指す国際的なアライアンスです。

アメリカ人類遺伝学会年次総会(ASHG2019)

約6500名の研究者および250社が参加し、トータルのセッション数は111、ポスター数は約3,000、最大9つのセッションが同時開催された非常に大規模な学会でした。

私は現在、公的資金を受けた研究より産出されたヒトゲノムデータの寄託およびデータ産出者以外の研究者も利用が可能な「NBDCヒトデータベース」の運営に携わっています。

また、このデータベースに寄託いただいたデータを用いて日本人集団のヒトゲノムに存在する variation に関連する情報を集約したサービス「TogoVar」を運営している観点から、ヒトゲノムやその variation のデータベースに関連するプロジェクトの動向を報告します。

1.dbGaP から大規模なデータセットの頻度情報が公開へ

米国 NCBI が運営しているヒトゲノムの制限共有データベース(※1)The database of Genotypes and Phenotypes(dbGaP)(※2)には様々なデータセットが寄託され、他の研究者からのデータの再利用も進んでいます。ASHG2019 のセッションでの発表(※3)によると、dbGaP では総スタディ数は1,274、総サンプル数は240万をこえる非常に大規模なデータが利用可能となっています。寄託されたデータを NIH が解析した variation の頻度情報は2008年から2018年まで制限公開扱いとなっていましたが、その公開についてのパブリックコメントの募集等を経て、ASHG2019 では今後の方針として非制限情報とすることが発表されました。

併せて、Allele Frequency Aggregator(ALFA)project(※3)として、大規模なサンプルを用いた頻度データセットが作成されることが発表されました。

現在、非制限公開情報として利用できるvariationの頻度情報データベースは gnomADであり、ここからは約14万1千サンプル分が公開されていますが、ALFA から非制限公開として公開されるデータは gnomAD のサンプル数をわずかに超える14万2千サンプル(※3)が解析対象となっています 。ただし、dbGaP に登録されたすべてのデータセットの解析結果が公開されるわけではなく、サンプル数が小さいデータセットや ethnicity といった機微な情報となりうるデータセットについては、解析対象から除く配慮がなされています。

現在 dbSNPではプロジェクトごと、集団ごとに頻度情報が表示されていますが、それらのデータを統合して解析した頻度情報が近々公開される予定とのことです。

2.gnomAD が頻度データを追加

現在のところ全ゲノムシークエンス(Whole Genome Sequence: WGS)データや全エクソームシークエンス(Whole Exome Sequence: WES)データを収集し、統合して variation の頻度データを解析したデータベースで最大のものは、gnomADです。

gnomAD は複数の研究から収集されたサンプルを用いてバリアント検知を実施したデータベースであり、健常グループや非がんグループ、非神経疾患グループ毎にバリアントのアリル頻度やジェノタイプ頻度およびその検知の精度を知ることが出来るデータベースです。さらに、各グループのうち、遺伝的背景の異なる集団毎(例えば、ヨーロッパ集団、アフリカ集団、東アジア集団など)や男女毎にその頻度を知ることが可能です。

当データベースは、これまで125,748サンプルの WES データと15,708サンプルの WGS データを GRCh37 の参照配列に当てた結果得られた variation の頻度データを公開していましたが、新しいデータセットとして、71,702サンプルの WGS データをヒトゲノムの最新の参照配列である GRCh38 に当てて解析した結果を新たに公開したことを発表しました。これに加えて、10,847サンプルの WGS データを GRCh37 に当てて得られた構造多型(Structural Variant: SV)の頻度データを公開しました。

gnomAD は今後も解析対象サンプル数を増やしつつ、参照配列の更新や解析対象を SV に広げていくことが考えられますが、gnomAD のデータベースには日本人は76サンプルしか含まれていません。余談ですが、WGS データを用いた日本人集団の最大サンプル数を持つ variation データベースは地域住民コホートで得られたデータを解析した東北メディカルメガバンクの jMorpであり、約4,700サンプルからの頻度情報が公開されています。

また、我々が運営しているTogoVarに登録された JGA-SNP というデータセットには、SNP チップを用いて得られた18万サンプルをこえる日本人集団の variation のデータが含まれています。JGA-SNP は主に疾患コホートであるバイオバンクジャパンより寄託されたデータをもとに作成されましたが、この元のデータは NBDC ヒトデータベースに制限公開データとして公開されていますので、当該データの利用を記載した研究計画書について所属機関の倫理審査委員会にて審査を通した後、NBDC への利用申請・審査を経て利用可能となります。

利用申請の詳細については、NBDC ヒトデータベースガイドラインに基づく手順を参照いただくか、NBDC ヒトデータ事務局までお問い合わせください。

アメリカ人類遺伝学会年次総会(ASHG2019)の会場となったヒューストンの George R. Brown Convention Center

GA4GH 7th plenary

GA4GH では、国際的に協調したゲノムデータの共有や解析に関する課題を Workstream という単位に分割し、各々の Workstream での課題を解決するために必要なフレームワークや標準的なツールを開発する活動が日々行われています。Workstream の一部をご紹介しますと、異なるクラウド環境においても再現性のある解析プロトコールを実行可能とするための実行エンジンを開発する Cloud workstream や、ゲノムデータを共有する際のデータフォーマット(次世代シークエンサで用いられる SAM、 BAM、CRAM、VCF 等)を開発する Large Scale Genomics workstream 等があります。各 Workstream では、その領域に興味を持つ様々なプレイヤー(各国のゲノムデータを用いて研究を行っているプロジェクトや研究機関、民間企業)から研究者が参加する形で開発が行われています。

開発に積極的に関与するプロジェクトを GA4GH では Driver Project と呼んでおり、日本からは AMED の「GEM Japan」プロジェクトも Driver Project のプレイヤーとして参加しています。GA4GH はプロジェクトの活動をオープンにしていることも特徴で、各 Workstream の活動やミーティングの議事録をはじめ、今回参加したイベントもすべて資料が公開されています。

個人的には、ゲノムデータの共有や形質や疾患と関連する variation の情報交換に興味があるため、ゲノムデータの暗号化ツールの "Crypt4GH"、variation の表記方法の標準として "variation representation" の仕様公開、そして各プレイヤーが保持するデータのフェノタイプ情報の表記方法の標準である "Phenopacket" に目を引かれました。

Phenopacket については、Biosample やヨーロッパのヒトゲノムデータのデータベースである EGA で将来的に採用することが発表されていましたが、我々の運営する NBDC ヒトデータベースにも Phenopacket のような標準を適切に採用することで、日本の研究者より寄託いただいたデータのより一層の利用促進につなげて行きたいと考えています。

nbdcblog_28_02.JPG

ボストンで開催された GA4GH 7th Plenary の会場の様子

用語解説および参考リンク

著者紹介

豊岡 理人(とよおか りひと)

システムエンジニアから人類遺伝学の研究室で学位(保健学博士)取得、ポスドクを経て、現在NBDC研究員としてヒトデータベース関連のサービスを担当し、ヒトゲノムデータの再利用を促進中。趣味は城巡りとサッカー。最近読んだ本は湯川秀樹の「旅人」。

cc-by Licensed under a Creative Commons 表示4.0国際 license
©2020 豊岡理人(国立研究開発法人科学技術振興機構バイオサイエンスデータベースセンター)

AJACSウェビナー

染色体高次構造の基礎、Hi-C解析手法の原理と実践的な解析の流れまでを解説!
データ解析講習会:AJACS「Hi-C解析を知って・学んで・使う」 は2025年1月16日開催です。