国立研究開発法人 科学技術振興機構

新型コロナウイルス(SARS-CoV-2)および新型コロナウイルス感染症(COVID-19)に関する研究データ・リソース

2020年3月3日(最終更新日:2020年6月1日)
NBDC

いま、新型コロナウイルス(SARS-CoV-2)および同ウイルスによる新型コロナウイルス感染症(COVID-19)の研究が世界各地で急ピッチに進められ、関連するデータが続々と登録・共有・公開されています。このような迅速なデータ公開が可能なのは、データ公開のための情報基盤が、日頃、綿々と維持され、今回のような事態に対して弾力的に対応可能な組織体制が構築されているからです。

この記事では、同じくデータ公開のための情報基盤の構築・維持を地道に行うNBDCのスタッフとして、そうした研究に従事する皆さまへの尊敬の念を込め、新型コロナウイルスに関連して現在公開されている研究データやwebリソースを紹介します。

なお、この記事は「自分や家族が感染していないか」や「どのように予防できるか」といったことはお伝えしていません。 新型コロナウイルス感染症の詳しい情報や予防方法は、厚生労働省のウェブサイトなどをご覧ください。

新型コロナウイルス(SARS-CoV-2)の研究データ一覧

データ種別 リンク先
ゲノム塩基配列 Severe acute respiratory syndrome coronavirus 2 data hub | NCBI Virus
アミノ酸配列情報
(2020年5月25日追記)
COVID-19 UniProtKB | UniProt
タンパク質立体構造 新型コロナウイルスの構造情報 | PDBj
学術文献
(2020年5月25日追記)
CORD-19(COVID-19 Open Research Dataset)

新型コロナウイルス(SARS-CoV-2)のゲノム情報について

2020年2月4日、生命情報・DDBJセンターは、ゲノム配列とその他関連情報が、アメリカNCBIが運営するGenBank から公開されていることを発表しました(新型コロナウイルスの配列と関連情報)。

また、同じ発表のなかで、一部のSARS-CoV-2配列データはGISAIDイニシアチブにより共有されることがある、としています。GISAIDイニシアチブは、研究者の国際的な協調による研究の迅速化を目的とした取り組みです。インフルエンザウイルスの配列情報やヒトに感染するウイルスに関連した医療データ・臨床データを、論文発表に先だって世界中のGISAIDメンバーとして登録されている研究者間で共有します。

SARS-CoV-2の系統樹は「Nextstrain」で閲覧できる(2020年6月1日追記)

GISAIDによって共有されたゲノムデータから作成された系統樹は「Nextstrain」にて閲覧することができます。Nextstrainは、新しいゲノムデータが利用可能になるたび継続的にアップデートしており、可能な限り最新の図になっています。
「Nextstrain」は、進化する病原体集団のゲノム変異をもとに、伝達経路と系統樹についてインタラクティブなデータの可視化を提供するためのサイトです。様々なコミュニティが分析に用いることのできるバイオインフォマティクスツールシリーズ(Augur)、系統発生学および系統地理学データを表示するwebベースの視覚化プログラム(Auspice)をオープンソースとして提供しています。これらのツールを使って、今回のSARS-CoV-2のように特定の重要な病原体について公開データを分析した結果を図として提供しています。

SARS-CoV-2の系統樹は自分のPCでも作成できる

GISAIDは限定された研究者向けのデータですが、GenBankに登録されたデータはどなたでもダウンロードすることができます。 例えば、自分のパソコン上で、今回の新型コロナウイルス(SARS-CoV-2)、2002年から2003年にかけて猛威を振るった重症急性呼吸器症候群(SARS)の原因となったコロナウイルス(SARS-CoV)、2012年に初めて確認された中東呼吸器症候群(MERS)の原因となったコロナウイルス(MERS-CoV)とのゲノム配列の違いを閲覧・比較することもできます。

以下の講義資料では、SARSウイルス(SARS-CoV)のゲノム配列データを題材に、 「MEGA」という世界的に有名な解析ソフトウェアを用いてウイルスの分子系統樹を描く方法を紹介しています。ただ、6年も前で情報が古くなっています。特に、MEGAの最新バージョンは10(MEGA X)であるところ、本資料ではバージョン6を用いており、画面や手順が異なる場合があるのでご注意ください。

DBCLSがNBDCとの共同研究の一環で運営する「統合TV」には、MEGAの最新バージョンを用いた分子系統樹の推定についての講義動画(日本語)が掲載されています。登壇者はMEGAの開発者である首都大学東京(東京都立大学)の田村教授です。

なお、MEGAは公式ページでマニュアル、チュートリアル動画など(英語)を数多く提供していますので、合わせてご参照ください。

新型コロナウイルス(SARS-CoV-2)が持つタンパク質立体構造データについて

2020年2月5日、wwPDBは、新型コロナウイルスが持つプロテアーゼと呼ばれるタンパク質の立体構造を公開したことを発表しました(wwPDB 新型コロナウイルスプロテアーゼの構造が公開されました | PDBj)。2月26日にはウイルス表面のスパイクタンパク質の構造データが公開されるなど、毎週データが公開されています。

ウイルスのプロテアーゼやスパイクタンパク質は、細胞に感染する際に重要な役割を担う分子です。コロナウイルスプロテアーゼについては「今月の分子」の2020年2月掲載記事にて詳しく紹介されています。「今月の分子」は「Molecule of the Month」を翻訳したもので、PDBjが運営しています。

タンパク質立体構造は創薬研究の基盤となる重要なデータです。そのリポジトリは国際的な枠組みであるwwPDBにより、日米欧の三極体制下で運営されています。日本の代表は大阪大学蛋白質研究所が運営するPDBjです。今回公開されたデータは中国の研究グループが決定したもので、wwPDBが定める地域分担に基づき、PDBjが登録作業を実施しました。

2020年3月11日には、wwPDBのアジア代表で、大阪大学蛋白質研究所が運営するPDBjが、SARS-CoV-2の特集ページを公開しました(大阪大学プレスリリース「新型コロナウイルスの蛋白質構造情報を集約して 3/11 から公開」)。

新型コロナウイルス(SARS-CoV-2)や新型コロナウイルス感染症(COVID-19)に関連するデータポータル(2020年5月25日追記)

名称 概要
SARS-CoV-2 (Severe acute respiratory syndrome coronavirus 2) Sequences | GenBank

米国NCBI(国立生物工学情報センター)が運営。同研究所が収集するSARS-CoV-2・COVID-19関連データを閲覧・検索できます。

COVID-19 Data Portal | EMBL-EBI

EBI(欧州バイオインフォマティクス研究所)が運営。同研究所およびその協力機関が収集するSARS-CoV-2・COVID-19関連データを閲覧・検索できます。

COVID-19 Resources | FAIRsharing.org

国際研究コミュニティFAIRsharing.orgが運営。同団体が収集したSARS-CoV-2・COVID-19関連のデータベースや各種基準・ポリシー等を検索できます。

新型コロナウイルス感染症(COVID-19)の治療薬 候補に関する情報

現時点で、新型コロナウイルス感染症(COVID-19)の治療薬はなく、候補薬に効果があるかについて研究が進められている状況です。
KEGG MEDICUSを用いると、そうした医薬品の情報を検索することができます。ここでは、治療薬の候補としてメディアでも取り上げられている2つの薬に関するデータを紹介します。

医療用医薬品 : アビガン https://www.kegg.jp/medicus-bin/japic_med?japic_code=00066852
KEGG DRUG: レムデシビル https://www.kegg.jp/dbget-bin/www_bget?dr_ja:D11472

KEGG MEDICUSについて

KEGG MEDICUSは京都大学の金久實特任教授が開発・運用するデータベースで、ヒトゲノム、病原体ゲノム、様々なメタゲノムなどのシークエンス解読と有効利用を促進する統合リソースです。

KEGG MEDICUSでは、国内外の他のデータベースの関連情報へのリンクも整備されていて、例えば米国PubChem、欧州ChEMBL、大阪大学LigandBoxの関連ページへ直接アクセスすることができます。

新型コロナウイルス(SARS-CoV-2)や新型コロナウイルス感染症(COVID-19)に関するその他のWebリソース(2020年6月1日一部追記)

NBDCが4省連携の枠組みで運営する「Integbioデータベースカタログ」(以下、「カタログ」と略します)では、国内外の研究用データベース情報を整理・発信しています。
新型コロナウイルス関連では、次のようなデータベースが登録されています。

名称(カタログへのリンク) 分類 概要(カタログより一部改変・追記。)
感染症 画像・映像アーカイブ 日本語・研究者向け

国立感染症研究所の所有する病原体や感染症研究関連の画像や映像を閲覧できるサイトです。病原体の電子顕微鏡写真が掲載されています。

新型コロナウイルスについては、国立感染症研究所で分離に成功したウイルスの電子顕微鏡写真が掲載されているほか、研究用材料(ウイルス、細胞)提供に関する情報も記載されています。

病原体検出マニュアル 日本語・医療者向け

感染症法に基づいて感染症の報告がなされる際の検査の標準化のために、国立感染症研究所と全国地方衛生研究所の共同作業で作成された検出マニュアルです。感染症ごとに検出マニュアルをPDFファイルから閲覧できます。

新型コロナウイルス感染症(COVID-19)については、2月4日公開後、7回更新されています(2020年5月時点でVer.2.7)。また、本マニュアル記載の検査法の運用についてのガイドラインも合わせて公開されています(2020年5月時点で第3版)。

感染症の情報 (疾患名で探す) 日本語・医療者・一般向け

感染症の情報を疾患名から検索できるデータベースです。感染症の基本情報から、最新の疫学情報を世界保健機構(WHO)、 アメリカ合衆国・疾病対策センター(CDC)、国際獣疫事務局(OIE)などから邦訳も含めて得ることができます。本サイトとともに「感染源や特徴で探す」 も提供されています。

新型コロナウイルスに関する情報は、特設ページ「コロナウイルス感染症」にまとめられています。は、「感染症発生動向調査 週報(IDWR)」から転載された各種情報(COVID-19の全世界の感染者数・死亡者数、国内のPCR検査陽性者数・死亡者数、国内のCOVID-19感染症例に関する記述疫学、国内の行政対応など)やクルーズ船内での集団発生事例についての中間報告などが公開日順に掲載されています。

BEI Resource Repository 英語・研究者向け

カテゴリーA、B、および C の優先病原体、新興感染症病原体、非病原性微生物および研究コミュニティに関連する他の微生物学的材料を研究するための試薬、ツールおよび情報を提供するリポジトリです。

新型コロナウイルスに関する情報は、特設ページ「Information Regarding the 2019 SARS-CoV-2」にまとめられています。

Virus Pathogen Database and Analysis Resource 英語・研究者向け

複数のウイルスファミリーのデータと分析ツールを提供する統合リポジトリです。アレルギー・感染症研究所(NIAID)のバイオインフォマティクスリソースセンター(BRC)プログラムの支援を受けています。配列レコード、遺伝子およびタンパク質のアノテーション、3Dタンパク質構造、免疫エピトープの位置、臨床およびサーベイランスのメタデータおよび比較ゲノム解析から導かれた新規データを含む様々なタイプの情報を収録しています。ウイルス学研究コミュニティに対するサービスとして、優先度の高い病原体やその他のウイルスの診断、予防、治療法の開発を手助けするべく、無料で提供されています。

新型コロナウイルスに関する情報は、特設ページ「SARS-CoV-2」にまとめられています。

ExPASy (Bioinformatics Resource Portal)(2020年6月1日追記) 英語・研究者向け

ExPASy Webサーバーはスイス生物情報科学機構(SIB)において提供されるプロテオミクス分野に向けた統合サービスです。タンパク質やプロテオミクスを中心とした種々のデータベースや解析ツールにアクセスできます。

トップページの特設コーナー「Supporting COVID-19/SARS-CoV-2 research」には、SIBのもつテータベースを中心に様々なデータベース・ツールのCOVID-19/SARS-CoV-2の研究に関するページへのリンクが一覧になっています。

ViralZone(2020年6月1日追記) 英語・研究者向け

ExPASyに含まれるデータベースの1つであり、ウイルスの遺伝子やファミリーのためのウェブリソースです。ウイルスやゲノムの特徴に加えて詳細な分子や疫学情報を提供します。各ウイルスやファミリーのページから、UniProtKB/Swiss-Prot のウイルスタンパク質のエントリに簡単にアクセスすることができます。

特設ページ「SARS-Cov-2, COVID-19 Coronavirus Resource」は「ßコロナウイルスファクトシート」「ゲノムと発現」「プロテオーム」「インタラクトーム」「コロナウイルスライフサイクル」「抗ウイルス薬」「COVID-19と治療」というカテゴリごとに概略を整理したページと外部リソースサイトへのリンクからなり、コロナウイルス研究に対して包括的な情報を提供しています。

コロナウイルス関連の研究情報をデータベース横断的に調べる(2020年6月1日一部追記)

NBDCが運営する「生命科学データベース横断検索」を使えば、上記のような各リソースに一つ一つアクセスすることなく、横断的に検索することができます。ただし、上述のリソース全てが検索対象になっているわけではないことにご注意ください(「検索対象データベース一覧」)。

例えば、「コロナウイルス」でキーワード検索すると「ウイルス図鑑」やJ-STAGEの文献、JSTシソーラスなどがヒットします。 このうち「ウイルス図鑑」では、コロナウイルスの名前の由来などが記載されています

検索演算子も利用できます。
例えば「SARS-CoV-2 | SARSCoV2 | SARSCoV-2 | SARS-CoV2 | 新型コロナウイルス | COVID-19 | 新型コロナウイルス感染症 | 2019-nCoV | 2019nCoV | Coronavirus | corona-virus | coronaviruses | SARSCoV | SARS-CoV | Orthocoronavirinae」(「縦棒(|)」で区切った単語のいずれかが含まれるページを検索)の検索結果は以下の通り。

なお、上記の検索条件に含まれる「Coronavirus」「Orthocoronavirinae」といった既存の専門用語は自動で翻訳され、日英両方で検索されます(本機能は、詳細検索画面からOFFにできます)。

生命科学データベース横断検索の特徴や使い方については、横断検索のヘルプページ、「横断検索のおすすめ活用ナビ | NBDCブログ」やこれまでの外部発表資料などもご参照ください。

更新情報

2020年3月12日:PDBjによる特集ページ開設を受け、立体構造データに関する記載を修正・追記。合わせて一部文言を修正。

2020年5月25日:SARS-CoV-2研究データにUniProt特設ページ・CORD-19へのリンク追加。データポータルの項目を追加。合わせて一部文言を修正。

2020年6月1日:「新型コロナウイルス(SARS-CoV-2)の研究データ一覧」の補足情報へNextstrainについて追記。「新型コロナウイルス感染症(COVID-19)に関するその他のWebリソース」を改題し、リストを更新。横断検索について検索演算子についての説明・ブログ記事等へのリンクを追加。合わせて一部の表現や文章構成を修正。

AJACSウェビナー

染色体高次構造の基礎、Hi-C解析手法の原理と実践的な解析の流れまでを解説!
データ解析講習会:AJACS「Hi-C解析を知って・学んで・使う」 は2025年1月16日開催です。