環境中の微生物を解析したメタゲノム由来のゲノム配列を収集・整理した統合データベースMicrobiome Datahubの論文が掲載されました

  • その他
  • ファンディング
  • 統合化推進プログラム
2026年4月9日

情報・システム研究機構 国立遺伝学研究所の森宙史准教授らは、環境中の微生物を解析したメタゲノム由来のゲノム配列(MAG: Metagenome-Assembled Genomes)を公共の塩基配列リポジトリから網羅的に収集し、環境や系統・遺伝子機能等様々な情報を付加した統合データベース「Microbiome Datahub」を開発したことを、2026年3月16日、科学誌「Microbiome」の速報版に掲載しました。3月30日、情報・システム研究機構 国立遺伝学研究所、自然科学研究機構 基礎生物学研究所、東京科学大学および京都大学は共同プレスリリースをおこない、Microbiome Datahubの意義を紹介しました。プレスリリースでは、Microbiome Datahubが、データ駆動型の微生物学や未知の有用タンパク質探索の基盤として貢献すると述べています。

環境中のマイクロバイオーム(微生物群集)(※1)から直接DNA配列を解読するメタゲノム解析技術の発展により、培養困難な微生物のメタゲノム由来ゲノム情報(MAG)(※2)が爆発的に増加しています。これらのデータは公共の塩基配列リポジトリ(INSD)(※3)に登録されていますが、品質のばらつき、環境メタデータ(生息場所)の未整理、遺伝子情報の欠如や分類体系の不統一といった課題があり、そのままではデータの検索や横断的な比較解析が困難でした。また、既存のMAGの二次データベース(MGnify、IMG/M、SPIREなど)は、独自にMAGを再構築しているため、原著論文で報告された配列と変わってしまうことがあり、原著論文の研究成果を正しく参照・評価できないという問題がありました。森准教授らは、これらの課題を解決するため、公共リポジトリ中のMAGの配列はそのままに、メタデータとアノテーションのみを統一・高度化するアプローチを採用したMAGの統合データベース「Microbiome Datahub」を開発しました。

Microbiome Datahubでは、INSDから214,427件のMAGを収集し、独自に開発した微生物の生息環境を体系的に記述するオントロジー(MEO: Metagenome and Microbes Environmental Ontology)を用いて環境メタデータを整理しました。収載されたMAGのうち約17万件はCompleteness(完全性)>60% かつ Contamination(汚染度)<10%という高い品質基準を満たしていました。また、系統名や16S rRNA遺伝子配列を用いた原核生物の表現型予測ツール「Bac2Feature」を用いて、系統名から増殖速度、至適温度、至適pHなど、全MAGに対して27の表現型を予測し、MAGの情報として付加しています。超高速配列類似性検索ツール「PZLAST」等を用いた解析では、Microbiome Datahub に収載したMAGにコードされるタンパク質配列の約19%が既存のオーソログ(※4)データベース(MBGD)に相同性が無い新規性の高いタンパク質配列であることを明らかにしました。

Microbiome Datahubは、ウェブ上での高速検索やAPIアクセス、一括ダウンロードに対応しており、基礎的な微生物学研究から、タンパク質構造予測や有用酵素の探索などの応用研究まで、幅広く利用されることが期待されます。Microbiome Datahubでは、今後も急増が予想される公共MAGデータを収載し整理・公開するデータベースとして、継続的な更新と拡張を予定しています。

詳細は、論文およびプレスリリースをご覧ください。

Microbiome Datahubの収載データ数(ver.1.0)>

  • MAG: 218,248 MAGs
  • メタゲノムBioProject: 102,174プロジェクト
  • MAG由来タンパク質配列: 454,799,346タンパク質

Microbiome Datahubは、JST統合化推進プログラムの研究開発課題「マイクロバイオーム研究を先導するハブを目指した微生物統合データベースの特化型開発」(研究代表者 森 宙史 国立遺伝学研究所 准教授)の一環で開発・提供しており、本研究プロジェクトの研究分担グループが開発している、微生物のオーソログデータベースMBGD(Microbial Genome Database for Comparative Analysis)および微生物の表現型を推定するツールBac2Feature等との連携により実現しています。

用語解説

※1 マイクロバイオーム(Microbiome): 土壌や水中、あるいは身体の表面や腸内などの環境に生息する微生物群集を指します。マイクロバイオームは多種多様な微生物から構成されており、適度なバランスをとりながら周囲の環境に影響を与えています。耕作地土壌のマイクロバイオームは作物と相互作用し、作物の生育や収量にも影響を与えていると考えられており、土壌中のマイクロバイオーム解析により、生産効率向上などへの貢献が期待されています。また腸内マイクロバイオームは健康や病気にも影響を与えていると考えられており、その解析により、病気の発症メカニズム解明や予防・治療法の開発など、ヘルスケアへの貢献が期待されています。

※2 MAG(Metagenome Assembled Genome): 微生物群集を培養することなく、サンプル中のDNAを混合物として抽出し、塩基配列を網羅的に解読して得られたメタゲノムをアセンブルし、得られたコンティグ配列から配列の連続塩基組成や配列の相対存在量等の情報をもとに配列をクラスタリング(binning)して得られた仮想的なゲノム配列。

※3 INSD(International Nucleotide Sequence Database): 様々な生物の塩基配列データを蓄積し公開している公共の塩基配列リポジトリ。現在は遺伝研のDDBJ、ヨーロッパにあるEMBL-EBIのENA、アメリカのNCBIの3機関で運営されています。

※4 オーソログ(Ortholog): 共通の祖先遺伝子から進化に伴って派生した遺伝子間の対応関係や、そのような対応関係にある遺伝子群を指します。オーソログ遺伝子は一般的に類似した機能を保持しており、生物種間の遺伝子機能の比較研究や新規遺伝子の機能を推定する上で重要な手がかりとなります。

図1 Microbiome Datahubのプロジェクト情報の検索画面

フリーキーワードによるプロジェクト検索のほか、解析されたサンプルが取得された環境情報(土壌(soil)、海水(marine)、淡水(freshwater)、温泉(hot spring)、堆積物(sediment)、空中(air)、腸内(gut)、口腔(oral)、皮膚(skin)、生殖器(reproductive system)など) や、動物腸内等に由来するサンプルの場合はその宿主の系統(Host taxon)等の情報などによる絞り込み検索が可能です。

図2 Microbiome Datahubのゲノム情報の検索画面

フリーキーワードによるゲノム情報検索のほか、推定されたMAGの微生物種系統(Genome taxon)やMAGの精度(Quality)、動物腸内等に由来するMAGの場合はその宿主の系統(Host taxon)、MAGの品質(Quality)等の情報から絞り込み検索が可能です。

図3 MAGのDFAST・DFAST_QCの統計量とBac2Featureの表現型推定結果、MBGD Ortholog組成の表示例(Bifidobacterium catenulatum GCA_022728695.1

MAGのメタデータ、MAGの統計量、MAGの精度評価結果、Bac2Featureによるphenotype推定結果、アサインされたMBGD OrthologリストとKEGG Orthologyリスト等が閲覧できます。

NBDCメルマガ

「NBDCメルマガ」NBDCの講習会・研究費公募・成果情報などを月1回お届けします。