国立研究開発法人 科学技術振興機構

ワークショップ報告書「データ駆動型研究の推進と課題」

2021年6月8日

概要

NBDCは、2020年12月1日、ワークショップ「データ駆動型研究の推進と課題」を開催した。本報告書は、本ワークショップでの発表、議論をまとめたものである。

近年、生命科学研究では、計測技術の驚異的な進歩により、研究データが爆発的に増加し、情報のデジタル化、コンピューテーショナル化が加速度的に進んでいる。こうした研究データを集積、整理・統合し、生命現象を包括的に理解する研究開発は既にライフサイエンスの潮流を形成しているが、一方で、データの共有・公開基盤の構築や公共データの高度利用では課題も多い。

こういった認識は2000年のヒトゲノム解読に端を発したオミクス研究の勃興から現在に至るまで当該分野の基本思想として定着しているが、とりわけわが国ではいまだにデータを活用したライフサイエンスの取り組みは限定的で、論文レベルでの国際競争力の低下も著しい。

ワークショップの開催に先立って有識者へのインタビューを実施したところ、上記課題を解決するために次のような研究スタイルの推進が有効であるとの仮説が浮かび上がった。その研究スタイルとは、これまでに公共データベースに膨大に蓄積され、今後もさらに増していく多種多様な生命科学データを複合的に解析して仮説を立て、実験的に検証して新たな発見を導くというものである。公共データを活用することで、仮説立案から検証までを、効率的にかつハイスループットに実施できるようになる。また、公共データを統合利用することで、探索範囲を、従来の方法論では到底なしえないほどに広げることができるため、これまで考えも拠らなかったような想定外の発見に至ることが期待される。ここでは、こうした研究スタイルを「DX(デジタル・トランスフォーメーション)型データ駆動研究」と呼ぶ。DX型データ駆動研究を推進するには、データを収集・整理し、公開する基盤を開発して構築・運用する「データベース構築者」、データを統合・解析する技術を開発し、またその技術を応用して新たな仮説を生成する「データ科学者」、仮説を検証する「実験研究者」の協働が不可欠であると考えた。

本ワークショップでは、DX型データ駆動研究の実行可能性や課題点を実例に基づいて議論することを目的とし、有識者から話題提供をいただいたあと、総合討論を行った。

石濱 泰氏(京都大学)は、特にプロテオームデータの再利用を中心としたデータ駆動型研究の実例について、国際的なデータ集積、公共データベースのリン酸化プロテオームデータを用いた大規模再解析、公共データベースのデータを用いたキナーゼ予測ツールの構築といった実例を紹介した。また、データベースの種類として、生データの集積基盤のほかに知識体系の集積基盤があり、世界全体の学問の下支えとして重要であること、DX型データ駆動研究の推進には、データベース構築者とデータ利用者が協働できる仕組み作りが必要であると指摘した。

竹本 龍也氏(徳島大学)と沖 真弥氏(京都大学)は、ドライ研究者とウェット研究者の協業の実践例を紹介した。ただ、2氏の事例は、おのおのが有する技術・特徴がうまく噛み合った希有なものであって、広く推進するためにはデータベース構築者と実験科学者とが協働するファンディングと、前提を相互に理解しあう機会が重要であるとの認識を示した。

坊農 秀雅氏(広島大学)は、公共データベースを活用し、低酸素変動遺伝子候補のメタ解析研究の実例について紹介した。隘路として、公共データベースのデータを利用するためには十分な人手を介する必要があると指摘した。

鎌田 真由美氏(京都大学)は、データベースの構築と収録データの解析についての実例を紹介した。DX型データ駆動研究を成功させるためには、「デースベース構築者」とデータ提供者との相互理解の場を充分設ける必要があったこと、また一般に、オントロジーが充分整備されてないためにデータを活用するための前処理に時間がかかると指摘した。さらに、データを収集、変換し、データベースとして公開する「データエンジニアリング」の重要性が、データサイエンスが注目を集めるのと対照的に、十分認知されていないと指摘した。

山西 芳裕氏(九州工業大学)は、さまざまな公共データベースを組み合わせた解析から知識を抽出し、化合物の新たな効能を予測した例を複数紹介し、公共データに基づいたデータ駆動型研究の可能性を示した。共同研究に際して「データ科学者」と「実験研究者」双方の意思疎通が重要であること、質、量ともデータが増え続ける状況下にあって公共データの利用にはID、フォーマットの不統一がボトルネックであり、継続的な対応が望まれることなどを指摘した。

6名のコメンテーター、伊藤 隆司氏(九州大学)、小安 重夫氏(理化学研究所)、菅野 純夫氏(東京医科歯科大学)、瀬々 潤氏(ヒューマノーム研究所)、永井 良三氏(自治医科大学)、平井 優美氏(理化学研究所)からは、ご自身の経験に基づき、幅広い視点でのコメントがあった。

全体議論では、三者が連携して推進するDX型データ駆動研究が重要かつ効果的な施策であると示された。DX型データ駆動研究において、データベース構築者には、データの質、量が年々大きく変わっていくなかで、複数プロジェクトの研究データを、利用イメージを充分理解したうえで統合していくことが期待されている。一方、データ科学者には、アルゴリズムそのものを新たに開発するというよりも、既存アルゴリズムを如何に生命科学分野へ応用し、データから仮説を如何に絞り込むかについての道筋を付けることが期待されている。また、国内の取り組みは現状ゆっくりであるが、海外の事例を踏まえるとスピード感をもった対応が不可欠だとの指摘があった。DX型データ駆動研究の推進方法としては、次の2つが示された。1つめは、実験研究者とデータベース構築者、データ科学者の協業を促進する方向性である。2つめは生命科学とデータ解析の双方について極めて高い見識を有する研究者に投資し、有効性を提示する方向性である。また、推進の過程で、データ解析の概念・方法論をツールとして構築し、提供することでより多くの研究者の参入が期待されるとの意見もあった。

本ワークショップを踏まえてJSTでは、今後具体的な研究開発課題や研究開発の推進方法の議論をさらに深めることとした。

提供話題タイトル

  1. jPOST/ProteomeXchange を用いたデータ駆動型科学
  2. ChIP-Atlas によるデータ駆動型研究
  3. 公共データベースからの低酸素発現変動遺伝子のメタ解析
  4. DB 基盤整備の重要性
  5. データ駆動型研究が拓く創薬と医療

総合討論テーマ

  1. 具体事例に基づく課題の洗い出し
  2. データ駆動型研究の将来展望
  3. アルゴリズム開発について
  4. 人材育成

ワークショップに参加いただいた外部有識者(敬称略)

  • 石濱 泰(京都大学)
  • 伊藤 隆司(九州大学)
  • 沖 真弥(京都大学)
  • 鎌田 真由美(京都大学)
  • 小安 重夫(理化学研究所)
  • 菅野 純夫(東京医科歯科大学)
  • 瀬々 潤(ヒューマノーム研究所)
  • 竹本 龍也(徳島大学)
  • 永井 良三(自治医科大学)
  • 平井 優美(理化学研究所)
  • 坊農 秀雅(広島大学)
  • 山西 芳裕(九州工業大学)

ダウンロード

ワークショップ報告書「データ駆動型研究の推進と課題」(9.1MB)

AJACSウェビナー

染色体高次構造の基礎、Hi-C解析手法の原理と実践的な解析の流れまでを解説!
データ解析講習会:AJACS「Hi-C解析を知って・学んで・使う」 は2025年1月16日開催です。