講演要旨
招待講演
~
日本のオープンサイエンス政策について
赤池伸一 (内閣府 科学技術・イノベーション推進事務局 参事官)
本年5月に我が国で開催されたG7首脳会合及び科学技術大臣会合においてオープンサイエンスは主要項目とされているとともに、第6期科学技術・イノベーション基本計画においても「新たな研究システムの構築(オープンサイエンスとデータ駆動型研究の推進)」を明記し、積極的に推進している。最近は学術論文だけでなく、プレプリントや研究データなど研究成果の発信の形態も多様化しており、最近のオープンサイエンスを巡る政策動向について概説するとともに、今後の課題を示す。
~
AIによるデータ駆動型研究が拓く生命医科学と創薬
山西芳裕 (名古屋大学 大学院情報学研究科 教授)
近年の生命医科学では、疾患に関するゲノム、トランスクリプトーム、プロテオームなどのマルチオミックス情報が得られるようになり、生体内分子の網羅的解析が可能になった。このようなビッグデータ時代の生命医科学においては、多様なデータの融合解析から学術的発見や創薬に繋げるAIが求められている。本研究では、疾患に関するマルチオミクス・臨床情報、化合物に関する化学構造・生物活性情報などのビッグデータを融合解析し、生命医科学や創薬における様々な課題を解決するための機械学習アルゴリズムの開発を行った。当日は、治療標的探索、シナジー創薬学、細胞直接変換、医薬品分子設計などへの応用例を紹介する。
~
言語モデルを用いた細胞シミュレーションとデータ統合
岡田 眞里子 (大阪大学 蛋白質研究所 教授)
細胞では蛋白質や遺伝子がネットワークを形成し、多様なダイナミクスを生み出す。このような細胞のダイナミクス解析には、数理モデルを用いた細胞シミュレーションが有用である。しかし、これには、数学やプログラミングの知識のほか、遺伝子間の相互作用の制御関係を事前に知っておく必要がある。発表者らは、これらの問題を解決するために、自然言語処理を組み合わせたテキストベースの細胞シミュレーション法を開発している。本発表では、論文や公共データベースからの数理モデル生成からシミュレーションまでの自動化、オミクスデータとの統合、ロボット実験との連動といった、テキストベースのシミュレーションの様々な可能性を紹介する。
統合化推進プログラム
~
統合化推進プログラムの新たな挑戦
伊藤 隆司(NBDC統合化推進プログラム 研究総括 / 九州大学 大学院医学研究院 教授)
統合化推進プログラムは、2011年にバイオ系データベースの統合を目的に発足した。以来、3期11年間で31課題を支援し、我が国を代表するデータベースの発展を支え続けてきた。現在進行中の第4期においては、従来規模の8課題を支援するのみならず、新規に育成型を設けて3課題の支援も開始した。データベースにはライフステージに応じた支援が必要であり、育成型は支援複線化に向けた第一歩である。本プログラムの現状と挑戦を紹介する本講演が、大きな変革期に入ったバイオサイエンスにおけるデータベースとその支援の在り方を考えて頂く契機になれば幸いである。
~
非モデル植物のための遺伝子ネットワーク情報活用基盤
大林 武 (東北大学 大学院情報科学研究科 教授)
人類社会は食糧・工業原料・エネルギーの多くを一次生産者である植物に依存しており、その持続的・効率的な利用には広範な植物科学研究が欠かせない。多様な植物のゲノム解読が進む中で、それらの遺伝子機能の情報は常に不足しており、モデル植物から非モデル植物への適切な情報転移が大きなボトルネックとなっている。そこで、これまでに開発してきた植物の遺伝子共発現データベースであるATTED-IIを基に、遺伝子共発現ネットワークを非モデル植物研究に利用するための基盤を構築する。
~
統合的な転写制御データ基盤 INTRARED の構築について
粕川 雄也 (理化学研究所 生命医科学研究センター チームリーダー)
プロモーターやエンハンサー等のゲノム中の転写制御領域であるシスエレメント (CRE)、ゲノムに結合する転写因子等のトランス因子、メチル化やクロマチン状態等のエピゲノム状態といった転写制御に関わる3つの要素について、これらをカバーするデータ基盤INTRARED (https://www.intrared.org/) を構築している。INTRAREDはシスエレメントを対象としたfanta.bio (https://fanta.bio/) と、トランス因子・エピゲノム状態を対象としたChIP-Atlas (https://chip-atlas.org/) で構成され、両データベースを連携させることで転写制御に関する様々な情報を集約、統合的に検索できるようにすることを目指す。
~
AlphaFold時代のProtein Data Bank
栗栖 源嗣(大阪大学 蛋白質研究所 教授)
機械学習により配列情報から高精度に立体構造を予測する手法 (AlphaFoldおよびRoseTTAFold) が開発され、広く生命科学研究に浸透してきた。構造生物学的にも、予測構造と低分解能の実験情報とを組み合わせた新しいタイプの構造解析が急速に発信され始めている。例えば、配列の 70% は実験により構造決定し、残り 30% は予測構造を積極的に活用して 100% の全体構造として PDB に登録する事例などが該当する。予測構造と実験構造が混合するのが当たり前となる時代に、構造データ全体をどう評価し活用していくのが最良なのかなど、蛋白質構造データベース (Protein Data Bank) が AI をどう活用していくべきか議論したい。
基盤技術開発・ウェブサービス
~
DBCLSにおけるデータ統合とデータベース事業のこれから
片山 俊明 (大学共同利用機関法人情報・システム研究機構 ライフサイエンス統合データベースセンター (DBCLS) 特任教授 (兼務 / 副センター長) )
本事業は基盤技術開発と統合化推進プログラム (DICP) の両輪で進んできた。データベースには研究から得られる1次データベースを格納するレポジトリ機能と、これまでに得られた生命科学の知見をアノテーションとしてまとめる知識ベースの機能がある。DICPは主に前者を(後者も一部含まれる)、DBCLSでは主に後者とそれに資する技術基盤を開発してきた。主要な生命医科学のデータベースを知識グラフの形で統合してきたが、再利用性の高いデータを提供するためのベストプラクティスを共有することで、今後のデータベース開発を効率的に進めることができると期待される。一方で、統合されたデータの研究における利活用を事例を示していくことがデータ科学の推進に求められており、今後の取組について議論したい。
~
NBDCヒトデータベースのこれまでの10年、これからの10年
川嶋 実苗 (JST NBDC事業推進部 客員研究員)
2013年4月にNBDCヒトデータベースにおけるデータ共有のためのルールとして「NBDCヒトデータ共有ガイドライン」および「NBDCヒトデータ取扱いセキュリティガイドライン」を施行、同年10月に運用を開始してから、ちょうど10年になる。10年前は、機微情報を含むヒトを対象とした研究において出力された解析データを一元管理し、適切に共有するための情報基盤が存在しなかった。しかしこの10年のオープンサイエンス・オープンデータの潮流により、研究成果の再現性検証や利活用をするためのデータ共有が当たり前になった。では次の10年で何を目指すべきか、どのようなサービスを提供できるか、について考えたい。