第13回「生命動態システム科学のデータベースの統合化」
はじめに
生命動態システム科学とは,生命を動的システムとして理解し操作する生命科学である.生命動態システム科学は新たな生命科学の潮流として21世紀の科学全体に大きな影響をおよぼすことが期待されている.分子生物学やゲノム科学の発展により,生命を構成する要素,すなわち,分子の同定は急速に進んだが,これら分子の同定だけでは複雑な生命現象を理解することはできない.生命現象を理解し,予測,制御,設計を可能にするためには,これらの分子が生体において時空間的にどのようにふるまい,どのように相互作用するかを理解する必要がある.生命動態システム科学では,複雑な生命現象の動態を時空間情報をもつかたちで定量計測し,数理モデリングをもとにin silico(計算機上)およびin vitro(試験管内)において再構成し,生命現象の予測,制御,設計を可能にすることをめざしている.このような研究アプローチは,近年の顕微鏡技術の発達や計算機の能力の飛躍的な向上により可能になったものであり,まさに21世紀の生命科学という表現がふさわしいだろう.生命動態システム科学においては,さまざまな摂動条件のもとでの生命現象の動態について時空間情報をもつ定量計測データや,さまざまなパラメーターのもとでの生命現象の時空間的な動態のシミュレーションのデータなど,従来の生命科学とは異なる様式のデータが解析の主役となる.これらのデータを生命科学のほか,数学,物理学,情報科学,計算科学などの知見や技術を駆使して異分野融合的に解析することで,生命科学にイノベーションを起こすことが期待されている.この強い期待を現実のものにするためには,これらのデータを利用性の高いかたちをもって科学コミュニティー全体で共有する必要がある.このような背景から,筆者らは,生命動態システム科学のデータベースの統合化プロジェクトを進めている.
1.生命動態システム科学を牽引する新しい生命科学のデータ
生命動態システム科学においては,さまざまな摂動条件のもとでの生命現象の動態について時空間情報をもつ定量計測データや,さまざまなパラメーターのもとでの生命現象の時空間的な動態のシミュレーションのデータなど,時空間情報を数値として含む新しい様式のデータが研究の主役となる[1][2](図1).
生命現象の動態の定量計測データはさまざまな手法で可視化されることにより,従来とは異なる視点からの発見やアイディアの創出を可能にする.また,これらのデータを計算表現型の解析に適用することにより,正確かつ高精度,高スループットに時空間的な表現型の解析が可能になる.さらには,従来の生命科学における手法とはまったく異なるアイディアにより,これらの定量計測データから生物学的な知識を抽出する新しい計算科学的な手法の開発されることも期待できる(図2).
他方,生命現象のシミュレーションのデータは,定量計測データと同様に,さまざまな可視化の手法により従来とは異なる視点からの発見やアイディアの創出を可能にする.また,これらシミュレーションデータを実験データとマッチングすることにより,細胞や組織におけるさまざまなパラメーター値の同定が可能になる.さらには,これまでの生命科学における手法とはまったく異なるアイディアにより,これらのシミュレーションデータを利用して細胞や組織を設計あるいは制御する新しい手法の開発されることも期待できる(図3).このように,生命動態システム科学が産出する新しい生命科学のデータは,従来の生命科学における解析を飛躍的に加速し,さらには,まったく新しい解析手法を創出する大きな可能性をもつ貴重なデータである.
2.生命動態システム科学におけるデータベースの状況
生命動態システム科学は新興分野であるため,現時点で公開されているデータベースは国内外ともに多くない[3-6]).しかし,理化学研究所生命システムセンターの設立や,科学技術振興機構CREST "生命動態の理解と制御と理解のための基盤技術の創出" 研究領域の開始など,現在,わが国ではこの分野に戦略的な投資を行っており,データベースも急速に増加することが期待される.欧米諸国では,この分野はシステムバイオロジーの一領域として2000年代初頭から継続的に推進されてきたが,Max Planck InstituteにおけるCenter for Systems Biologyの設立など,近年も新規の重点的な投資が続いている.そのため,欧米諸国においてもこの分野におけるデータベースの急速な増加が期待される.
3.生命動態システム科学のデータベースの統合化プロジェクトがめざすこと
このプロジェクトでは,わが国における生命動態システム科学分野すべてのデータベースを統合する体制の構築,および,すべてのデータベースの統合を目標としている.
データの様式やデータ格納の様式,運用のポリシーなどは,データベースを構築した個々の研究室や機関などで大きく異なる.そのため,多数のデータベースがさまざまな研究室や機関において構築されたのちに,それらのデータベースを統合することはたいへん複雑で困難も多い.幸いなことに,現在,公開されている生命動態システム科学におけるデータベースの数はまだ少ないため,いまならば,多数のデータベースが構築されるまえに統合化のスキームを構築し,将来にわたりすべてのデータベースがそのスキームのもと開発されるような体制を構築することが可能である.そこで,このプロジェクトでは第一に,わが国における生命動態システム科学分野すべてのデータベースを統合する体制の構築をめざしている.そして,その体制のもとでの,わが国における生命動態システム科学分野すべてのデータベースの統合をめざしている
4.生命動態システム科学におけるデータベースを統合する体制の構築
生命動態システム科学におけるデータベースを統合する体制を,この分野の研究者コミュニティーの合意のもと構築する.具体的には,国内の研究者のなかで,生命動態システム科学における大規模なデータ収集が見込まれる研究者,および,データベースの統合に関心をもつ研究者により構成されるプロジェクトグループを構築し,また,このなかの5名程度から構成されるワーキングチームを構築する.プロジェクトグループは年1回のペースで打ち合わせを行い,データベース統合化の体制や方法,計画などについて助言や修正を行う.ワーキングチームは年2回のペースでの打ち合わせや電子メールなどによる議論をつうじ,このプロジェクトの進行や方針の決定に日常的により直接的に関与する.このような体制により,2012年度中にはデータベース統合化の体制や方法,計画などについて原案を作成し,2014年度末までに生命動態システム科学分野におけるデータベース統合について持続可能な体制を構築することをめざしている.
5.生命動態システム科学分野におけるすべてのデータベースの統合
生命動態システム科学の研究者コミュニティーにおいて合意された統合化の体制や方法,計画にしたがい,すべてのデータベースを統合する.具体的には,まずは,筆者の所属する理化学研究所生命システム研究センターにおいて試行的にデータベースの統合を行い,データベース統合化の体制や方法,計画など原案における問題点を修正したのちに,すべてのデータベースを対象に統合を実施する.2014年度末までに生命動態システム科学分野において公開されているすべてのデータベースの統合を完了することをめざしている.
6.データベース統合化の具体的な内容
生命動態システム科学におけるデータベースの統合について,具体的な内容として第一に考えられるのがデータフォーマットの統一である(図4).現在,公開されているこの分野のデータベースはそれぞれが時空間情報を数値として含むデータを公開しているが,それぞれが独自のデータフォーマットを採用しており,データの可視化ソフトウェアや解析ツールもそれぞれが独自に開発している.これらデータのフォーマットを統一すれば,可視化ソフトウェアや解析ツールを共通化することができ,研究開発の効率は飛躍的に向上する.また,データの取り扱いや解釈が容易となり,データ産出者以外の研究者によるデータの利用や,新たな可視化あるいは解析の手法の開発が促進され,データ産出者が当初は想定していなかったような研究成果に結実することも期待できる.このような生命現象の動態の定量計測データにくわえ,それらを取得するために用いた動画像のデータや,それらを取得するための撮影装置や実験条件などのメタデータについてもデータフォーマットを統一することにより,生命動態システム科学における研究が効率的に実施されるような情報環境を構築したいと考えている.また,計算表現型の解析から構築されているフェノーム統合データベース(URL:http://biosciencedbc.jp/gadget/db_link/d07_dblink.html)との統合など,生命動態システム科学における統合データベースと生命科学におけるほかの統合データベースとの統合も実現したいと考えている.
おわりに
生命動態システム科学におけるデータベースの数は世界的にもまだ少なく,ここで述べてきた内容は国際的にもすべてあてはまる.そこで,このプロジェクトでは,国内のデータベースの統合にとどまらず,全世界のデータベースの統合を実現したいと考えている.塩基配列データにおけるDDBJ/EMBL/GenBank[7] のような国際的な協力機構を生命動態システム科学においても構築し,データの利用性を高め,可視化や解析の手法の開発効率を高めて,生命動態システム科学における研究を国際的に加速したいと考えている.
生命動態システム科学においてデータ解析の主役となる時空間情報をもつ定量計測データは,数学,物理学,情報科学,計算科学などの分野の研究者にとり親和性が高い.データベースの統合によりこのようなデータが利用性の高いかたちで公開されることになり,生命科学の研究に数学,物理学,情報科学,計算科学の研究者の参入するチャンスが飛躍的に増大すると期待している.このような研究者の流入は生命科学のイノベーションを異分野融合的に促進するだけでなく,科学全体にも大きな影響をあたえるものと期待している.
参考文献
- Hamahashi, S., Kitano, H. & Onami, S.: A system for measuring cell division patterns of early Caenorhabditis elegans embryos by using image processing and object tracking. Syst. Comput. Jpn., 38, 12-24 (2007) ↑
- Kimura, A. & Onami, S.: Computer simulations and image processing reveal length-dependent pulling force as the primary mechanism for C. elegans male pronuclear migration. Dev. Cell, 8, 765-775 (2005)↑
- Bao, Z., Murray, J. I., Boyle, T. et al.: Automated cell lineage tracing in Caenorhabditis elegans. Proc. Natl. Acad. Sci. USA, 103, 2707-2712 (2005)↑
- Keller, P. J., Schmidt, A. D., Wittbrodt, J. et al.: Reconstruction of zebrafish early embryonic development by scanned light sheet microscopy. Science, 322, 1065-1069 (2008)↑
- Kitajima, T. S., Ohsugi, M. & Ellenberg, J.: Complete kinetochore tracking reveals error-prone homologous chromosome biorientation in mammalian oocytes. Cell, 146, 568-581 (2011) ↑
- Kyoda, K., Adachi, E., Masuda, E. et al.: WDDD: worm developmental dynamics database. Nucl. Acids Res., (2012)↑
- Karsch-Mizrachi, I., Nakamura, Y. & Cochrane, G.: The international nucleotide sequence database collaboration. Nucleic Acids Res., 40, D33-D37 (2012)↑
↑ 押下で本文に戻ります。
Licensed under a Creative Commons 表示2.1日本 license ©2012 大浪修一(理化学研究所生命システム研究センター 発生動態研究チーム)