第１回「データベースの現状と未来」

2011年11月24日

高木利久（バイオサイエンスデータベースセンター／東京大学大学院新領域創成科学研究科）

はじめに

ナショナルバイオリソースプロジェクトのキャッチフレーズは"リソースなくしてリサーチなし"だそうである．なかなかうまいものだと感心する．いわせていただけるなら，データベースこそ"データベースなくしてリサーチなし"だと思うのだが，語呂も悪いしこのキャッチフレーズをそのまま拝借するわけにもいかない．データベースのいいキャッチフレーズを思いついた方がいたらどうか教えていただきたい．

冒頭から少々脱線してしまったが，リソースとならんでデータベースが生命科学の研究に必要不可欠であることはいまや周知の事実であり，多くの研究者はそれらの恩恵にあずかり日々の研究や開発を進めている.しかしながらその一方で，現在のデータベースのありようが必ずしも満足できるものではないことも共通の認識であろう（以下，とくに断らないかぎり，"データベース"は生命科学分野におけるデータベースの意味で用いる）．

データベースのどこがどう満足できないのだろうか？　その理由，また，原因はなんであろうか？　それらはどんなデータベースにも共通する問題なのだろうか？　それとも，それぞれのデータベースに個別の問題なのだろうか？　共通であれ個別であれ，それらを解決するにはどうすればいいのだろうか？　それらは本質的あるいは現実的に解決可能なのだろうか？　このような問いかけに対し，みなさんの多くは，それは確かに大事な問題かもしれないが，そんなことはデータベースの専門家が考えればいいことで，自分には関係ない，と思うではないだろうか？　自分にはもっとほかにするべきこと，そして，考えるべきことがあると．確かにそうではあるが，じつはそうでもないのである．データベースにはみなさんの研究のあり方，進め方，場合によっては，みなさんの将来にも大いにかかわる事柄が含まれており，他人事ではすませられないのだ．そこで，これらの問いかけに答えるかたちで"データベースの現状と未来"を考えてみることにする．読み進んでいくことで，どうして他人事ではないのか，多少ともご理解いただけるのではないかと思う．

1．データベースの意義再考

データベースの大事さはわかりきったことであり，いまさら何を考えることがあるのかと思われるかもしれないが，ここをきちんと理解することがさきの問いかけに答えるため欠かせないので，少々まわりくどいがお許しいただきたい．

さて，ビジネスの分野，工学の分野，あるいは，科学のほかの分野でも，多くのデータベースがつくられ利用されている．では，ほかの分野のデータベースと生命科学（および，バイオ産業）のデータベースとでは，どこがどう違うのだろうか？　これをはっきりさせることが，生命科学において現在のデータベースのありようがなぜ不満足なものなのか，その原因を探る手がかりになる．そこで，まず，生命科学におけるデータの特徴をみてみよう．生命科学におけるデータは，ほかの分野と比べ以下のような特徴をもっている．

材料や実験方法によりデータの値が変わる．すなわち，多くは文脈依存である．
さまざまな解釈がありうる．それは研究の進展によっても変わる．
データの検索は完全一致ではなく，類似性をもとに行われることが多い．
その類似性の定義はデータの種類により変わる．
精度や信頼度がまちまちである．
網羅性が低い（必要なデータがデータベースに収載されているとはかぎらない）．

ほかにもあげればキリがないのでこのあたりでやめておくが，ほかの分野と比べてデータの扱いがきわめてやっかいなのがおわかりいただけると思う．

また，生命科学の大きな特徴のひとつに，物理学や化学とは異なり，研究成果を数式のような形式的なかたちで表現しづらいことがある．すなわち，ある種あいまいな言語のかたちでしか表現できないことが多い．このような生命科学における本質的な特徴と，さきにあげた生命科学におけるデータの特徴とが合わさるとどうなるか？　研究成果や知識が，言語や図表で書かれた論文と，それを裏づけるためのデータとのペアで表現され蓄積されていくのである．これら論文に付随するデータは，従来は公開されなかったり捨て去られたりすることも多かったが，出版社がデータの公開や公共データベースへの登録を義務づけるようになってきたこと，データベースの構築や公開が研究活動において多少とも評価されるようになったこと，それらを可能とする計算機技術（デジタル革命）が大きく進展したこと，などの理由から，極論すれば，論文の数だけ，研究室の数だけ，プロジェクトの数だけ，データベースがつくられるようになってきたのである．現実的には論文の数だけということはないし，また，公共データベースに収載されたものについては新たにデータベースがつくられることはないけれども．ここでは，これらの研究に付随したデータベースを"研究フロンティアとしてのデータベース"とよぶことにする．もちろん，ゲノム配列データやタンパク質立体構造データのように文脈依存性の低いもの，フォーマットや解釈の仕方がそれなりに定まっているものに関しては，網羅性や利便性を高めるために世界中でひとつの公共データベースにまとめあげる（統合する）ことが行われている．しかし，それ以外のほとんどのデータに関しては，ここで述べたようなデータの性質ゆえ，さまざまなデータベースが整理されず多数乱立する状態になってしまっている．

ゲノム配列データベースのようにひとつに（あるいは，生物種ごとに）統合することのできたデータは，論文やプロジェクトに付随するデータからいちだん昇華され抽象化された存在になったといえる．このような存在になると，ほかの研究者も容易に利用が可能となる（解釈のやり方を変えれば，同じデータからでも違う発見がありうる）．これらのデータベースはさきの研究フロンティアとしてのデータベースとは異なり，"研究インフラとしてのデータベース"とでもよぶことができる．実際は，研究インフラとしてのデータベースも研究フロンティアとしての性格を備えている場合が多いが，ここでは議論を簡単にするためこの2つを分けて考える．

2．データベースを"統合する"ということ

ここまでくると，データベースを統合することの必要性や意義も，おぼろげながらおわかりいただけているのではないだろうか？　研究フロンティアとしてのデータベースは，さきに述べた文脈依存性などの問題があり，たとえ一般に公開されていても（その文脈などがきちんと記載されていないと）なかなか使いづらい．データベースの統合化とは，まさにこれを研究インフラとしてデータベースに変える（近づける）ことである．ただ，これは口で言うのはやさしいが，たいへんな作業である．いや，作業という言葉は適切ではない．これから述べるように高度な知的活動，もっといえば，研究活動そのものなのである．

ところで，なぜ研究フロンティアとしてのデータベースを研究インフラとしてのデータベースに昇華させる必要があるのだろうか？　そして，それにはどれほどの意味があるのか，また，それは現実に可能なのだろうか？　前者の"なぜ必要か"という問いに関していえば，それは明らかであろう．研究インフラとしてのデータベースとなれば，他人のだしたデータが容易に利用可能となり，論文で導かれた結論の検証や，あるいは，それをふまえたつぎの研究の設計が効率的に行えるであろうし，（手持ちのデータと組み合わせるなどして）別の知識発見ができるかもしれない．これは，研究費の多くがデータに化けている現状では，研究費（ほとんどは税金）の有効活用という点からも望ましい．別のいい方をすれば，（ヒトゲノムの解読以降，主流となりつつある）データ駆動型の研究がより加速されることになる．後者の"現実に可能か"という問いに関しては，なかなか答えるのはむずかしい．研究インフラとしてのデータベースに昇華できるものもあれば，できないものもあるだろう．変換して再利用が可能なものもあるだろうし，意味のないものもあるだろう．また，それは研究の進展状況（そのデータはどう解釈すべきか，また，どう解釈できるかが，どの程度までわかっているか）にもよるであろう．しかしながら，これらは変換（別のいい方をすれば，データベースの統合化）を試みてみないとわからない問題でもある．

研究フロンティアとしてのデータベースを研究インフラとしてのデータベースに昇華するということはどういうことを意味するのか，もう少しくわしくみてみよう．たとえば，研究論文を利用する場合であれば，自分の研究に関係しそうな論文を探し，入手して，読んで理解しようとするだろう．これが可能となっている背景には，米国National Library of Medicineの運営するPubMed（http://www.ncbi.nlm.nih.gov/pubmed/）のような網羅性の高い文献データベースとそこから望みのものを探し出す文献検索システムの存在，網羅的かつ正確な検索を実現するための用語や概念の辞書やシソーラスの存在，ほとんどの論文が英語というある種の世界共通語で書かれているという事実，論文の構造（Introductionから Discussionまで）がジャーナルによりそれほど違わないこと，（電子）ジャーナルの普及，などがある．これらにより，研究論文は研究インフラとしての性格をもっているといえる．しかし残念ながら，研究フロンティアとしてのデータベースにはこのようなしくみや背景（基盤）に相当するものがない．これではせっかくのデータが再利用できない．もちろん，論文のなかにもどうでもいい論文があるように，利用する価値のないデータも多数あるであろうが，それも研究インフラに変える努力をしてみないとそれに意味があるかないかはわからない．これがデータベースの統合化を試みることの意義であろう．

つぎに，データベースの統合化のため具体的には何をすべきなのだろうか？　ここでは，さきに述べた研究論文とのアナロジーで基本的な考え方だけを説明する．研究インフラとしてのデータベースを実現するには，第1段階として，世界中にあるデータベースをもれなく集めてきてデータベースのカタログを作成すること，個々のデータベースがどういうデータベースなのかメタデータ（論文の書誌情報に相当するもの，また，キーワードなど）を付与すること，そのためのメタデータの記述言語や語彙を整備すること，データベースカタログやそれぞれのデータベースの中身を一括して検索するシステムを開発すること，などがあげられる．ただ，これだけではある程度までは必要なデータベースは探せても，その内容に踏み込んだ解析はできない，別のいい方をすれば，個々のデータベースは依然としてばらばらなままである．そこで第2段階では，それぞれのデータベースのフォーマットの統一や，そこで使われている用語および辞書の整備を行うことが必要になる．研究論文の場合は，論文を探したあとは，論文の構造，英語，そして，専門分野に関する知識をもった研究者がそれを読めばいいだけだが，それに相当することをデータベースについて行うには，それらのデータベースを処理するプログラムをデータベースの数だけ書く必要がある．それを解消するのがこの第2段階である．もちろん，分野が違えば使われているフォーマットや用語も大きく異なるので，ひとつのフォーマットにまとめるということではなく，一般には分野ごとにフォーマットや用語を整理することになる．第3段階は，これをさらに進め，ゲノム配列データのようにできるだけひとつの（あるいは，生物種ごとのように意味のあるいくつかの）データベースにまとめあげることである．このとき，ひとつのデータベースという意味は必ずしも物理的にひとつであることを意味しない，分散していてもそれらが仮想的にひとつとして利用できればそれで構わない．

この第2段階以降は研究者が論文を読んだり総説記事を書いたりするのに近い知的活動であるため，高度な専門性が要求される．いわゆる知識発見をめざす研究とは異なるが，データをいろいろな視点でまとめあげることはたいへん重要で，これもまた研究であるといってもあながち的外れではないであろう．その場合，この種の研究をどのようなかたちで評価するかという問題が浮上するが，本稿の趣旨とは少しずれるので，これ以上踏み込んだ議論は差し控える．

さて，このデータベースの統合化を進めるにあたり，もうひとつ重要なポイントがある．それは，データやデータベースの権利をどう考えるかである．たとえば，複数のデータを混ぜ合わせて解析したり新規のデータベースをつくったりした場合，その成果は誰のものか，ということである．研究論文の場合は，良し悪しは別にして，著作権あるいは出版権などのルールが明確だが，データの場合ははっきりしない．くわしい議論は行わないが，結論からいうと，みながデータの権利を放棄しないとデータベースの統合化や再利用はうまくいかない．このあたりのルールづくりや研究風土づくりもデータベースの統合化のひとつの役割と考えるべきであろう．これについて，よりくわしく知りたい方はhttp://lifesciencedb.jp/cc/などを参照されたい．

3．我が国におけるデータベースの統合戦略

それでは，我が国ではこれまでデータベースの統合化に関してどのような取り組みが行われてきたのだろうか？　それは今後，どのような方向にむかおうとしているのか？　これについても，ポイントだけを簡単に紹介する．くわしくは文献 ^[1][2]などを参照されたい．また，それらの成果（具体的なデータベースサービス）については，http://biosciencedbc.jp/，および，http://lifesciencedb.jp/ を参照されたい．

2005年ごろからデータベースの統合化の重要性が指摘されだしたのをうけ，内閣府総合科学技術会議などを中心に議論が進められ，2006年からは文部科学省をはじめとしたいくつかの省でデータベース統合化の事業がはじまった．これにより，さきほどのアナロジーでいうと第1段階がほぼ終了し，現在は第2段階レベルの統合化が実施されているという状況である．研究論文がどんどん出版されるように，新たなデータベースもどんどんつくられるので，データベースの統合化も永続的に行う必要がある．2006年からはじまった文部科学省のデータベース統合化事業は5年間の時限をむかえ2011年3月末に終了したが，これを継続発展させるための新しい体制が立ち上がっている．これまで，データベース統合化推進のヘッドクォーターは，大学共同利用機関法人情報・システム研究機構におかれたライフサイエンス統合データベースセンター（DBCLS：Database Center for Life Science，URL：http://dbcls.rois.ac.jp/）が担っていたが，2011年4月以降，DBCLSはデータベース統合化のための技術開発を行うことになり，それに代わり，独立行政法人科学技術振興機構に設置されたバイオサイエンスデータベースセンター（NBDC：National Bioscience Database Center，URL：http://biosciencedbc.jp/）が全体を総括することになった．この新体制のもと，分野ごとの統合化を担う機関が公募され，10課題が採択されていて，現在，第2段階（あるものは，第3 段階）の統合化にむけて始動している．これらの分野別の統合の具体的な内容については，このシリーズで順次，紹介していく．

4．みなさんにとってのデータベース統合化

ここまで，どうしてこんなに多くのデータベースがつくられるのか，その多くはなぜうまく活用できないのか，それを解消するにはどうすればいいのか，それに対して我が国ではどういう取り組みがなされてきたのか，をざっと紹介してきた．以下では，データベースの統合化がみなさんとどうかかわるのかを説明しよう．大きく分けて3つのかかわりがあると思われる．

多くのデータベースが統合化されれば（研究インフラとして利用可能になれば），まずは，みなさんの研究の効率を上げられる可能性がある．多額の研究費がないと自前で多くのデータはだせないが，統合化の進展により，お金はなくても知恵さえあれば他人のデータを最大限利用して研究ができるようになる．お金はないが知恵がある？　若者にはたいへんありがたいことであろう．これが1つ目である．

1つ目は統合化の恩恵をこうむる利用者の立場からの話であったが，2つ目は，データベース統合化推進に対するかかわりである．データの権利放棄や，フォーマットや用語の統一，もっといえば，このような統合化に国の予算を使うことなどに関して，みなさんの理解や支援がないと統合化は頓挫してしまい恩恵はうけられなくなる．データベース統合化への理解と支援という観点からのかかわりを，ぜひお願いしたい．

3つ目は，もっと直接的な統合化へのかかわりである．それは，みなさんにデータベースの統合化に参画してもらうことである．統合化を進めるプロジェクトやセンターで働くことで貢献するというかかわり方もあるだろうし，それぞれの研究の立場にいながら間接的に（フォーマットや用語の統一に協力するなどのかたちで）統合化に貢献してもらうこともあるだろう．仮に，統合化を推進する機関で働く場合でも，まだまだ恒久的なポジションは用意できないし，将来の見通しもはっきりしないし，また，このような仕事を正当に評価するしくみもいまのところない．そのため，安易で無責任なお誘いはできないが，データベースの統合化がなければ生命科学はさきに進まないことは確信しているので，ぜひ検討していただけたらと思う．

おわりに

本稿のタイトルは"データベースの現状と未来"である．自分の関心のあるデータベースについて具体的な課題や今後の展望を期待された読者には，少々期待はずれな内容になってしまった感はあるが，それについては，シリーズ第2回以降を参考にされたい．近年の計測技術の進展により，研究フロンティアとしてのデータベースは数的にも量的にも質的にも爆発しつつある．これをどう昇華して研究インフラとしてのデータベースにするかがまさに問われている．これは，データベースの問題というより，これから生命科学をどう進めていくかという本質的な問題であり，まさにみなさん自身の問題である．この記事をきっかけに，今後，多くのみなさんがこの問題をともに考えてくれることを願っている．

参考文献

高木利久: 新たな段階に突入したわが国のデータベース：バイオサイエンスデータベースセンターの設立とこれからの課題. 実験医学, 29, 2348-2354 (2011) ↑
白木澤佳子, 高木利久: ライフサイエンス分野のデータベース統合を目指して：バイオサイエンスデータベースセンター（NBDC）の発足. 情報管理, 54, 144-151 (2011) （https://www.jstage.jst.go.jp/article/johokanri/54/3/54_3_144/_pdf からダウンロードできる） ↑

↑ 押下で本文に戻ります。

なお、本記事は細胞工学2011年10月号掲載の原稿を改変したものです。