人にも機械にも分かりやすく

その他

2020年12月10日

山本泰智

NBDC/DBCLSではかねてより生命科学分野におけるデータのオープン化やRDF化を推進していますが、これらに関連する論文や記事を読むと、RDFやSPARQL、LOD、FAIR原則など、様々な技術用語が踊っていて、書かれている内容が直ぐには頭に入ってこないかもしれません。情報、あるいは知識という、目には見えない事柄を扱っていることから、それらの概念がイメージしにくいこともあるでしょう。そこで、本ブログ記事ではこれらの技術用語、およびそれらの間にある関係を、可能な限りかみ砕いて説明したいと思います。

FAIR提唱に至る背景

広く知られている通り、コンピューターや情報通信技術の急速な発展により、膨大な量の情報が日々流通し、処理され、蓄積されています。生命科学分野ではシーケンサーなど実験機器の急速な発達により膨大な量の実験データが生成されています。また、生命科学研究自体の発展に伴い、発表される論文数も指数関数的に増加しています。

これらのことから、研究者は、自身の研究を進めるに当たり、効率よく関連する論文やデータを見つける必要があります。そして、新たに得られた研究成果を論文やデータとして発表し、更なる研究の発展に寄与するというサイクルを回します。この学術研究サイクルを効果的に回すために、蓄積されている論文やデータを、研究者だけでなく、機械、すなわち計算機に対しても処理しやすい形で表現しようという活動が続いています。なぜならば、それらが計算機の処理なしでは把握できないほどの規模であるからです。

そこで、このような活動を進める際の指針となるべくFAIR原則が編纂されました。Findable（発見性）、Accessible（取得性）、Interoperable（相互運用性）、Reusable（再利用性）の頭文字を取ったもので、論文やデータを発表する際には、この原則を適用することが推奨されています。詳細はNBDCポータルサイトに掲載している記事「データ共有の基盤としてのFAIR原則」を参照して頂くこととし、ここではFAIR原則の最大の特徴である、人と計算機の双方が考慮されているということを記憶に留めておいてください。（参考文献 1）

セマンティックウェブ技術について

インターネット上には無数のウェブページがあり、それらは主に自然言語で書かれた文書として存在し、適宜リンク情報により結びついています。興味の赴くままにページを次から次へと渉猟出来ることから爆発的に普及していますが、同様の行為を計算機が行うことは、現状では困難です。そこで、計算機に対するウェブページを用意することで克服しようと考えられたのがセマンティックウェブ技術です。最近多く聞かれるようになったナレッジグラフの一種とも言えます。

セマンティックウェブ技術には、計算機が処理しやすいように物事を記述する仕組みが用意されています。それは、全ての事柄を、主語、述語、目的語の三つ組みを最小単位とし、それを組み合わせて表現するものです。たとえば、「私はカレーが好きです。」という事柄は、主語、述語、目的語が、それぞれ、「私」、「好き」、｢カレー｣という三つ組みで表現できます。この表現方法をResource Description Framework（RDF）と呼びます。そして、RDFで表現されたデータを具体的に、どのように人や計算機に見せるか、は様々な方法があります。つまり、RDFデータは人にも計算機にも分かりやすく見せられるのです。

更に、RDFで事柄を表す際には、そこに含まれる概念を、Uniform Resource Indicator（URI）で示すこととしています。インターネット上のウェブページには全てUniform Resource Locator（URL）が付けられていますが、これは、インターネット上で当該ページを曖昧無く指し示すための識別子、つまり住所です。URIは、この考え方を発展させて、ウェブページの有無にかかわらず、インターネット上であらゆる概念を表すための識別子になります。上述の例では、｢私｣、｢好き｣、｢カレー｣のそれぞれが異なるURIで表されます。

ひとたびURIを用いた三つ組みで事柄が記述可能になれば、誰でも自由に、まさに、ウェブページと同じように、インターネット上で情報発信できるのです。そこで鍵となるのが、他の情報へのリンクです。インターネットの普及はウェブ技術の発展と共にあり、そこには誰でも自由に関連する他のウェブページにリンクを張れる環境があります。同様に、三つ組みの主語と目的語を、それぞれ異なるデータセットのURIとすることで、RDFデータも他のRDFデータを容易に参照できます。これにより、計算機も一つのデータから他のデータへ次々とリンクをたどり、関連データを取得できるのです。更に、計算機にも人にも分かりやすく情報を見せるために、おのおののURIに紐付く情報を、計算機が取得する場合と、人が見る場合で異なる形式で表せるような技術があります。この技術を利用して情報提供しているデータをLinked Dataと呼びます。文字通りリンクされたデータというわけです。

データを誰もが自由に利用するために

更に、特に論文や学術データにおいては上述の学術研究サイクルを効果的に回すために、可能な限り再利用性を高めることが必要です。そのために、近年はそれらのオープン化、つまり、これまでに蓄積されている知見を誰でも自由に利用できる技術的および制度的な環境の構築が進んでいます。RDFデータにおいても、それを再利用しやすいライセンスで公開されている場合はオープンデータと呼び、それらで構成されるLinked Dataを、Linked Open Data（LOD）と呼びます。FAIR原則は具体的な技術仕様について言及していませんが、LODはこの原則に則っていると言えます。

より技術的な話

さて、これまで幾つかの用語について説明してきましたが、これからは更に技術寄りの話になります。まず、RDFデータですが、このデータを蓄積するソフトウェアをトリプルストアと呼びます。また、より一般的に、表形式ではなく、RDFのようなグラフ形式でデータを保存するソフトウェアをグラフDBと呼びます。従って、トリプルストアはグラフDBの一種です。そして、トリプルストアから所望のデータを取得するために利用される問い合わせ言語をSPARQLと呼びます。これらの技術は縁の下の力持ちとして、LODの提供、ひいては学術研究サイクルを回すために貢献しているのです。

以上、いかがでしたでしょうか。少しでも頭の整理のきっかけになれば幸いです。

参考文献

Wilkinson, M. D. et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci. Data 3:160018 doi: 10.1038/sdata.2016.18 (2016).

cc-by Licensed under a Creative Commons 表示4.0国際 license
©2020 山本泰智（大学共同利用機関法人情報・システム研究機構データサイエンス共同利用基盤施設ライフサイエンス統合データベースセンター）