国立研究開発法人 科学技術振興機構

データ共有の基準としてのFAIR原則

2018年4月19日

DOI:10.18908/a.2018041901

NBDC 研究チーム*

本ページに掲載しているFAIR原則の日本語訳は仮訳です。正式版は、以下のページをご覧ください(2020年2月21日追記)。

FAIR原則とは

近年、研究データの適切な公開について様々な話題が世界を駆け巡っています。特に「オープンデータ」の潮流は明確に推進されつつあり、例えば2013年にはG8サミットにてオープンデータ憲章に対する合意が締結され、国際社会が共同してオープンデータの推進に取り組んでいくこととなりました。さらに2016年に日本で開催されたG7の科学技術大臣会合「つくばコミュニケ」では、オープンデータとそれを含むオープンサイエンスを推進する実際の方針について共同声明が出されました 。内閣府の定める第5期科学技術基本計画(2016年~2021年)においてもオープンサイエンス推進が明記され、国内の科学技術研究データの共有・公開について基準が定められました。研究データの公開と共有は、大量データを容易に産出可能な新時代の研究推進方法であるとともに、研究に携わる者の責務として広まりつつあります。

こういった中で良く言及される原則が「FAIR Data Principles」――「FAIR原則」です。FAIRは、「Findable(見つけられる)、Accessible(アクセスできる)、Interoperable(相互運用できる)、Reusable(再利用できる)」[1] の略で、データ公開の適切な実施方法を表現しており、データ共有の原則として広まりました。

NBDCではFAIRが提唱される以前から同様の理念で、生命科学系研究データを公開する活動を実施して参りました[2]。以下、FAIR原則の歴史やその詳細についてご紹介します。

1. FAIR原則の成り立ち

FAIR原則の起源は2011年に遡ります。2011年8月にドイツのDagstuhlで開催された、Future of Research Communication (FoRC) のワークショップにて、FORCE11 (The Future of Research Communications and e-Scholarship) と呼ばれるコミュニティが発足しました。11は2011年に由来します。研究者、図書館員、出版関係者、その他の活動家から構成されるこの任意団体では、知の創造と共有推進のため、複数のワーキンググループに分かれて活動を開始しました。

続く2014年1月にオランダのLeidenで、「Jointly designing a data FAIRPORT」というワークショップが開催され、eScienceに関するエコシステムを推進させる方法について検討がなされました。ここで、「コミュニティに受け入れられる最低限の原則や実例があれば、人や機械が大量データに対して、発見やアクセス、相互運用、再利用を適切な引用と共に簡便に実施できる」との着想を得て、9箇条の「DATA FAIRPORTフレームワーク」がまとめられました。

ワークショップには生命科学分野のメンバーが多く、生命科学データの複雑性や需要を鑑みて、生命科学分野への適用を最優先に実施すると定めていました。最終的にこの9箇条の原則は、2014年9月の第4回Research Data Alliance 定例会議 (RDA 4th plenary)にてForce11のワーキンググループによって修正されて4つに統合され、「GUIDING PRINCIPLES FOR FINDABLE, ACCESSIBLE, INTEROPERABLE AND RE-USABLE DATA PUBLISHING VERSION B1.0」としてForce11のサイトから公開され周知されることとなりました。

2. FAIR原則の原文

FAIR原則の原文は絶えず議論や指摘を受けて更新が繰り返されています。初版が公開された後も、例えば2015年9月にNBDCとDBCLSが日本で共催したBiohackathon2015において、FAIR原則の内容に関する議論が行われたことが知られています[3]。FAIR原則は現在、Original Draft版、Living Document版、議論反映版の3種類が存在します。それぞれの版について解説します。

1. Original Draft版

https://www.force11.org/fairprinciples

2014年に作成された「meeting's original draft」とされる文書です 。正式名称は「GUIDING PRINCIPLES FOR FINDABLE, ACCESSIBLE, INTEROPERABLE AND RE-USABLE DATA PUBLISHING VERSION B1.0」で、以降の2.及び3.の文書とは順番や内容が一部異なります。他との最も大きな違いは、外部から検索できるようにするための条項、「(meta)data are registered or indexed in a searchable resource.」が含まれていないことです。

2. Living Document版

https://web.archive.org/web/20170917212359/http://www.datafairport.org:80/fair-principles-living-document-menu

DATA FAIRportのサイトから公開されている、コミュニティで議論中の内容を含む文書です。3.とほぼ同じ内容ですが、Findable条項の3番目と4番目の順番が逆になっていて、表現がやや異なっています。2017年12月時点で最終更新日は2016年1月25日となっていましたが、2018年3月にはサイトがリンク切れとなっていたため、上記にはInternet archiveのリンク情報を記述しています。

3. 議論反映版

https://www.force11.org/group/fairgroup/fairprinciples

Force11のサイトから公開されている、コミュニティでの議論の結果を反映した版です。2.とほぼ同じ内容が公開されています。項目ごとの解説はありませんが、下部にコメント欄が設けられており、質問や回答が記入できるようになっています。一方、説明欄には「The FAIR principles have now been published.」と記述されてScientific Dataの2016年3月の論文[3] がリンクされており、論文にも本サイトのURLが記載されているため、本文書ではこの版の内容について次の項で説明します。

3. FAIR原則の日本語訳

NBDCで作成した、FAIR原則の議論反映版の各項目の日本語訳を以下に記述します。訳文は武田(2016)[1] を参考としました。2018年4月現在、原文のサイトには他言語への翻訳機能が存在しますが、機械翻訳のために日本語として十分に意味の通じる訳文となっていないようです。F1.の冒頭のようにメタデータとデータ両方に適用する内容である場合は、文中で(メタ)データと記述されています[3]。A2.の内容については、オランダのDutch Techcentre for Life sciences (DTL)にて、「コストの問題でデータ公開終了となったとしても、検索のインデックスや恒常的なURLに情報を残し、リンク切れが起きないようにするということを示す」との解釈がなされています。またI1.の「広く適用可能な記述言語」とは、セマンティックウェブのためのオントロジーやデータで用いられるフォーマットの、OWLやJSON-LD、RDFなどが、DTLでの例として挙げられています。各項目の詳細については、長大になるため本文書では記述しませんが、適用例と共に解説されている2016年のScientific Data誌の論文[3] と、解説文が豊富に記述されているDTLのサイトが有用であることを付け加えておきます。

To be Findable: (見つけられるために)

F1. (メタ)データが、グローバルに一意で永続的な識別子(ID)を有すること。
F2. データがメタデータによって十分に記述されていること。
F3. (メタ)データが検索可能なリソースとして、登録もしくはインデックス化されていること。
F4. メタデータが、データの識別子(ID)を明記していること。

To be Accessible: (アクセスできるために)

A1. 標準化された通信プロトコルを使って、(メタ)データを識別子(ID)により入手できること。
A1.1 そのプロトコルは公開されており、無料で、実装に制限が無いこと。
A1.2 そのプロトコルは必要な場合は、認証や権限付与の方法を提供できること。
A2. データが利用不可能となったとしても、メタデータにはアクセスできること。

To be Interoperable: (相互運用できるために)

I1. (メタ)データの知識表現のため、形式が定まっていて、到達可能であり、共有されていて、広く適用可能な記述言語を使うこと。
I2. (メタ)データがFAIR原則に従う語彙を使っていること。
I3. (メタ)データは、他の(メタ)データへの特定可能な参照情報を含んでいること。

To be Re-usable: (再利用できるために)

R1. メタ(データ)が、正確な関連属性を豊富に持つこと。
R1.1 (メタ)データが、明確でアクセス可能なデータ利用ライセンスと共に公開されていること。
R1.2 (メタ)データが、その来歴と繋がっていること。
R1.3 (メタ)データが、分野ごとのコミュニティの標準を満たすこと。

4. 政策におけるFAIR原則

日本における研究データの共有や公開は、地球科学の分野で古くから実施され[4]、生命科学の分野でも遺伝情報や生体分子に関するデータが増加するにつれて他の分野にさきがけて実施されてきました[5]。近年では、研究不正の監視や再現性の確保、データ駆動型研究の推進を目的として、あらゆる分野の学術データに対し、適切な公開の必要性が叫ばれています。この議論の場としては、半年に1度会議が開催されているResearch Data Alliance(RDA) が国際的に重要と考えられ、日本では2003年から国立情報学研究所の国際学術情報流通基盤整備事業(SPARC Japan) がオープンアクセスの話題を中心に議論の場を提供しています。また、科学技術振興機構 (JST)のJapan Link Center (JaLC) 、物質・材料研究機構 (NIMS)、情報・システム研究機構国立情報学研究所 (NII)、国立国会図書館 (NDL)、産業技術総合研究所 (AIST)、情報通信研究機構 (NICT)が2016年に研究データ利活用協議会(Research Data Utilization Forum, RDUF) を設立し、RDAのフィードバックや研究データ利活用に関する分野横断型のコミュニティとして始動しつつあります。

政策的な動きとしては、ヨーロッパでは研究データ公開のための情報基盤としてEuropean Open Science Cloud (EOSC) が設置され、その研究データ公開基準として欧州委員会がFAIR原則をデータ共有と管理における基礎と位置付けています[6]。アメリカの生命医薬分野ではNational Institute of Health (NIH)が資金提供するBig Data to Knowledge (BD2K)プロジェクトにおいて、研究の過程で得られたデータはFAIR原則に従って公開することが推奨されています。また英国FAIRsharingプロジェクトでは、世界中のこのような公開レポジトリの情報を収集し公開しています。日本では大学などの機関レポジトリ環境提供サービスとして、JAIRO Cloudが構築されているほか、組織ごとの公開基盤も整備されつつあります。特にNBDCの生命科学系データベースアーカイブは、日本の生命科学分野のデータ公開レポジトリとして以前から精力的に整備されています。このためNBDCは、日本医療研究開発機構(AMED)やJST、JSPSといった研究助成機関の一部プロジェクトから、研究データ公開基盤の1つとして明記されています。

このように2018年現在、日本のプロジェクトや組織ごとのポリシーでFAIR原則に言及する例はまだ見当たりませんが、オープンデータへの対応や基盤の形成は着実に始まっています。

5. FAIR原則の未来

FAIR原則はFAIRPORT principlesとして最初に議論がなされた際、インターネットにおけるIPレイヤーのように、最低限でありながら広範囲に通用する原則として利用されるべきとされていました。まさに現在そのような存在として広まりつつあります。日本の組織や各研究者がFAIR原則に則ったデータ公開および適切な研究データのマネジメントを理解し、データ共有について考えることで、オープンサイエンスにおける責務を果たしていけるのではないでしょうか。

参考文献

  1. 武田英明: 研究データ利活用に関する国内活動及び国際動向について. 第 2 回 SPARC Japan セミナー, https://www.nii.ac.jp/sparc/event/2016/pdf/20161026_doc6.pdf (2016)
  2. 高木利久: いかにして「使える」データベースを維持し続けるか? ライフサイエンス統合データベースプロジェクトから学ぶこと. ConBio2017.,
    https://dbcls.rois.ac.jp/PDF/20171206ConBio_takagi.pdf (2017)
  3. Wilkinson MD et. al.: The FAIR Guiding Principles for scientific data management and stewardship. Sci Data., doi:10.1038/sdata.2016.18 (2016)
  4. 渡邉堯: 科学データの長期保全とグローバルな共有 ―ICSU世界データシステムの構築― ICSU世界データシステム(WDS)について. , doi: 10.5363/tits.17.6_11 (2012)
  5. Kodama Y et. al.: DNA Data Bank of Japan: 30th anniversary. Nucleic Acids Res., doi: 10.1093/nar/gkx926 (2017)
  6. European Commission, Directorate-General for Research, H2020 programme guidelines on FAIR data management in horizon 2020.,
    http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020-hi-oa-data-mgt_en.pdf (2016)

(* 大波純一, 八塚茂, 信定知江, 箕輪真理, 三橋信孝, 畠中秀樹)

cc-by Licensed under a Creative Commons 表示4.0国際 license

©2018 国立研究開発法人科学技術振興機構バイオサイエンスデータベースセンター

関連リンク

AJACSウェビナー

染色体高次構造の基礎、Hi-C解析手法の原理と実践的な解析の流れまでを解説!
データ解析講習会:AJACS「Hi-C解析を知って・学んで・使う」 は2025年1月16日開催です。