国立研究開発法人 科学技術振興機構

RDA 13th and 14th Plenary Meeting 参加報告

2020年2月13日
八塚 茂(NBDC)

NBDCの八塚です。

今回は、約1年ぶりに RDA (Research Data Alliance) Plenary Meeting の参加報告をさせていただきます。2019年に開催された第13回大会(フィラデルフィア)と第14回大会(ヘルシンキ)について、2回分まとめての報告です。

そもそもRDAとは何か? については、以前のブログ「IDW2018/RDA 12th Plenary Meeting 参加報告」 に書きましたので、そちらをご覧ください。

RDA 13th Plenary Meeting

ロンドンで知る「令和」

RDA 13th Plenary Meeting(以後、「第13回大会」と記載)が開催されたのは米国・フィラデルフィア。本来なら太平洋を越えてまっすぐアメリカに行きたかったのですが、筆者はイギリスに所用ができたため、何とイギリスのロンドンを経由して大西洋を越えることに・・・。前回(詳しくは上記ブログを参照)に続く「エクストリーム出張」であります。

日本を発ったのは折しも2019年4月1日。この日はエイプリルフール、でもあるのですが・・・私たち日本人にとってはもっと重要な日、そう、「平成」に替わる新元号の発表日であります。ロンドン・ヒースロー空港に到着するや、いそいそとインターネットに接続すると、そこには初めて見る「令和」の文字!

海外で元号を初めて知るという経験は、おそらく今後ないでしょうから、とても貴重な思い出になりました。

フィラデルフィアは米国・ペンシルベニア州の州都で、ワシントンD.C.とニューヨークのちょうど中間あたりにあります。ちなみに、ワシントンD.C.からはフィラデルフィアを経由してニューヨークへとアムトラックが運行されています。今回の大会に日本から参加されたお一人は、所用先のワシントンD.C.からアムトラックの高速列車でフィラデルフィアまで来られたそうで、鉄道好きの筆者には何とも羨ましい限りです。筆者としては、フィラデルフィア空港から市内中心部に向かう路線(一部アムトラックと共用)に乗って、わずかにその雰囲気を味わうにとどめました。

フィラデルフィア中心部・ジェファーソン駅

フィラデルフィア中心部・ジェファーソン駅

米国東海岸北部(Google map より)

会議全体を振り返って

さて、4月2日から4日にかけてフィラデルフィア中心部にある Loews Philadelphia Hotel で開催された第13回大会では、それ以前に比べて大きな変化が3点あったと筆者は考えています。

会場となった Loews Philadelphia Hotel からの眺め

会場となった Loews Philadelphia Hotel からの眺め

1点目は、RDAとしての活動体系化が始まったことです。それ以前は、RDAはどちらかというと議論や活動の場の提供であり、その内容には強く関与しないというスタンスが強かったように思われます。しかし、この大会以降は、参加者間の自主的な議論や活動を尊重しつつも、それらを体系化しようというRDA側の強い意志が感じられるようになりました。

具体的には、RDAで行われているすべての議論や活動が、DMP(Data Management Plan)の作成→生成・収集→保管→公開→検索・再利用(→そしてDMPの作成に戻る)というデータの一連のライフサイクル上のどこに位置づけられるか、というマッピングが示され、それが繰り返し強調されるようになりました。

RDAの発表スライドより

RDAの発表スライドより

2点目は、1点目と大きく関係しますが、RDAの議論・活動による具体的な成果(outputs)や実社会への適用(adoption)が強く推奨されるようになったことです。

そして3点目ですが、これは後述の 14th Plenary Meeting(以後、「第14回大会」と記載)の結果もふまえると、おそらく第13回大会で特に強調されたと考えられますが、データの「責任」(倫理)を問う動きが出てきた、ということです。

そのことを最も端的に示すのが、初日のオープニングセッションで行われたニューヨーク大学・Julia Stoyanovich 教授による基調講演です。この講演では、人工知能(AI)が人々の生活のみならず人生にさえも大きな影響を及ぼすようになりつつある現代において、AIの判断の前提となるデータとアルゴリズムには説明責任(accountability)があるし、透明性(transparency)を担保しなければならない、ということが主張されました。講演によると、職業紹介AIにおいてジェンダーバイアスが影響している可能性や、再犯率判定AIにおいて人種バイアスが影響している可能性があるそうで、そうしたAIのアルゴリズムやAIが用いた学習データが検証されなければならないとのことでした。

なお個別セッションについては、第14回大会と合わせて後述します。

RDA 14th Plenary Meeting

晩秋のヘルシンキ

続いて第14回大会について報告します。第14回大会は、2019年10月23日から25日にかけて開催されました。会場はフィンランドの首都・ヘルシンキ郊外のアールト大学です。ヘルシンキへは日本からの直行便が多くあり、会場となったアールト大学はヘルシンキの中心部から地下鉄でわずか10分程度のところにあります。今回(だけ?)は「エクストリーム」でない出張となりました。

地下鉄 アールト大学駅

地下鉄 アールト大学駅

だだし、10月後半のヘルシンキは日本より1か月ほど季節が進んでおり、外に出るにはコートやマフラーが手放せませんし、雨の日もありました。2つあるセッション会場は離れていて、1日に何度も移動するのが少々辛かったです・・・。

2つあるセッション会場 写真からは寒さが伝わりませんが・・・

会議全体を振り返って

第14回大会全体としては、第13回大会の3つの変化のうち最初の2つ、すなわち、RDAの活動体系化と成果・適用の推奨が継続的に強調されたように筆者には思われます。

一方で、アンカンファレンス(細かい議題や発表資料等はなく、参加者主導で議論を進める会議)が初めて実施されるなど、参加者の自主性を促す動きも見られました。これは、体系化を強めたいRDAと各参加者の自主性との間でバランスを取ろうとする試みなのかもしれません。

筆者が発表したポスター

筆者が発表したポスター

個別セッション(第13回、第14回大会まとめて)

RDAの大会では毎回60を超えるセッションが行われますが、筆者が参加した中で、バイオ分野や研究データに関連するものをいくつかご紹介します。

Using schema.org and enriched metadata to enable/boost FAIRness on research resources (第13回大会)

2018年にリリースされた Google Dataset Search は研究データの分野でも大いに注目されていますが、このようなデータ検索が適切に機能するには、検索エンジンに正確なメタデータを提供する必要があります。このセッションは、Web上で公開された研究データのページを、標準的なメタデータスキーマであるschema.org(およびその拡張スキーマ)を使ってコーディングすることを検討するもので、バイオ分野(Bioschemas)や地球科学分野(GeoScience Schemas)の事例が紹介されました。Google Dataset Search も schema.org でコーディングされたページのメタデータを利用しています。

一方で、会場からは、W3C等の認証もない schema.org を利用することや、特定企業のみの利益につながる可能性への懸念の声も聞かれました。

RDA/WDS Certification of Digital Repositories(第13回・第14回大会)

このセッションは主に研究データリポジトリの信頼性向上に関するもので、従来はWDS(World Data System)やDSA(Data Seal of Approval)といった研究データリポジトリの認証団体を中心に継続的に議論が続けられてきました。2016年に両者が統合してCTS(CoreTrustSeal)になってからは、CTSを中心に議論が行われています。

第13回大会では、米国NIH(National Institute of Health)の研究者を中心に策定されたTRUST原則(Version 0.01)が発表されました。第14回大会では、その後の議論をふまえてアップデートされたTRUST原則(Version 0.02)が発表されました。TRUST原則は、データリポジトリが満たすべき5つの原則で、Version 0.02では以下の内容になっています。

  • T: Transparency(透明性)
    リポジトリは、自らが何を含んでいる(いない)をオープンなエビデンスで示さなければならない
  • R: Responsibility(責任)
    リポジトリには、利用者にデータを提供する責任がある
  • U: Users/User Community(利用者コミュニティ)
    リポジトリは、利用者コミュニティが当然と感じるような利用方法を、現在そして将来において可能にしなければならない
  • S: Sustainability(持続性)
    リポジトリは、データの長期間にわたる保管と利用を可能にしなければならない
  • T: Technology(技術)
    リポジトリは、安全で信頼できるツール・サービス・インフラを継続的に提供し続けなければならない

TRUST原則のWhite Paper(2019/10/16更新)より

なお、既に知られているFAIR原則と混同してしまいそうですが、FAIR原則はデータそのものに対する原則であるのに対して、TRUST原則はデータを管理・提供するリポジトリに対する原則である、という点に大きな違いがあります。

Criteria for repository selection, qualification and certification(第14回大会)

NBDCと連携するFAIRSharingも参加したセッションです。今回のセッションでは、FAIRSharing、DataCite、各ジャーナルなどが中心となってデータリポジトリの推奨基準を作成するプロジェクトについて報告がありました。(参考:「DataCiteとFAIRsharing、研究データリポジトリ推奨基準の改良に関するMoUを締結」(STI News 2019/10/17))

具体的には、各リポジトリについてデータの投稿・アクセス・再利用の条件やCTSなどの認証の有無等の諸情報を収集し、これに基づいて利用者がリポジトリを検索できるような仕組みを構築していくようです。(参考:"Data Repository Selection: Criteria That Matter" )

以上、2019年に開催されたRDA第13回・第14回大会についてごく簡単にご報告しました。今回ご報告できなかったテーマ・トピックも含めてRDAでは研究データに関する最先端でエキサイティングな議論が数多く行われています。筆者は引き続きこれらの動向をウォッチして、皆様にご報告したいと思います。

著者紹介

八塚 茂(やつづか しげる)

システムエンジニア等を経て現在NBDC研究員。生命科学系データベースアーカイブを担当。研究データの流通促進に情熱を燃やす。次はどの大陸を鉄道で横断するか、悩む日々を送る・・・

cc-by Licensed under a Creative Commons 表示4.0国際 license
©2020 八塚 茂(国立研究開発法人科学技術振興機構バイオサイエンスデータベースセンター)

NBDCメルマガ

NBDCの講習会・研究費公募・成果情報など、ライフサイエンスの研究者・技術者・支援者の皆さまに毎月お届けします。