国立研究開発法人 科学技術振興機構

COVID19 Virtual BioHackathon 2020 レポート

2020年5月25日
大田 達郎

ライフサイエンス統合データベースセンター(DBCLS)の大田達郎です。公共NGSデータの解析とデータベースの構築、クラウドやスパコンなどの計算機インフラの構築などの研究開発を行っています。

COVID19 Virtual BioHackathon 2020とは

2020年4月5日から4月11日までの7日間、 COVID19 Virtual BioHackathon 2020 が開催された。これは世界各国における COVID19 の拡大を受け、Prof. Pjotr Prins (The University of Tennessee Health Science Center) による呼びかけに応じた各国の研究者がオンラインで集まって行われた初めての Virtual BioHackathon である。

BioHackathon は元々、世界各国から参加者が集まって開催される一週間の開発合宿である。このブログをホストしているNBDCと筆者が在籍するDBCLSが主催しており (http://biohackathon.org/)、2018年からはヨーロッパでも開催されるようになった (https://www.biohackathon-europe.org/)。

今回の Virtual BioHackathon は主催組織の存在しないボランティアのオープンソース活動であるが、複数の研究組織や企業がスポンサーとして名乗り出て、計算機資源を提供するなどのサポートを行った。参加者が登録するメーリングリストには450人以上が、Slack ワークスペースには550人以上が登録した。参加者の居住国のアンケートでは実に25カ国以上、アジア・オセアニア・中東・アフリカ・ヨーロッパ全土・南北アメリカと全ての大陸からの参加者が見られた。

COVID19 Virtual BioHackathon 2020 プロジェクト Wiki ページ

ハッカソン開始の2週間前より、プロジェクトの提案とリーダーの立候補を募り、結果として20以上のプロジェクトが提案された。参加者は事前に参加するプロジェクトを決めておき、一週間での作業と担当をグループ内で予め確認することとなっていた。初日の4月5日(日)にキックオフミーティング、8日(水)に中間ラップアップ、最終日の11日(土)に最終ラップアップの Zoom ミーティングが行われた。東アジアは夜、欧州は昼、米国東海岸は朝に設定されたミーティングには、いずれも100人以上が参加した。

また関連するリソースの紹介として、ワークフロー言語の標準規格であるCommon Workflow Language、欧州の生命科学データベース・インフラを統合する Elixir Infrastructure、大規模なゲノムデータ向けのデータ解析プラットフォームであるArvados についてのWebinarも行われた。

Zoom ミーティングと Webinar の様子は DBCLS の統合TVにアップロードされている (http://togotv.dbcls.jp/)。

BioHackathonだからこそできること

今回の Virtual BioHackathon において、筆者は Pjotr Prins、Leyla Garcia (ZB MED) の両氏と共に オーガナイザーとして立ち上げと運営を行った。かつてない規模の参加者、初の Virtual BioHackathon ではあったものの、ほとんど混乱がなく運営することができたのは、10年以上の BioHackathon の運営から得られたノウハウと世界各国に広がる OpenBio/BioHackathon ネットワークの賜物だと思っている。

主なトピックとしては COVID19 関連のデータを FAIR 原則に従うよう整備すること、限定的にしか共有されていない SARS-CoV-2 配列データをオープンにするための取り組み、COVID19 サンプルメタデータの標準化、COVID19 関連文献やツイートのテキストマイニング、公共データを用いた SARS-CoV-2 感染メカニズムに関連する遺伝子発現データの解析、SARS-CoV-2 と関連ウイルスのアラインメントをグラフゲノムとして表現するpangenome 解析と可視化などがあった。

開催前には既に各国で都市封鎖が始まっており、一部の国では感染者と死者の爆発的な増加が報じられていたことから、参加者のモチベーションは非常に高く、かつてないほどにインテンシティの高い BioHackathon であったと思う。筆者が参加していた配列共有サーバのチームでは、欧州・米国・アジアと時差を使ってリレーのように24時間を通して共同で作業を行っていたため、短期間で非常に濃密な議論と開発を行うことができた。

"Do the right thing"

今回の Virtual BioHackathon は、開催の直前に急逝した Prof. James Taylor (Johns Hopkins University) に捧げられた。氏はオープンソースのデータ解析プラットフォームとして有名な Galaxy Project の共同創設者であり、 Bioinformatics分野におけるオープンデータとデータ解析の再現性の重要性を広く知らしめた。日本で開催された BioHackathon にも2回参加されている。

筆者は Galaxy Community Japan の立ち上げをきっかけに Taylor 氏と親交があった。氏は Bioinformatics Open Source Conference (BOSC) などの国際会議で顔を合わせる度に、日本で参加した BioHackathon が彼にとってどれほど素晴らしい体験だったかという話を語ってくれた。氏は亡くなる前日に Twitter で SARS-CoV-2 配列データの共有についての問題点を指摘していた。このことでVirtual BioHackathonへの熱意がより高まったのは、筆者だけではなかったはずだ。

今回の Virtual BioHackathon で生まれた成果が短期的にはどれほど COVID19 への対策に貢献できるかを評価することは難しい。しかし世界各国からの研究者たちが、共通の対象について、これだけの熱量で共に研究開発を行うことができると証明したことは、先の見えない情勢の中で非常に勇気づけられることであり、全ての参加者にとって有益であったと思っている。

著者紹介

大田 達郎

DBCLS特任助教。専門は生命科学分野におけるデータ解析プラットフォームとデータベースの設計と運用。今年度の目標は通勤しない方が仕事が捗ることの証明。

cc by Licensed under a Creative Commons 表示4.0国際 license©2020 大田 達郎(大学共同利用機関法人情報・システム研究機構データサイエンス共同利用基盤施設ライフサイエンス統合データベースセンター)

AJACSウェビナー

染色体高次構造の基礎、Hi-C解析手法の原理と実践的な解析の流れまでを解説!
データ解析講習会:AJACS「Hi-C解析を知って・学んで・使う」 は2025年1月16日開催です。