国立研究開発法人 科学技術振興機構

アーカイブへのいざない

2019年10月29日
八塚 茂(NBDC)

NBDCの八塚です。今回のテーマは、生命科学系データベースアーカイブへのデータ寄託のお願い(もちろん常時募集していますが)ではなく、アーカイブを作成するスタッフ(アルバイト)の募集です。本ブログでは、募集要項には書ききれない(書けない?)アーカイブチームの業務や職場の雰囲気を少しばかりお伝えしようと思います。

本募集に興味のある方はもちろん、本募集には興味がなくても、「アーカイブの作成現場って実際どうなんだろう?」と思われる方は、ぜひ最後までお読みください。

以下Q&A形式でお届けします。募集の詳細な条件等は下記募集ページをご覧ください。

Q1. どんな業務なのでしょうか?

一言で言えば、各研究機関から寄託された生命科学の研究データを、保存し、公開する業務です。ただし、寄託されたデータをそのまま公開するのではなく、「よそ行き」に仕立てる必要があります(NBDCブログ「あなたのデータは「よそ行き」ですか?」を参照)。

主な業務フローは以下①~⑤の通りです。作成スタッフの方には、具体的には以下の③~⑤の業務全般に関わっていただきます。今後作成スタッフの数が増えてくれば業務フローごとの分業もあり得ますが、現状は1つのデータベース(データセット)につき、作成スタッフ1名で担当することになります。

① データの受領

データの寄託希望者から依頼をいただいたら、アーカイブにて公開するまでに必要な作業や期間、公開の条件等についてご説明し、おおよその合意を結んだ上でデータを受領します。

この業務は、主に筆者が行います。

② メタデータの作成

寄託いただいたデータベース(データセット)およびそのサブセットがどのようなものか、データにはどのような項目があるのか等を説明する文書(メタデータ)を、寄託者からいただいた情報を基に筆者が作成します。これは通常③の業務と並行して行われます。

③ データのチェック・調査・修正・再構成

寄託されたデータは、必ずしも「よそ行き」になっていません。これをチェックし、データとその関連情報の調査を行い、寄託者にも確認した上でデータを修正し再構成する必要があります。寄託者とのコミュニケーションは筆者が行いますので、データのチェック、調査、修正を作成スタッフの方にお願いすることになります。

データのチェックや修正には通り一遍の方法やツールはなく、対象データに合わせて方法を検討し、スクリプト(特別な事情がない限り、言語は何でもOK)を作成して処理を実行する必要があります。スクリプトの作成や処理の実行には、基礎的なプログラミングスキルが必要です。

データに具体的にどのような問題があって、どう再構成していくかについては、以下のブログや資料を参考にしてください。

当然ですが、スタッフの方に丸投げということは一切なく、筆者が方針をまず決めて、個々の調査や作業をお願いすることになります。

④ アーカイブサイトの作成

③の業務が完了したらアーカイブサイトを作成します(③と並行で行うこともあります)。アーカイブサイトは、以下3つのサブサイトで構成されます。

Iのサブサイトは、②で作成したメタデータの内容を反映させます。
IIのサブサイトは、データの形式によって作成しない場合があります。

本業務には、HTMLの知識が必要です。IのサブサイトはCMS(Contents Management System)を使って作成しますので直接HTMLを書くことは少ないですが、IIIのサブサイト作成時にHTMLファイルの編集作業が発生します。

また、上記サブサイトはいずれもLinuxサーバ上で稼働しています。特にIIIのサブサイト(FTPサーバ)にアクセスするにはLinuxの基礎的な知識が必要です。

なお、これらのサブサイトの運用についてはシステム担当スタッフが行います。

⑤ アーカイブサイトの公開

筆者が寄託者からの最終的な承諾をいただいた後、アーカイブサイトを公開します。

Q2. 未経験者ですが、応募できますか?

このような業務をしている機関は他にあまり聞きませんので、おそらくほとんどの方が未経験の仕事になると思います。経験の有無は問いませんし、細かいことは筆者や他のスタッフが手取り足取り教えます。この仕事に興味を持っていただける方を歓迎します。

Q3. 学生ですが、応募できますか?

できます。勤務日数や曜日も応相談です。ぜひご応募ください。

Q4. 生命科学の専攻ではありませんが、応募できますか?

生命科学分野のデータを扱いますので、その知識があれば仕事も大いにはかどりますが、知識がなくても筆者やNBDCのメンバーがサポートします。未知のものであっても興味を持って取り組む方を特に歓迎します。

Q5. 英語は苦手なのですが、応募できますか?

特に調査業務を行うには英語のドキュメントが読めた方が望ましいですが、必須ではありません。

Q6. 忙しいですか?残業はありますか?

最近は寄託依頼も増えており、アーカイブ化の作業は毎日行われています。また、寄託者への確認等で待ち時間も発生するため、常に複数のアーカイブ化作業を走らせて業務の効率化をはかっています。こうした業務のコントロールはすべて筆者が行っており、特定のスタッフに業務が集中しないようにしています。またスタッフ個人の様々な事情にも極力配慮させていただきます。具体的な勤務時間については、募集ページをご覧ください。

Q7. 指示されたことをやるだけでしょうか?

最初のうちは、そのような感じになることが多いと思います。しかし、今まで培った知識や経験を踏まえてご意見・ご提案いただくのは大歓迎です。筆者は日々全力でこの仕事にあたっていますが、時にはイケてない判断や指示を行うかもしれません。そのような場合には「それ、イケてませんよ」と指摘してください。一緒によりよいサービスを作りあげましょう。もちろん、結果の責任はすべて筆者にあります。

Q8. この業務の面白いところ、身につくことは何でしょうか?

まず面白い点について。これは人によって異なると思うのですが、筆者が最も面白いと感じるのは、そのままでは埋もれて消滅したかもしれないデータを、文字通り「再生」させられるところです。その副産物として、埋もれていたデータの「秘密」を発見できるのも楽しいですね。

一方で、最近では既に「よそ行き」になっている素晴らしいデータも多く寄託されています。アーカイブの業務をしていると、こうしたデータの素晴らしさを心底実感できます。今までとは違う「データ評価眼」が身につきます。あなたが今後もしデータを作成する側になったら、「よそ行き」の素晴らしいデータを量産することができるでしょう。

Q9. この業務で論文は書けますか?

筆者自身は今まで全く論文を書いていません。しかし、視点の切り口やこれからの取り組み次第では可能かもしれません。それはあなた次第です。

Q10. どんなチーム構成ですか?

筆者、アーカイブ作成スタッフ(あなた)、システム担当スタッフ(常駐1名+外部委託)の構成です。

Q11. ドレスコードはありますか?

男性の場合、スーツ・ネクタイを着用する方が大部分ですが、業務の中で相手の方を不快にさせない服装であれば構いません。

Q12. ランチの選択肢は多いでしょうか?

多い方だと思います。NBDCがオフィスを構えるJSTサイエンスプラザには食堂もありますし、近隣には飲食店も多く、コンビニもあります。天気がよければ、お弁当をテイクアウトして東郷公園(NBDCから徒歩3分)のベンチで食べるのもよいでしょう。春にはお花見も楽しめます。

Q13. JSTとかNBDCとか何だか堅そうです

筆者自身は他の職場も経験していますが、NBDCは特に堅苦しいこともなく、各人が自由に意見を交わすことのできる風通しの良い職場だと思います。また、皆さん優しい方ばかりで、何事にも親身になってくれます。

Q14. 乗り鉄ではありませんが、話は合いますか?

筆者は鉄道や生命科学・ITの話題はもちろん、様々な話題に対応できると思っていますので、どうぞご安心ください。

なお、分野を問わずマニアックな話題には特に強く反応するかもしれません。

ということで、ご応募お待ちしております。

ご質問があれば、下記までお気軽にどうぞ。

著者紹介

八塚 茂(やつづか しげる)

システムエンジニア等を経て現在NBDC研究員。生命科学系データベースアーカイブを担当。研究データの流通促進に情熱を燃やす。ほぼ鉄道だけによるユーラシア大陸横断を達成。

cc-by Licensed under a Creative Commons 表示4.0国際 license
©2019 八塚 茂(国立研究開発法人科学技術振興機構バイオサイエンスデータベースセンター)

AJACSウェビナー

染色体高次構造の基礎、Hi-C解析手法の原理と実践的な解析の流れまでを解説!
データ解析講習会:AJACS「Hi-C解析を知って・学んで・使う」 は2025年1月16日開催です。