国立研究開発法人 科学技術振興機構
ポスター発表

【9】アノテーションの質を高めるためのツールTogoAnnotatorの開発

発表者

○山本泰智(DBCLS)、李慶範(遺伝研)、藤澤貴智(遺伝研)

※氏名の前の「○」は、代表発表者であることを表します。

DOI

doi:10.18908/togo2021.p009

概要

DDBJとDBCLSでは、INSDCへ配列データを登録する際に必要なアノテーションの査定作業を効率化するため、TogoAnnotatorを開発している。本ツールは、リソース名を検索するINSDC利用者が、より意味のある結果を得られるように、配列データを登録する際に併せて投稿されるリソース名の変更案を出力する。なお、本研究では遺伝子産物名などのアノテーションをリソース名と定義している。
具体的には、通常アノテータが行う作業のうち、特にリソース名の変更がパターン化されている事例について、書換え前と後のリソース名を組とした書換え辞書を用意し、入力されたリソース名を書換え前のリソース名にマッチさせ、書換え後のリソース名を出力する。表記上の揺れを吸収するため、類似マッチも行う。これまでに、マッチ処理を高速化させる改善や、既存のアノテーションガイドラインへの遵守状況を評価する開発を行た。
本発表では、類似検索の精度調査について発表する。我々は、193例の入力例に対し、それぞれ最大10件まで順位付けした、書換え後のリソース名の正解セットを人手により準備し、検索結果と比較した。この結果、順位も含めて正解した件数は45であり、順位は異なるが、望ましいリソース名のリストが返された事例が452、そして10番目以内に一件も含まれなかった例が193であった。考察と今後の対応について発表する。

発表資料

注意事項

ポスターや発表スライド等の著作権は、別途記載がない限り発表者・発表者の所属機関に帰属します。
ポスター・スライド内の図や文言を転用する際には、著作者と話し合っていただくよう お願いいたします。

ページの上部に戻る

NBDCメルマガ

NBDCの講習会・研究費公募・成果情報など、ライフサイエンスの研究者・技術者・支援者の皆さまに毎月お届けします。