【9】アノテーションの質を高めるためのツールTogoAnnotatorの開発
発表者
○山本泰智(DBCLS)、李慶範(遺伝研)、藤澤貴智(遺伝研)
※氏名の前の「○」は、代表発表者であることを表します。
DOI
概要
DDBJとDBCLSでは、INSDCへ配列データを登録する際に必要なアノテーションの査定作業を効率化するため、TogoAnnotatorを開発している。本ツールは、リソース名を検索するINSDC利用者が、より意味のある結果を得られるように、配列データを登録する際に併せて投稿されるリソース名の変更案を出力する。なお、本研究では遺伝子産物名などのアノテーションをリソース名と定義している。
具体的には、通常アノテータが行う作業のうち、特にリソース名の変更がパターン化されている事例について、書換え前と後のリソース名を組とした書換え辞書を用意し、入力されたリソース名を書換え前のリソース名にマッチさせ、書換え後のリソース名を出力する。表記上の揺れを吸収するため、類似マッチも行う。これまでに、マッチ処理を高速化させる改善や、既存のアノテーションガイドラインへの遵守状況を評価する開発を行た。
本発表では、類似検索の精度調査について発表する。我々は、193例の入力例に対し、それぞれ最大10件まで順位付けした、書換え後のリソース名の正解セットを人手により準備し、検索結果と比較した。この結果、順位も含めて正解した件数は45であり、順位は異なるが、望ましいリソース名のリストが返された事例が452、そして10番目以内に一件も含まれなかった例が193であった。考察と今後の対応について発表する。
発表資料
- アノテーションの質を高めるためのツールTogoAnnotatorの開発(PDF:822KB)
注意事項
ポスターや発表スライド等の著作権は、別途記載がない限り発表者・発表者の所属機関に帰属します。
ポスター・スライド内の図や文言を転用する際には、著作者と話し合っていただくよう お願いいたします。