国立研究開発法人 科学技術振興機構
ポスター発表

【10】PubMedテキストマイニングにおける遺伝子等の語句判定手法の開発

発表者

○平田 誠(NIBIOHN)、坂手龍一(NIBIOHN)、木村友則(NIBIOHN)

※氏名の前の「○」は、代表発表者であることを表します。

DOI

doi:10.18908/togo2021.p010

概要

PubMedのテキストマイニングにおいて、遺伝子名(Gene symbol)等を検索しても関係無い語句にヒットし、目的とする論文の抽出に不都合なことがある。例えば、NMRは核磁気共鳴装置の略称として一般的だが、Gene symbolにも登録されている(LINC01672のAlias)。そこで、検索でヒットした語句が、どの属性(遺伝子、薬剤、疾患)に近いかを判定する手法を開発した。この手法は、まず、各属性に関係性の強い論文を教師データとして全語句の出現頻度を調べる。それをもとに、対象となる語句を含むテキスト(文)の構成語句を評価することで、その語句の属性を判定する。教師データとして、遺伝子は HUGO、薬剤はDrugBankの各々の参照論文、疾患はDDrare(指定難病)とMalaCardsの疾患名の検索でヒットした論文を用いた。最近の15万件の論文をテストした結果、例えば、遺伝子については、検索でヒットした語句の半数ほどがFalse-positiveであり、薬剤や疾患と比べてもその率が高いことがわかった。遺伝子は、論文要旨にGene symbolのみの記載が多いことも影響している。この手法は、文章を人が読解する方法をモデルとしており、より正確な文章の解釈に活用が可能と考えられる。

発表資料

注意事項

ポスターや発表スライド等の著作権は、別途記載がない限り発表者・発表者の所属機関に帰属します。
ポスター・スライド内の図や文言を転用する際には、著作者と話し合っていただくよう お願いいたします。

ページの上部に戻る

NBDCメルマガ

NBDCの講習会・研究費公募・成果情報など、ライフサイエンスの研究者・技術者・支援者の皆さまに毎月お届けします。