【10】PubMedテキストマイニングにおける遺伝子等の語句判定手法の開発
発表者
○平田 誠(NIBIOHN)、坂手龍一(NIBIOHN)、木村友則(NIBIOHN)
※氏名の前の「○」は、代表発表者であることを表します。
DOI
概要
PubMedのテキストマイニングにおいて、遺伝子名(Gene symbol)等を検索しても関係無い語句にヒットし、目的とする論文の抽出に不都合なことがある。例えば、NMRは核磁気共鳴装置の略称として一般的だが、Gene symbolにも登録されている(LINC01672のAlias)。そこで、検索でヒットした語句が、どの属性(遺伝子、薬剤、疾患)に近いかを判定する手法を開発した。この手法は、まず、各属性に関係性の強い論文を教師データとして全語句の出現頻度を調べる。それをもとに、対象となる語句を含むテキスト(文)の構成語句を評価することで、その語句の属性を判定する。教師データとして、遺伝子は HUGO、薬剤はDrugBankの各々の参照論文、疾患はDDrare(指定難病)とMalaCardsの疾患名の検索でヒットした論文を用いた。最近の15万件の論文をテストした結果、例えば、遺伝子については、検索でヒットした語句の半数ほどがFalse-positiveであり、薬剤や疾患と比べてもその率が高いことがわかった。遺伝子は、論文要旨にGene symbolのみの記載が多いことも影響している。この手法は、文章を人が読解する方法をモデルとしており、より正確な文章の解釈に活用が可能と考えられる。
発表資料
- PubMedテキストマイニングにおける遺伝子等の語句判定手法の開発(PDF:1.44MB)
注意事項
ポスターや発表スライド等の著作権は、別途記載がない限り発表者・発表者の所属機関に帰属します。
ポスター・スライド内の図や文言を転用する際には、著作者と話し合っていただくよう お願いいたします。