ポスター発表

【10】PubMedテキストマイニングにおける遺伝子等の語句判定手法の開発

○平田誠（NIBIOHN）、坂手龍一（NIBIOHN）、木村友則（NIBIOHN）

※氏名の前の「○」は、代表発表者であることを表します。

doi:10.18908/togo2021.p010

PubMedのテキストマイニングにおいて、遺伝子名（Gene symbol）等を検索しても関係無い語句にヒットし、目的とする論文の抽出に不都合なことがある。例えば、NMRは核磁気共鳴装置の略称として一般的だが、Gene symbolにも登録されている（LINC01672のAlias）。そこで、検索でヒットした語句が、どの属性（遺伝子、薬剤、疾患）に近いかを判定する手法を開発した。この手法は、まず、各属性に関係性の強い論文を教師データとして全語句の出現頻度を調べる。それをもとに、対象となる語句を含むテキスト（文）の構成語句を評価することで、その語句の属性を判定する。教師データとして、遺伝子は HUGO、薬剤はDrugBankの各々の参照論文、疾患はDDrare（指定難病）とMalaCardsの疾患名の検索でヒットした論文を用いた。最近の15万件の論文をテストした結果、例えば、遺伝子については、検索でヒットした語句の半数ほどがFalse-positiveであり、薬剤や疾患と比べてもその率が高いことがわかった。遺伝子は、論文要旨にGene symbolのみの記載が多いことも影響している。この手法は、文章を人が読解する方法をモデルとしており、より正確な文章の解釈に活用が可能と考えられる。

発表資料

PubMedテキストマイニングにおける遺伝子等の語句判定手法の開発（PDF：1.44MB）

注意事項

ポスターや発表スライド等の著作権は、別途記載がない限り発表者・発表者の所属機関に帰属します。
ポスター・スライド内の図や文言を転用する際には、著作者と話し合っていただくようお願いいたします。

【10】PubMedテキストマイニングにおける遺伝子等の語句判定手法の開発

発表者

DOI

概要

発表資料

NBDCメルマガ