言語処理学会第25回年次大会に参加して
NBDC研究員の建石です。
2019年3月12日から15日まで、国内の自然言語処理分野では最大の学会である言語処理学会年次大会が名古屋大学で開催されました。同じタイミングで植物生理学会も同大学で行われていました。
熱気あふれる大会でポスター発表を行いました
例年ならば3月の1週間に、月曜がチュートリアル、火曜から木曜が本大会、金曜がワークショップという流れで行われるのですが、今年は12日(火)がチュートリアル、13日(水)から15日(金)が本大会という構成で、ワークショップは本大会の中の「テ―マセッション」と呼ばれるセッションと統合された形で行われ、コンパクトなプログラムになっていました。本大会では一般発表(口頭発表190件、ポスター発表210件)とともに、招待講演2件と、25周年記念として言語処理学会のこれまでとこれからに関するパネルディスカッションがありました。また、12日の夕方にスポンサー企業と学生参加者との交流イベントも行われました。大会プログラムは予稿とともに https://www.anlp.jp/proceedings/annual_meeting/2019/ から公開されています。
昨今、人工知能やその一分野である自然言語処理が注目されていますが、それを反映して今回の年次大会は1000人を超える事前参加登録があり、最終的には約1300名の参加があったそうです。アカデミアのみならず様々な業種の企業からの参加があり、また、何人か将来自然言語処理分野に進みたいという学部学生(中には1回生という方も)の方ともお会いしました。
筆者は「ライフサイエンス新着論文レビュー(新着論文レビュー)」の文に係り受け情報を付与したコーパスと、それを用いて係り受け解析システムを学習させ精度を検証する実験についてのポスター発表を行いました。係り受けの精度を向上させると実際の情報抽出精度がどう向上するのかまで定量的に検証すべきだ、とか、もう少しテストに使った文のセットのサイズを大きくしたほうが良いのではないかとのアドバイスをいただきました。発表内容に関する質問のほかに、新着論文レビューではどのような基準で対象論文を選んでいるのか、など、新着論文レビュー自身に関する質問もありました。
化学分野の発表
発表以外では、主に医学・化学系への応用を中心に聴講してきました。
テーマセッションの一つは「化学分野への言語処理の応用」で、化学関連の文献、特許文書からの情報抽出に関する発表を中心に9件の発表がありました。物質名や相互作用を抽出する研究が5件、物質名を日英翻訳する研究1件とともに、機械学習に必要なデータを作成するための環境に関する発表が3件ありました。
現在盛んに研究されているニューラルネットワークをはじめとする機械学習の手法では、訓練や評価のため、正解をアノテートしたデータが必要となります。Googleなどが行っている、Web文書に関する研究では、クラウドソーシングを利用して多量の正解付きデータを集めていますが、学術系の文書の場合、アノテートできる知識を持った専門家が少なく、また、文書のアノテーションは多くの専門家の方にとっては本来の業務とは勝手の違う作業になるため負担が大きくなります。専門家の方にいかに低負担でアノテーションを行ってもらうか、はますます重要な課題になってきていると思います。
9件の研究のうち2件では、NBDCで日本化学物質辞書(日化辞)をRDF化した「NBDC NikkajiRDF」や、そこから情報通信研究機構(NICT)で1対1対応する化学物質の英語名と日本語名を抽出した「Nikkaji Parallel Corpus」を利用する研究が使われていました。先ほどの新着論文レビューもそうですが、NBDC/DBCLSの所有するデータに活用できるものがあることをライフサイエンス以外の分野でももっと広めていかないといけないなと痛感しました。
情報抽出や翻訳の研究では1件を除いて統計/ニューラルネットワークベースの手法が使われていましたが、質疑の中で「物質名は命名規則があるのだから物質名を構成するルールを書いたらよいのでは」という意見が出ました。現実の文書では慣用名が使われていたり物質名の中の記号に表記ゆれがあったりして単純にはいかないとは思いますが、新しい物質が出てくるたびに辞書で対応するにはおそらく限界があるでしょうから、構成的に物質名を生成したり解釈したりすることを進めていくべきかもしれません。
医学分野の発表
医学系の応用は特にテーマセッションは設けられておらず、一般セッションの中に分散していました。カルテやWeb上の医療情報から情報を抽出する研究のほかに、高齢者の発話音声から認知症傾向を探る、Twitterのツイートからインフルエンザなどの感染症に罹患しているか判定して流行状況の把握をする、など患者さんの発話から診断をする研究もおこなわれています。
医学系応用での困難な点の一つに、個人情報保護その他の理由でコーパスが公開されないことがあります。電子カルテに関してはベンチマークのために「疑似カルテ」を作って使う、ということが行われていますが、疑似カルテは実際のものと比べて整いすぎていて、疑似カルテ上で高い精度を示しても実カルテではうまくいかないということも起こっています。このことに関連して複数の発表者の方に「データが公開されない状況で、ほかの研究との比較はどうするのか」尋ねてみたのですが、「自分で先行研究をインプリメントして比較するしかないのでは」というお答えでした。医療画像あるいは英語の医療テキストの解析で行われているような、「共通のベンチマークデータセットが公開されていてその上で手法を比較する」ということがなかなか行えず、日本語医療テキスト解析の進展のために大きなハードルになっていると思います。現実に近い疑似カルテをつくるために人工知能を使おう、というアイデアもあり得ますが、その時の訓練に使うデータをどうしましょう、という話になってしまい、困ったところです。
一方で、25周年記念のパネルディスカッションで「大学の医学部で学生に人工知能の教育をしよう」という動きがある、という話が紹介されていました。アルゴリズム開発側は公開データで手法の優劣を比較したいのにデータを持っている側としては公開できない(悪くすると一切部外者に見せられない)、という状況で、今後、言語処理を含めた医学系人工知能の開発は情報科学系研究者から医学系研究者の手に移っていくのかもしれません。
その他の発表
そのほか、機械翻訳、機械読解、画像等とのリンキングなどがホットなトピックとなっていましたが、個人的に興味を持ったのが作文支援で、英文の誤り訂正、わかりにくい文章の修正など使ってみたいシステムがいくつもありました。作文とは違いますが、ポスター発表のポスターを内容のXMLとスタイルのCSSに分け、同じ内容で違ったポスターを生成する研究もあり、将来、書きたい内容を関係グラフなど形式的に書けば自動的にわかりやすい文章やプレゼンテーション資料ができるようにならないかな、などと考えてしまいました。
参加したセッションのどの教室も盛況で、活発な質疑応答が行われていました。とくにポスターセッションの会場は多くの人で混み合っていて、少々酸欠ぎみになるほどでしたし、発表者の方と別の方との議論が白熱していて、質問をしたくても割り込めない、ということもあったりして、なによりも「熱気」が印象に残る大会でした。
Licensed under a Creative Commons 表示4.0国際 license
©2019 建石 由佳(国立研究開発法人科学技術振興機構バイオサイエンスデータベースセンター)