第21回画像の認識･理解シンポジウム（MIRU2018）参加報告

イベント

2018年10月30日

建石由佳（NBDC）

NBDC研究員の建石です。

さる8月5日～8日、北海道の札幌コンベンションセンターで、第21回画像の認識・理解シンポジウム（MIRU2018）が開催されました。参加者約800名と画像処理分野では国内最大規模の会合です。

自然言語処理（ライフサイエンス分野におけるコーパス（用語解説①）や学術用語辞書といった言語資源作成）を専門とする私にとっては専門外なのですが、いろいろな分野で広く使われている深層学習（用語解説②）の応用研究が最も進んでいるとされる画像分野の活動に興味があり、聴講してきました。

会議は1日目のチュートリアルに始まり、一般発表(ポスター・オーラル)の他に特別招待講演、デモセッション、企業展示などのプログラムとともに、特別企画として「画像・音声・自然言語・ロボット分野におけるグランドチャレンジ」と若手プログラム「異分野サーベイ」がありました。また、昼休みの時間を利用して、スポンサー企業と若手参加者のランチミーティング、 IEEE Women in Engineering 主催の女性限定ランチミーティングが行われていました。

本記事では、これらのプログラムのうちライフサイエンスへの応用研究を中心とした一般発表と特別企画について簡単に報告します。解析技術よりも学習データに関心が偏っているかもしれません。

写真1

1．一般発表

一般発表は査読を経たオーラル発表とポスター発表に分かれており、ポスター発表ではオーラル発表のポスターもその他のポスターと同様に掲示されていて、オーラル発表に関する詳しい説明を聞いたり質疑を行ったりすることもできました。

オーラル発表の中に「招待講演」として、CVPR2018（IEEE/CVF International Conference on Computer Vision and Pattern Recognition）など最近のトップレベルの国際学会で発表された論文を著者が日本語で講演するという、ちょうどDBCLSの「新着論文レビュー」の学会版のような発表がありました。トップレベルの研究内容について、英語の専門用語を知らなくてもついていけることは、門外漢にとってとてもありがたかったです。

1.1 画像処理研究で使用される解析技術や研究対象について

発表された研究はニューラルネットワーク（用語解説②）を使用したものがほとんどでした。

ニューラルネットワークを前提として、どう訓練して精度を向上させるかが主要なテーマのように感じました。その中でも、強化学習（用語解説③）、敵対的生成ネットワーク（GAN）（用語解説④）がホットなテーマとして挙げられるでしょう。これらの技術については初日のチュートリアルでも取り上げられていました。

研究対象としては、物体の形状推定、光線の屈折の判定、2次元画像から3次元画像の構成、など汎用アルゴリズムの他、自動運転、物体抽出のゲームへの応用、調理動画のシーンとレシピの対応付け、食事画像からのカロリーの推定、着衣画像からの体形の推定など、身近なテーマへの応用研究がたくさんあり、画像認識の需要の広さを感じました。

ライフサイエンス系の応用としては、腫瘍の識別などの画像診断、同一の細胞を異なる方法で染色した画像のシミュレーションなどの医療応用の他に、農業関連としてブタの体重推定、コマツナ生育監視支援、ブドウ間引き支援、木材の分類がありました。姿勢判定を人が転倒したかどうかの判定に使う福祉応用も、広い意味でライフサイエンスへの応用と言えるかもしれません。

1.2 画像処理研究で使用される学習データについて

アルゴリズムを開発する研究では、標準的なデータセット（ImageNetなど）をベンチマークとして他と性能を比較するパターンが確立されているようでした。

画像認識はShared Task（用語解説⑤）を通じて発展してきた歴史があります。Shared Taskのための正解つきデータセットがワークショップ終了後に公開され、誰でも開発したアルゴリズムなどをそのデータセットで評価できるので、他との比較が容易になるのです。

一方、実世界の応用に向けては、正解アノテーション（用語解説⑥）つきのデータはまだまだ不足していて、それを補うために1枚の画像を加工してデータの数を増やすこと（データ拡張）が行われています。このデータ拡張は分割する、反転させる、解像度を変えるなどの方法で行われてきたようです。しかし、それではもとの画像に近い性質のものができてしまうという問題が指摘されていて、このためにGANを使う研究がされているなど、データ拡張自身が一つの研究分野になっていました。

1.3 学習データの公開について

ライフサイエンス関連の発表のいくつかについては、ポスター発表の際に「データの公開をされていますか、される予定はありますか」と質問をしてみました。聞いた範囲ではすでに公開されているデータを使った発表は2件で、一つはBRATS（Brain Tumor Image Segmentation Benchmark）という脳腫瘍画像の分類に関するShared Task用のデータセットを使ったもの、もう一つはコマツナの生育データを独自で作成し公開しているものでした。

医療系ではデータは非公開で、将来にわたっても「公開できない」という回答が多数派でした。理由は患者さんの同意が得られていないからというものでした。しかし、後述のように医療以外にも当てはまるかもしれない問題が存在し、患者さんの同意問題が解決したとしても、まだ壁があります。

医療以外では「（共同研究者のデータなので）よくわからない」という回答が多く、中には「考えてみたこともなかった、これから検討する」という回答もありましたが、全体にあまり公開には積極的でない印象を持ちました。

現在のように、認識や生成のアルゴリズムの実装が種々のプログラミング言語のライブラリとして公開され、計算機によるある程度の作業は簡単に再現できてしまう状況の下では、「研究を差別化するのはデータなのだからデータは出せない」という考え方もあり、そういう趣旨のことをはっきり言われる方が複数いらっしゃいました。また、システムが実用化されて5年くらいして（十分に利益が得られて）からなら公開可能かも、という回答もありました。

アルゴリズムの開発においては、複数の研究チームでデータを共有し、データの規模を大きくすることで精度を上げるということが理想なのですが、まだまだ浸透していない考えのようで、応用分野ごとにデータを公開するインセンティブが必要なのだと思いました。

２．特別企画

特別企画として行われた「画像・音声・自然言語・ロボット分野におけるグランドチャレンジ」では、画像・音声・自然言語・ロボット分野における深層学習の使われ方、他分野との共通項や接点、異分野融合の可能性や今後の課題など、各分野の研究者による現状の紹介とパネルディスカッションが行われました。

言語分野では機械翻訳に深層学習が使われ成果を上げているといわれていますが、実は画像、音声分野に比べると遅れていること、情報抽出のような課題にはまだ成果が少ないことが指摘されていました。

各分野に共通する課題として、実応用のための学習データの収集と正解アノテーションのコストが大きいこと、データがないと技術が発展しないのに技術を見せないとデータを出してもらえないこと、まれな事象に対するデータの取得が難しいことが挙げられていました。まれな事象に関する課題の例としては、交通事故シーンのデータが少なく、事故予測の問題を解くハードルを上げていることがあるそうです。

また、強化学習の実応用に対しては、状況をうまくパラメータ化したり、強化学習の報酬関数を適切に設定したりするのが難しいという問題があるようです。洗濯物を畳むという、日常生活で当たり前に行っている動作をロボットに学習させるのは難しい、という動画が印象に残りました。

３．まとめ

画像の分野のシンポジウムなので、発表資料にも視覚表現が豊富で直感的にわかりやすく、アルゴリズムの数学的な詳細がわからなくても全体像をつかむことができ、興味深く聞くことができました。

私の業務の一部であるコーパス作成の分野でも、専門的なデータはなかなか公開してもらえない、公開されたものに関しても専門的な知識の注釈付けや構造化のコストが高い、そもそもそういった整理されたデータを作成してくれる人を見つけるのが非常に困難、という問題があります。日ごろ感じている問題が、（データを大量に必要とする）深層学習が進んでいるとされる画像分野でもやはり問題になっていることを強く感じました。

少し意外だったのは、自然言語処理分野のLREC（Language Resource and Evaluation Conference、コーパス・辞書など言語資源に関する世界最大の国際会議）のような「データ作成にフォーカスした大規模な国際会議」が画像分野にはないらしいことです。「データを使って作成したシステム」が成果として重く見られて「使われたデータ」は陰に隠れてしまう分野もある中で、データそのものについて発表したり議論したりする場があることが、自然言語処理分野のデータ作成の進展に大きく貢献しているのだと思いますが、画像分野でデータを作成したり整備したりすることをどう評価しているのか、コミュニティとしてデータ作成をどう支援しているのか、この先どう支援していくのか、もう少し調べてみたいです。

用語解説

① コーパス

特定の分野における自然言語のテキストを機械可読な形で大規模に収集したもの。

② ニューラルネットワーク、深層学習

ニューラルネットワークは、生体の脳内のニューロンを模した、人工ニューロンが信号のやり取りをおこなうことで情報伝達する仕組み。ニューラルネットワークでは人工ニューロンが「層」に分かれて、入力層のニューロンが複数の中間層のニューロンを経て出力層ニューロンに情報を伝達するネットワーク構成になっています。多層のニューラルネットワークでの人工ニューロンの結合の重み（情報伝達のしやすさ）をデータの特徴に応じて学習させ、入力から適切な出力を得るシステムを作ることが「深層学習（ディープラーニング）」と呼ばれています。深層学習はさまざまな問題について高い性能をあげることが報告されていますが多量の学習データを必要とします。

③ 強化学習

システムの選択した行動に対する得点（報酬）を与えることで、システムが自分自身の行動を修正して学習を行なう仕組み。ロボットの行動を学習させるのによく用いられます。

④ 敵対的生成ネットワーク（GAN）

Generative Adversarial Network。実在のデータ（画像など）によく似た偽物を作ろうとするシステム（生成器）と、与えられたデータが実在データか偽物かを判定するシステム（判定器）を作り、生成器はもっともらしいデータを作るように、判定器は生成器が作成したデータと実在するデータを区別するように、互いに訓練し合う仕組み。

⑤ Shared Task

ある問題とデータセットを与えられ、参加者が問題を解決する技術を開発し、チームごとの達成率を比較するとともに各チームの技術詳細を成果として発表するワークショップ。競争型ワークショップとも言われます。

⑥正解アノテーション

（画像やテキストの中で）見つけたい対象の存在する部分にそのようなラベルを付けること。