CVPR2019 参加レポート

CVPR2019 参加レポート

はじめに

アドバンスドテクノロジーラボ(以下、ATL)にてR&D業務を行っている西郷です。
ATLでは中期的(5年後)にリクルートの競争優位性につながる技術開発や事業開発の前段階にあたる検証を行っています。主にIoTやDeepLearing関連のテクノロジーの検証を行ってますが、今回、本領域のトップカンファレンスに参加する機会がありましたので、自身のテーマに交えてレポートします。

実際に参加して感じられたトレンドとは?

今回はCVPR(Conference on Computer Vision and Pattern Recognition)というコンピュータービジョンのカンファレンスに行ってきました。ご存じのようにCV関連は、DeepLearning周辺技術の進化と共に、非常に盛り上がっている領域です。最近では勉強会やカンファレンスのレポートがWeb上にあがるので、単に論文やソースコードなどの情報を取得するという目的だけでは行く必要はあまりないように思えます。しかし今回は、「参加することで生きた情報を得たかった(≒広く領域のトレンドをウオッチする)」「現在行っているMedical Imageのテーマの深掘り」という2つの目的があったため参加を決めました。

http://cvpr2019.thecvf.com/

スケジュール全体は、前段としてワークショップやチュートリアルが2日、本会議が3日あるという、トップカンファレンスによくあるスタイルです。全体感や雰囲気を感じてもらうために、本会議の1日目、6月18日の様子をご紹介します。

オープニングは朝8時30分からで、到着すると5000人くらい入ると思われる会場にびっしりと人が詰まっていました。10分くらい余裕をもって到着したのですが、結果的に立ち見でした。(苦笑)

オープニングでの説明にて、68の国から9200人もの人々が参加していることがわかり、この混み具合に納得しました。過去にいくつもトップカンファレンスに参加してきましたが、正直この規模のものは見たことがありませんでした。もはやアカデミックのカンファレンスを超えたその過熱ぶりに驚きました。

統計でいうと、約14,000人の著者が、5000を超える論文を提出しているという恐ろしい規模です。結果1294本が採択されているようで、採択率は25.2%となり、トップカンファレンスとしては少し高いレートかなという感じです。(この採択率はこの数年ほぼ変わってないようです)。

またカンファレンスのスケジュールはポスター発表と口頭発表が交互に入れ替わる構成になっていて、気になる発表は両方とも確認できるところが非常によいと感じました。例えば初日のスケジュールはこんな感じです。

7:30-9:00  Breakfast
8:30-9:00  Opening / Awards
9:00-10:15  Orals 1.1
10:15-11:15  Break
10:15-13:00  Posters 1.1
11:30-13:30  Lunch (Posters switch at 1:30pm)
13:30-15:20  Orals 1.2
15:20-16:20  Break
15:20-18:00  Posters 1.2

↑「Orals 1.1」でプレゼンした内容は、「Posters 1.1」にてポスター掲示されます。聞き逃した際や、ポスターにてしっかりとディスカッションするのにも非常に便利。

初日の冒頭にOpeningがあり、最優秀論文なども発表されるのでとても親切です。例えばTero Karras (NVIDIA Research)が発表した、「A Style-Based Generator Architecture for Generative Adversarial Networks」  いわゆる昨年から話題になっているStyle-GANが最優秀論文賞に選ばれており、オープニングでアナウンスされる様子をリアルタイムに観ることで、「おおっ!」というちょっとした感動がありました。

余談ですが、ハイライトが出版されるのも、最近のカンファレンスのスタイルですね。

論文の全体傾向としては、2点ほど盛り上がっているテーマを感じました。

1点目は「ポーズや3D系」の発表で、CVPR2017のOpenPose以降どんどん増えている印象です。オープニングでもキーワードによる示唆があり、「3D from」「3D from single」というキーワードが増えている(おおよそ1.5倍)様子が伺われます。これはsingle image (つまり2Dの画像)から3Dの姿勢推定をする技術のことを指しています。2017年以降に姿勢推定の技術が広まって以来、現在は2Dの単一画像から3Dの姿勢推定をする技術、またそれらに関する動画周辺の技術への熱が高まっているということが分かります。実際にポスターを見ていても、当該テーマには人が多く集まり、その盛り上がりを実感することができました。

2点目は「semi-supervised learning(半教師あり学習)」、「weakly-supervised learning(弱教師あり学習)」です。DeepLearning系の技術が普及したことで、大量のデータセットとラベル&アノテーションがあるタスク(教師あり学習)に関してはほぼやり尽くされたと言っても過言ではなく、研究者や実務上での興味は徐々に他へと移っていることが伺われます。私も現在取り組んでいる医療画像系の研究テーマでは、腫瘍よりも小さな「結節」にアノテーションを付与し、物体認識のAIを開発することにトライしていますが、大量の小領域アノテーションを付与する作業の大変さに閉口しています(笑)。現在は、周辺技術がより実務的に使える良いものになろうとしている、そんなタイミングなのかもしれません。

本会議と同様に盛り上がる企業ブース

本会議の3日間は企業展示も行われています。過去は採用が主な目的で小規模だった各ブースも、インタラクティブな要素が加わって、見本市の商業ブースのようになっています。それらはとても面白く、一日中いられそうな感じです。

まず全体としては、GAFAをはじめとしたITジャイアントのブースが目立ちます。それ以外では自動運転系が目立っており、各社とも展示している自動車に独自センサーを非常に多くつけているのが印象的でした。実際に自動運転がどこまで進んでいるのかについては、自分の専門外のため深掘った言及は避けますが、ざっと見る限り物体認識やセグメンテーションだけでなく、時間を考慮した深度推定や対物関係の要素技術が徐々に深まっているフェーズなのかなと推察されました。

 

 

※DiDiの展示車と周辺センサー

※BOOX社ブースにて。自動運転用のシミュレーターと思わしきもの

また前述のGAFAのブースでは、Googleはそこまで派手さはなく採用がメイン、Facebookはちょっと未来感がある感じとなっていました。

 


2社は本会議でかなりの数の論文がアクセプトされているので、ブース自体にそもそもあまり意味がないのかもしれないですが、流石にしっかりとした存在感がありました。

自分も足を運んでみましたが、PyTorchのステッカーが置いてあり、それらを何気なく手にとっていると、「何のタスクやってるの?」と声をかけられました。そこから「Object Detectionだよ、胸部CTから小さな腫瘍や結節の検出をしてるよ」「へー、Coolだね!」という風に、何気ない会話から具体的なディスカッションへと話が進み、Deep系をやっているエンジニアには嬉しいブースだと感じました。

一方、Microsoftやintelなどのブースは派手な作りで、採用などに向けたアピールの場になっています。


その他の企業では、モバイル系企業なども多く出展していました。
例えばOPPOという会社は、アップル、サムスン、ファーウェイなどに次いでグローバルで5番手くらいの出荷シェアをもつ中国系のスマホメーカーなのですが、比較的大きなブースを出していました。
具体的なテーマとしては、デバイス上で動く動画のスタイル変換アプリケーションを作っているようで、デモ版のアプリを見せてもらいました。動画にラグがあるため、速度改善を行っているとのことで、つまるところ流行りのエッジ処理の高速化などを行っているということになります。やっぱりデバイスを持っているのは強いな、と感じさせられました。

参加セッションと論文ピックアップ

さて、論文の紹介と参加したWorkshopの紹介をします。特に興味深かった論文は、

“A Style-BasedGenerator Architecture for Generative Adversarial Networks” ,Tero Karras; Samuli Laine; Timo Aila

https://arxiv.org/abs/1812.04948

今回のベストペーパーの一つにもなっているので、ポスター周辺はものすごい人だかりでした。

この研究の貢献点は、新しいGeneratorの構造を提案したことです。

ポスター発表の場で聞いたところ、この研究者が言うには、今後実現したいのは画像のスタイルのコントロール、とのことでした。スタイルが複数の側面でコントロールできないことが課題だと思っていたようですね。確かに既存のStyle-Transferだと、誤解を恐れずに述べるなら、スタイル元画像Yのスタイルを画像Xに転移させることに留まっています。(実際はEncoderとDecoderから構成されるネットワークですが。)

論文を見ると、今までのモデルはFC層とCV層を繰り返しUpsamplingしてGeneratorを1ライン発生させているのですが、提案手法では、FC層の後に9つの合成レイヤーを結合しています。各合成レイヤーの中にAdaINを2層ずつ、合計18層が構成されているのですが、この層それぞれに、パラメーターやノイズを加えているのが特徴です。これは、pixelのサイズが異なっている合成レイヤーがある程度独立でワークすることができる仕様になっていますよね。面白い!


論文のFig.3より、具体的なOUTPUTとしてはメガネ、肌の色、髪の長さ、年齢などがうまく学習されている様子が伺われます。


Generatorの各層ごとに学習する要素が異なっているのがわかるかと思います。例えば、4X4,8X8などで学習したCoarse層では顔の向き、メガネ、ひげの有無、年齢、顔の形、表情(口が開いているかなど=笑い)などが、Fine 層では背景や髪の色などの雰囲気やテクスチャーを表現できています。応用として、車や家の内装にも適用した結果も報告されています。

Workshop: CVPR Sports

参加したワークショップの一つにCVPR sportがあります。以前、私達も検討テーマの一つとしてOpenPoseを試みており、スポーツや人間動作の解析に興味を持っていたためです。

招待講演では、intelの方が「Optical Player and Ball Tracking in Soccer」というタイトルで最先端の事例を話されていました。内容としては、Ball detection & tracking の話を中心に、サッカーにおけるコンピュータービジョンの活用事例が盛り込まれていました。デモムービーではリアルタイムのボールトラッキングの映像がプレゼンされていましたが、高画質な映像にAIを組み合わせることで、臨場感やエキサイティングな感情を得ることができる良い例だと感じました。また会場からはサッカー以外のスポーツにも使えるのかといった質問もあり、サッカーを中心としてこの分野でのAI技術が急速に高まっている印象を受けました。


また、ワークショップ論文については下記のようなジャンルで募集され、今回採択されたものに関してショートプレゼン&ポスター発表が催されました。

  • – estimation of position and motion of cameras and participants in sports
  • – tracking people and objects in sports
  • – activity recognition in sports
  • – event detection in sports
  • – spectator monitoring
  • – annotation and indexing in sports
  • – graphical effects in sports
  • – analysis of injuries in sports
  • – performance assessment in sports
  • – alternative sensing in sports (beyond the visible spectrum)

いくつか面白かったものを紹介すると、

Early Detection of Injuries in MLB Pitchers From Video"

https://arxiv.org/abs/1904.08916

MLBのピッチャーの負傷を予測するアルゴリズムの実験的な取り組みで、動画をソースとして、ピッチャーの怪我予測が9割程度可能となる結果が出ています。モデルはピッチャーごとに学習させており、あるピッチャーで学習したモデルを他のピッチャーへ適応させたり、右利きのピッチャーと左利きのピッチャーで検証を行ったりしている最中で、発表者いわく包括的なモデルを作るにはまだまだ難しいとのこと。理由として、データ量の問題などに言及していました。
将来的には、なぜ怪我をしたのかメカニズムを解明して怪我の未然防止等に役立てたいとの事でしたので、日本でもプロ球団やトップアマチュアなどでニーズがありそうだと感じました。

GolfDB: A Video Database for Golf Swing Sequencing"

https://arxiv.org/abs/1903.06528

ゴルフスイングの解析を行うためのいくつかの提案を行っています。スイング中の状態(イベント)を予測するもので、例えばトップ、インパクト、フィニッシュといった状態について各イベントに該当するフレームをピタリと当てるタスクです。数秒程度のスイング動画をフレームに分割し、技術的にはLSTMを用いて検証を行っています。
予測は良いもので95%程度、スイングのトップなどがよく当たるようです。対してスイングの終了などはあまり当たらないようですが、これは正解データの定義の問題です。前述の通り、このモデルはある状態をクラスとして、動画中に対応するフレームを特定するタスクで、具体的には2秒のスイングに対してフレームは200ほどあります。つまり100分の1秒を当てるものですが、そのフレームウィンドウだとスイングの終了はどの瞬間が終了なのかを検出しずらく、非常に難易度の高い問題設定だと感じました。
オープンソースとしてデータセットと学習済みモデルが提供されるそうなので、我々も試してみることができます。ちなみに発表者いわく商業利用等はまだ考えてないとのことですが、アーキテクチャーが軽量でモバイルにも乗せられるそうなので、アプリなどと組み合わせるといった応用が考えられそうですね。

 

Workshop: Medical Computer Vision

また、別の日にはMedical Imageのワークショップに参加しました。現在取り組んでいる研究の一つにCTイメージの画像診断支援があり、この領域の知識を深めるのも本会議のメインの参加目的です。

このワークショップは他のワークショップとは違い、14人の招待講演者が一日かけて専門領域についての取り組みや論文を紹介します。いくつか面白かったものを紹介します。

“AI Innovations in Radiology for Clinical/Translational Applications" Prof. Shandong Wu (UPMC, USA)


ピッツバーグ大学による、マンモグラフィーを用いた乳癌の解析及びリスクのバイオマーカーの取り組みに関する紹介です。
研究自体は、乳癌検査の検知精度向上にDeepLearningを用いるという、臨床的にも社会的にも非常に意味のあるものです。加えて先端的なアノテーション(半教師あり学習にて使用)などについて積極的に言及しており、驚かされました。
発表者は医療現場だけでなく、コンピューターサイエンスやAIをカバーした医工連携センターも運営している立場であることから、当該領域に関して深い造詣がある方で、新しいテーマに積極的にトライしているのだと思われます。医療系画像データでの半教師あり学習はあまりうまくいっている事例をまだ見たことがない一方で、先端事例に取り組む必要性を感じました。

“NIH-DeepLesion: Learning Universal Lesion Detection, Classification, and Segmentation from Mined Clinical Annotations, Reports, and Ontology” Dr. Ke Yan (National Institutes of Health, USA)

https://arxiv.org/abs/1710.01766

2つ目は、現在の参考研究のうちの一つでもある、NIH(アメリカ国立衛生研究所)による発表です。昨年度、大規模なCT画像のデータを公開して話題になったものです。


昨年の発表では、全身のCT画像から腫瘍を発見する包括的な物体認識を報告していたのですが、本研究ではオブジェクトを発見するだけでなく、「どのような部位か」「どんなタイプの腫瘍か」「腫瘍の形や大きさ」といったラベルのオントロジーに対する学習を提案しています。特に彼らの研究は腰部以上の全身に対する包括的なラベル付与を目指しているので、不明瞭なラベルに対するオントロジーの必要性にも高い問題意識を持っているのではないかと思われます。より実用的な画像診断支援のソリューションを考える際に重要な要素だと思えたため、自分の研究のヒントにもなりました。今後の課題として取り組みたいと思います。


また、ワークショップの場で発表者に話しかけたところ、現在取り組んでいる研究に関するディスカッションができたのも非常に有意義でした。私は上記の2018年の論文を参考に、より細かく正確に腫瘍を検出するアルゴリズムをテーマとしているのですが、腫瘍よりも小さな結節ではあまり良い検出結果が得られていません。ディスカッションにより当該テーマの難しさや正解データについての示唆が得られましたので、本件についてはまたどこかの機会に、ブログ等にて報告したいと思います。

 

まとめと今後

今回CVPR2019には、多くの先端事例と事業化もできそうなアイデアがありました。一人ではとてもまとめきれませんでしたが、少しでも皆さんの参考になれば幸いです。

また今回参加して改めて感じたのは、自分たちの身近にも発表に値する取り組みが潜在的に多く存在しているのではないかということです。

今後は、こういった会議に参加者ではなく発表者としてエントリーし、そこで得たシーズをリクルートで事業化できるようにチャレンジしたいと思います。