KDD2015に参加してきました
小山田 創哲
リクルートテクノロジーズの小山田です。
私は今年4月(2015年4月)にリクルートホールディングスに入社し、3ヶ月の研修を経て、7月にリクルートテクノロジーズへと配属されました。
今はビッグデータ部に所属しデータ解析職として、サービスの改善や、リクルート全体としてのビジネスの効率化に関わる仕事をしています。
今回、データマイニングのトップカンファレンスであるKDD2015と、Predictive APIのミートアップであるPAPIs’15に参加してきたのでその報告をします。
今回の出張目的は、KDDではデータマイニング・機械学習の最先端の技術及びその動向を把握し、PAPIs’15では機械学習API・データ解析者向けプラットフォームの調査をすることです。
KDD2015
KDDは、いわゆる大学や研究所の研究者が研究発表をする場ではありますが、IT企業を始めとした民間企業でのデータマイニング・データサイエンスの取り組みも多く取り扱っている点が特徴的な国際会議です。
初日はKDDCUP2015(データ解析コンペ)のワークショップへと参加しました。
このワークショップでは、先んじて行われていたデータ解析のコンペの表彰と、上位入賞者による予測モデルの紹介が行われました。
今回のコンペはMOOC(Massive Open Online Course)における途中離脱者の予測が課題で、結果は上位3チームのスコアが0.001差にひしめく大激戦となりました。
KDDCUPでは普段ビッグデータ部の業務で扱っているようなWEBサイトでのユーザのアクセスログを使っての予測が課題になっていたので、予測に使う特徴量の作り込み方などは業務の参考になる部分が多くありました。
本会議はキーノートスピーチ、招待講演、チュートリアル、そして200を超える研究発表(一般発表)などからなり、8/10から13までの3日間行われました。
講演の中ではMicrosoftのKohavi氏の「Online Controlled Experiments: Lessons from Running A/B/n Tests for 12 Years」が特に印象的でした。
WEBにおけるA/Bテストの重要性が広く認識されるようになって久しいですが、Kohavi氏はそもそも何故A/Bテストが必要なのか、どのように活用されてきたのかをウィットに富んだ例えや具体例を交えて話していました。
またKohavi氏は一体何を最適化するのか、適切な指標を選ぶことの重要性と難しさを指摘、強調しており、これは私自身も普段の業務でも非常に痛感していることで、とても共感しました。
研究発表は研究者の方の発表が多いリサーチトラックと、企業からの発表が多いインダストリトラックの2つに分かれています。
リサーチトラックでは、私は比較的業務に役立ちそうなセッションを軸に、A/Bテストやバンディットアルゴリズムを扱っているもの、学習後に解釈しやすいモデルを提案しているもの、実問題の定式化を行っているもの等を中心に発表を聞きました。
また、インダストリトラックでは、私が普段業務で扱っているデータや問題と同じようなものに取り組んでいる発表をいくつか聞く事ができ、日々の業務へ参考にして直接応用できそうだと感じました。
リサーチトラック・インダストリトラック共にKDDでは業務に繋がりそうな素晴らしい発表、とても興味深い発表が非常に多く、また、そうした発表を自分と歳の変わらない学生がしていることも多々あり、とても刺激を受けました。
また、KDDでは発表を聞く以外にも、ブースを出していたDataRobot社の方々やKDDCUPで2位に入賞したチームの方々をはじめ、多くの方とミーティングやカジュアルな交流をすることが出来ました。
PAPIs’15
PAPIsは”Predictive APIs and apps”のベンダーやユーザのミートアップで、Predictive APIのベンダーによる自社製品のプレゼンテーションを中心に、先に紹介したKDDの直前に二日間にわたって行われました。
今回発表していたのは
- Amazon Machine Learning
- Microsoft Azure ML
- Google Prediction API
- BigML
- PredictionIO
などの機械学習API、データ解析者向けプラットフォームの有名処で、今回のPAPIsではそれらが一堂に会する形になりました。
数ある発表の中でも個人的に目を引いたのは、実際にJupyter(IPython notebook)を使ってその場でデモンストレーションを行ったBigMLの発表でした。
実際に利用する側としての使い方の具体的なイメージがそのまま伝わってきたので、データ解析者として「実際に使ってみたい」と思わせるものでした。
BigMLに限らず、昨今の機械学習API・データ解析者向けプラットフォームの機能の充実を実感し、今社内で取り組んでいる業務のいくつかも、こうしたプラットフォームを活用してより効率的に行えるのではないかと思いました。
また、PAPIsではLTの枠で、Hadoopを利用したリクルートのリコメンドエンジンについてビッグデータ部の堀越保徳が発表しました。(なお、この発表の内容の一部は書籍「初めてのSpark」に掲載されています。)
発表後、Amazon Machine LearningのDanny Lange氏をはじめ、何人かのPredictive APIのベンダーの方々に興味をもって声をかけて頂けました。
最後に
KDDではビジネスを含む現実世界での多様な問題が情報科学の問題として定式化され、解かれているのを目の当たりにし、一方PAPIsでは、そうした問題のうち、ある特定のクラスの問題に対しては、既に効率的に解くためのエコシステムが築かれはじめているという印象を持ちました。
ビッグデータ部でもビジネスの課題に対するデータ解析の観点からの取り組みにさらに意欲的に取り組む必要があると感じました。