KDD2018@LONDONに参加してきました!
下條 雅弘
こんにちは。データイノベーション推進部の北條、下條、堀江です。この度はロンドンで開催されたKDD2018に参加してきたので、その報告をさせていただきます。
まず、KDD(Knowledge Discovery and Data Mining)についてですが、データマイニング、機械学習関連のトップカンファレンスの1つであり、毎年世界各地から研究者や企業が集まるイベントとなっています。今年の開催場所はロンドンでした!
http://www.kdd.org/kdd2018/ (KDD2018のホームページ)
KDD&ロンドンは以下のような雰囲気でした。
人気のセッションは立ち見や座り見が続出しました!
↑ KDD会場内に設けられた企業ブース
↑ こちらはバンケットの様子。
↑ ロンドンの街並み。
研究紹介
今回、会場で聞いた研究や読んでみて面白そうな論文をいくつか紹介させていただきます!各タイトルから論文のリンクへ飛ぶことができますので、興味がある研究に関しては、ぜひ論文を読んでみてください!
Real-time Personalization using Embeddings for Search Ranking at Airbnb
Applied Data science track best paper。
本研究では主に以下のような提案が行われています。
1) Airbnbにおけるリスト (宿泊先) を直近の閲覧履歴から推薦 (short-term interest)
2) user-typeを定義したときに個別のuser-typeに対して適切なlist-typeに所属するlistを推薦 (long-term interest) というように、個別のニーズにあわせて推薦
それぞれの概要として、
1) item2vecを拡張した(拡張と呼ぶのかは厳密にわかりませんが) list embeddingを提案しており、同一セッション中の list id を系列とみなした embedding を行っています。 Negative として扱いたいデータセットを個別に作成し Negative sampling を行うなどの学習時の工夫が行われています。
2) user-type から list-type を推薦するために、それぞれを同一の空間に埋め込むための方法について述べられています。具体的には、金額や location などの属性を適当なビンで区切り、user_location_a_price_b
のように type を作成し、list-type についても同様の方法で分けることで list id や user id をひとつ抽象化した id を作成し、その後、あるユーザーの予約完了までのセッション中での user_type a
-> list_type b
-> list_type c
を系列とみなし学習しています。
Airbnbの他のサービスと大きく異なる点として、宿泊の予約を行ったユーザーをホストが拒否することができ、type embedding では、この host reject をNegative sample として恣意的に組み込むことでうまく学習させています。
Negative Sampling時にrandom samplingするのではなく、検索時のコンテキスト上離れているべきサンプルを集めたデータセットを用いることで上手く学習出来るというのは、幅広い応用分野がありそうだなと思いました。
xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems
これまでのNeural Netへ拡張したFactorization Machine (Neural FMやDeepFM) ではたかだか二次の項までしか考えられていないという問題がありました [Huifeng Guo, 2017] [Xiangnan He, 2017]。
本研究では、各層の高次交互作用をField数: M×Embeddingの次元数Dの隠れ層に圧縮することで、層の深さによって字数をexplictに制御可能にしたCINモデルを導入しています。特徴量のField数をMとしたときに、交互作用項を計算する際の直積計算をM×Mの画像とみなすことで、各層では高次の交互作用を計算するフィルタのような働きをしていると考える事ができるとしており、実際に実装では、M×Mのベクトルに対して1次元CNNを行い、フィルタの数を次の層のField数とするといった実装上の工夫が行われていました。また、トイデータではなく、現実世界のデータセットを用いて精度評価を行っています。
Deep Neural Net with Attention for Multi-channel Multi-touch Attribution
AdKDDで発表されたDeep Learningを活用したアトリビューションモデルを構築する研究です。
アトリビューションモデルとは、マーケターが集客投資により得られるリターンを最大化する予算配分を行うために、集客チャネルごとのコンバージョンへの貢献を評価するモデルのことです。
この研究では、ルールベースではなく、LSTMを活用したモデルとコントロール変数を考慮したモデルを組み合わせることで、Multi-touch attribution,time decay,user contextを踏まえたアトリビューションモデルを提案しています。
アトリビューション分析はWebサービスを運営している企業であればどこでも用いている手法なので、複数チャネルの貢献や、時間的価値の減少がもたらす様々な観点をDeep Learningで表現しようと試みていた部分が面白かったです。この研究のようなアプローチを活用して、集客チャネルの評価や広告宣伝費のシミュレーション等に活かせないか考えてみたいと思います。
I Know You’ll Be Back: Interpretable New User Clustering and Churn Prediction on a Mobile Social App
Snapchat内の行動データを使い、”User Clustering”と”Churn rate(離脱率)の予測”を行っている研究です。まず、クラスタリングで6つのタイプ(All-star,Chatter,Bumper,Sleeper,Swiper,invitee)に分類し、インサイトについて分析を行っています。そしてクラスタリングを踏まえたLSTMモデルを活用し、離脱率の予測の精度が向上させたという結果でした。離脱率に関する予測ニーズはAppだけに限らず、あらゆるWebサービスで存在しているため、リターゲティングなどに活用ができそうな印象を受けました。
Stable Prediction across Unknown Environments
トレーニングデータとテストデータの分布が異なる場合の対処について書かれた発表でした。この論文ではDeep Global Balancing Regression(DGBR)という手法を提案しています。
分布が異なる母集団にモデルを適用する場合や、目的変数が確定するまで時間がかかるが直近のデータの分布を反映させたい場合などに使えそうという印象でした。既存手法との違いがまだ理解できていないので、その辺を調査しつつ実データでの検証を検討していきたいです。
Risk Prediction on Electronic Healthcare Records with Prior Medical Knowledge
医療現場でも診断にDeeplearningを活用しているが、これに医者の事前知識を活かせないかを検証している発表でした。事前知識を取り込むことで精度が向上したとのことで、かなり興味深い内容でした。
使えるデータが少ないときは有効な可能性もあるかなと感じました。また、事前知識を上手くモデルに取り込めるかがこのアプローチの肝になりそうで、ハマるケースがぱっとは思いつかないものの、こういうケースが発生したときの対応案として頭に入れておきたいなと思いました。
Customized Regression Model for Airbnb Dynamic Pricing
Airbnbのスマートプライシングのロジックについての発表でした。最適価格を評価するためのメトリクスとそのメトリクスを最適化したときの回帰モデルについて提案されていました。
価格戦略系の分析は検討したことがあるものの、売れた価格が最適とは限らず(もっと高く売れる可能性もあるため)、評価が難しいと感じていたテーマだったので、とてもおもしろかったです。実際のデータで試してみて検証・活用の可能性を検討してみようと思います。
おまけ
ロンドン到着後、道に迷っている様子。事前にホテルまでのルートをちゃんと調べてから行くべきでした…。
初日のホテルで食べたFish&Chips!!食事を心配していましたが、事前にレビューを見れば、美味しい店にたどり着けます!笑
最後に
皆さん、KDD2018の研究紹介いかがだったでしょうか?論文はすべてKDD2018のホームページ上で公開されているので、ぜひ興味があったものは読んでみてください!
そして、もしこういった海外の最新研究に興味がある!ビジネスにそれを役立ててみたい!と感じた方、ぜひ一緒にリクルートテクノロジーズで働いてみませんか?詳細は下記リンクから!
https://recruit-tech.co.jp/recruitment/mid-career.html
ありがとうございました!!