「ビッグデータは“リアルタイム”でこそ価値がある」CETエンジニア 吉田啓二氏インタビュー
吉田 啓二
リクルートライフスタイルでは、グループ会社であるIndeed社の知見を生かして、新しいビッグデータのプロジェクト「CET(Capture EveryThing)」が発足。現在、ビッグデータ収集基盤の整備とサービスへの組み込み検証が急ピッチで行われています。
『じゃらん』や『ホットペッパー グルメ』など国内有数の大規模サービスから、『Airレジ』などの新規サービスまでを運営するリクルートライフスタイルでは、どのようにビッグデータの活用に取り組んでいるのでしょうか。
「CET」で基盤構築や分析・集計アプリケーションの開発を行っている、吉田啓二さんに聞きました。
聞き手/構成/編集/写真:小川楓太(NEWPEACE Inc.)
ブームは関係ない、身近な事例を見て取り組み始めた
—— まず、吉田さんが現在関わっていらっしゃるプロジェクトについてお聞きしたいです。
吉田 いま、Capture EveryThingの略語で「CET」という名前のプロジェクトをやっています。リクルートライフスタイルの全サービス横断で、共通的にログを収集して分析するような基盤を作ることが目的で、2015年6月頃からプロジェクトが立ち上がって活動しています。
まずはログデータを取って可視化するということから始めました。それが2015年8月頃に完成し基盤ができたので、9月に入ってからは、ログデータをどう分析してどうデータを活用しようかという部分に取り組んでいます。
—— そもそもこのプロジェクトが始まったのはどういった経緯だったのでしょうか? 正直2015年からビッグデータに取り組むというのは、遅いのかなとも思うのですが。
吉田 いえ、もともとビッグデータ基盤は作られていて、HadoopとかNetezzaとかを構えて、色々な事業データを取って、それをデータサイエンティストが分析できる環境はありました。ただ、この取り組みは結構レイテンシがあってリアルタイム性が乏しかったんです。
そんなとき、求人情報の検索エンジンを作っているIndeedが本格的にログの収集や分析を行っているのを、リクルートライフスタイルのマネージャ陣が見て、この取り組みをうちでもやってみようとなったのがそもそものきっかけだったみたいです。
ですから、一般的なビッグデータブームに触発されたというよりも、身近な事例を見て生かせそうだったから取り組み始めたという感じですね。
『Airレジ』ユーザーの操作はコールセンターでリアルタイムに同じ画面を見ながら対応
—— リアルタイムになることでどういったメリットがあるのでしょうか。
吉田 サービス的にどう活かすは、まさに今考えているところなんです。
例えば『じゃらん』では、「今13人がこのページを見ています」や「この宿は2時間前に予約されました」といったような情報を出して購入意欲を掻き立てることができます。これから実装しようとしているのが、宿の空室予測や売れ行きの情報から、あとどれくらいでこの宿が売り切れそうかといったような予測をするシステムなのですが、そこでもリアルタイムデータが重要になってくるでしょう。
あと『Airレジ』が結構面白いことをやっていまして。コールセンターで『Airレジ』ユーザーと同じ画面をコールセンター側でリアルタイムにみることができるようになっています。それによってユーザーがどういうところで操作につまずいているか、アプリケーションが遅くなっていないか、などを検知してカスタマーサポートの品質向上に努めているそうです。
—— すごいですね! カスタマーサポートに電話したときにも今の状況をいちいち説明しなくていい訳ですね。
吉田 そうです。リアルタイムで電話しているユーザーが今どういった操作をしているのかというところを見ながら適切に案内したり、ログイン状況に応じて適切なアプローチをとったりしています。
サービスのデータベースに負荷をかけないデータ収集が課題
—— 『じゃらん』などの大手サービスは昔からあるものが多いように思うのですが、データ取得のシステムを組み込むときに問題は起こらないのでしょうか?
吉田 基本的には、Fluentdというログ収集のミドルウェアを装着するだけなので、問題なく進みます。ですが、システムから「今こういった予約が入りましたよ」というようなデータがあったとして、それをリアルタイムでログ基盤に流すとなると、アプリの改修が必要になります。改修が必要だと必然的に時間がかかってしまうのですが、そういった機能が100〜200ぐらいあるので、いまリアルタイムにデータが取得できているのは10〜20ぐらいですかね。
—— 既存のシステムがデータ抽出のハードルになる、といったことはあまりないと。
吉田 そんなにないですね。ただ、今期は在庫データ、宿の空室情報、どれだけ予約が入ったか、といったような情報も取ろうとしているんですけど、結構そのデータ量が多くて、もう20億とか30億レコードとかになっているんです。『じゃらん』側のデータベースに負荷をかけずにどうやって取得するかっていうところをいま検討している最中ですね。
—— リクルートIDとデータの紐付けについてはどうですか?
吉田 『じゃらん』で買い物をした人が『ホットペッパー グルメ』で何を買っているか、そういったサービス横断で分析するときはやっぱり役に立ちそうです。既に統合されているIDをログとして送ってもらうようにしているので、特に意識することなくリクルートIDの実装は完了していますね。
—— IDとデータを紐付けると、どういった使い方ができそうですか?
吉田 例えば、『じゃらん』の利用情報から、ユーザーの趣味・志向を割り出して、『ホットペッパー グルメ』ではそれに応じたレコメンドや検索結果を出すといった感じですね。
—— それはかなり実用的ですね。
7人で基盤を創った、これからは実サービスで活用していく
—— リクルートライフスタイルのビッグデータの取り組みについてどんな感想をお持ちですか?
吉田 データの宝庫という感じでしょうか。ただ、データはあるのに活かしきれていない、宝の持ち腐れという反面もあります。ようやくそういったログを取る基盤を作ったところで、これからという感は強いです。どうやってサービスに還元していくかが重要ですからね。
—— リソースや予算は潤沢ですか?
吉田 いまの仕事の仕方は、いまのリソースに合ったボリューム感でやっています。現状は7人しかいないですし。
—— え!? 7人しかいないんですか?
吉田 エンジニアは4人です。残り3人は業務系ですね。
—— 業務系ってことはコードは書かないということですよね?
吉田 そうですね。設計や企画を主にしていて、どういった機能を追加するかを検討している人たちですね。
ひとりは、元々ビッグデータ解析をしていた人で、Tableauの導入とかSiteCatalystをリクルートライフスタイルに導入した人です。あとのふたりは、ABテストを回して、どういう機能があるとコンバージョンが上がるかを分析している人です。
エンジニアは、私と、今年4月から入った新人と、あとのふたりがデータサイエンティストも兼ねていて、データ分析もできるし自分で基盤を組んだりアプリの構築もできるっていう人です。
—— 色々な方がいるんですね。
吉田 私が去年の7月にリクルートグループに入社して、データサイエンティストふたりは去年の12月と今年の8月に入社ですね。みんな中途採用です。
—— 皆さん最近入られた方が多いんですね。7人は少ないかなと思ったのですが、今後増やしていく方針なのでしょうか?
吉田 増やして欲しいとは思っています。いまは優先順位をつけて、本当に重要な機能から地道にやっている感じですからね。実サービスでのAPI実装などになっていくと作業量が増えるので、人は多ければ多いほど嬉しいですね。これからの進歩次第で、ユーザーがビッグデータの恩恵をすぐに受けられるかどうかが決まりそうです。