第4回リクルート自然言語処理ハッカソン報告
小玉 祥平
リクルートテクノロジーズの小玉です!
以前告知させていただいた、リクルート自然言語処理ハッカソン の報告です。
テーマは、弊社の人材メディアである「タウンワーク」の分析/改善でした。
環境構築・データ理解から始め、企画・仮説出し、そして分析、発表準備と、コンテンツは盛りだくさん。
これをすべて個人戦で4泊5日で行うという…かなり濃いハッカソンですね。
技術面はもちろん、実際のタウンワークのビジネス担当のメンタリングの機会も用意いたしました。また、最終発表にも多くのオーディエンスが詰め掛けました。
参加された学生の方々は、とても幅広い技能が求められて大変だったのではないかと思います。
▲最終発表会の様子
ですが、そんな難しい条件を乗り越え、最終発表ではいくつもの素晴らしい分析成果が披露されました!
実際のタウンワークのグロースの参考になったアプローチもあり、実り多きハッカソンになったのではないかと思います。
そして何より、参加された学生の方々にとっても大きな学びになっていたようで嬉しい限りです。
このハッカソンで入賞発表の一覧とその内容は以下の通りです。
【最優秀賞】
下山翔さん(明治大学)「LDAを用いた、ユーザの嗜好分析」
【テクノロジー賞】(順不同)
水間浩太郎さん(大阪大学大学院)「応募されやすい求人情報に出現する単語の特徴」
肥田礼夢さん(東京大学大学院)「ユーザーが応募した記事タイトルに基づくユーザー属性推定の一歩」
【ビジネス賞】
八木圭さん(一橋大学)「求人タイトルの作成をデータドリブンに」
最優秀賞:下山さん「LDAを用いた、ユーザの嗜好分析」
→求人記事レコメンデーション精度の向上を目指して、記事テキストデータからLDAを用いてトピック抽出し、それぞれのトピックに関心のあるユーザーが、他のトピックにも関心があるかどうか分析しました。例えば、コンピュータ関連の仕事に関心がある人は、高待遇の仕事に関心が高い、そして逆も然り、ということが発見されました。特に興味深かったのは上記のような逆の関係が成り立たないトピック間の関係が発見されたことです。着眼点とデータ解析自体だけでなく、考察の仕方の丁寧さも評価され、最優秀賞受賞となりました。
テクノロジー賞:水間さん「応募されやすい求人情報に出現する単語の特徴」
→因果推論の枠組みから、求人情報の自由記述欄の各キーワードの応募率貢献度を検出するアルゴリズムを作成。「高給」というキーワードが応募率に寄与するのではないか、という仮説を立証しました。キーワード以外の交絡要因(実際の時給など)の影響も丁寧に除外し、仮説を厳密に実証した取り組みが評価ポイントでした。
テクノロジー賞:肥田さん「ユーザーが応募した記事タイトルに基づくユーザー属性推定の一歩」
→求人応募前のユーザーの性別を推定することでより良いユーザー体験を構築できる、という趣旨のもと、ユーザーの性別情報と応募した記事タイトルを元に、LDAを用いたモデルを考案し、ユーザーの男女を推定する方法を発表しました。推定精度の高さ、手法選定のプロセスと、重み付けの妥当性の確認と、機械学習を使った仕事としての完成度の高さが評価ポイントでした。
ビジネス賞:八木さん「求人タイトルの作成をデータドリブンに」
→タイトルと求人詳細画面のクリック率のデータセットを学習させ、クリック率に影響する単語の推定を行いました。それを元に、原稿IDを入力するだけで求人タイトルに加えるべき(もしくは加えないべき)単語の推薦を行うAPIを構築しました。実際に利用されるイメージが明確に想像できる点が評価ポイントでした。
技術メンターの大杉からのコメントです。
今回のハッカソンでは、BigQuery+Python3 の分析環境でハッカソンを実施しました。過去のハッカソンとくらべても分析環境面での苦労は少なかったかと思います。
一方で、対象とするデータセットがタウンワークという巨大なメディアだったため、問題設定や分析方針の決定が例年以上に難しいものでした。特に、求人側のテキスト情報だけではなく、求職側のWeb行動も分析可能だった点は、5日間という短い期間で取り組むには分析難易度の高いデータセットになっていました。
それでも表彰された方を含め、質の高い分析結果が最終発表で出揃い、参加者のレベルの高さを感じられ、おっさんとして負けてられない気分になりました。参加者のみなさま、ハッカソン開催協力者のみなさま、ありがとうございました!
参加していただいた学生の皆様、本当にありがとうございました。
今後も、今回のような企画を開催できるように尽力して参ります!