「サーバ/インフラエンジニア養成読本 ログ収集~可視化編」はデータ分析者にもおすすめ

こんにちは,ATL の石川有です.

「サーバ/インフラエンジニア養成読本 ログ収集~可視化編」
を著者の一人である Elasticsearch 社の @johtani さんから頂きました.
こちらの本の対象読者はサーバ・インフラエンジニアとなっていますが,データ分析に関わる人はひと通り目を通すといい本です.
分析データが大規模化するだけでなく,よりリアルタイムな処理が求められる世の中で,分析者も技術的な困難さやその解決方法を知るには非常に良い本だと思います.

book-front

この本では,大規模化したログを効率的に収集できる Fluentd をはじめ,データストア,検索・解析サーバとして注目を集めている Elasticsearch,これらとセットで使用される可視化ツールの Kibana が解説されています.
Elasticsearch とは,Elasticserach 社が中心となって開発している OSS の分散型全文検索サーバで,Apache Lucene という全文検索ライブラリをコアに利用されています.
また Kibana は,Web ブラウザ上でインタラクティブにビジュアライズできる可視化フロントエンドのことです.

kibana

Cited by: http://www.elasticsearch.org/blog/kibana-3-0-0-ga-now-available/

こちらの本で紹介されていた Elasticsearch & Kibana のユースケースとして興味が惹かれたのは,データ分析結果のストレージとしての Elasticserach とその可視化ツールとしての Kibana です.
Elasticsearch は Hadoop エコシステムの入出力先として連携ができるようです.
Apache Hive は多くの企業で採用されている集計ツールではないかと思いますが,その集計結果を Elasticsearch に格納して,Kibana 上でプロットを確認できるのは魅力的です.

データ分析した結果をどう効率よく「もって」,可視化するというのは一つの大きな課題です.
MongoDB と Javascript などで自前で作るのもひとつの手だとは思いますが,やはり実装コストを考えると OSS ツールが欲しいです.
そういう点で,Kibana はひとつの選択肢となるのではないかと思います.

当然ながら Fluentd,Elasticsearch, Kibana を運用する上での Tips も解説されているのでエンジニアの初学者にも向いていますが,データ分析をする側の人にもぜひ読んで欲しい本だと感じました.