ビッグデータ活用を社内で広げるためには?

この記事をtweetする このエントリーをはてなブックマークに追加

掲載日 2013/03/06

ザ・キーマンインタビュー 

2013年1月21日に開催された「Hadoop Conference Japan 2013 Winter」のセッションの1つとして、「リクルート式Hadoopの使い方 2nd Edition」というテーマの講演が行われた。そこには、リクルートにおけるビッグデータ活用の最新状況だけではなく、一般企業で導入を進めるためのヒントも多く見受けられる。導入から現在に至るまでの流れ、失敗しがちな部分やその回避方法など、リクルートテクノロジーズの石川信行氏に詳しくお話を伺った。

株式会社リクルートテクノロジーズ 企業サイトへ

株式会社リクルートテクノロジーズ:石川 信行 氏

ITソリューション部 ビッグデータグループ
石川 信行 氏

13事業において、半期で120件超のビッグデータ活用を展開

Question

リクルートのビッグデータ活用は、現在、どのような段階にあるのでしょうか?

Answer

株式会社リクルートテクノロジーズ:石川 信行 氏

Hadoopに関しては、リクルートグループのほぼ全事業に対して提供を完了し、13事業において何らかのかたちでのビッグデータ活用が行われており、半期で120件超のデータ利活用を展開中です。案件のパターンとしては、RDBデータのほかに、サイトカタリストや独自ログといった行動履歴、テキストデータ、更に外部データなども取り込み、それをもとに、「大量集計」「スコア計算・アルゴリズム」「分析前集計」を実施するという流れに集約されるかと思います。

「大量集計」の結果は、モニタリング、営業用資料、戦略資料、機能開発判断材料などに活用されており、既存の集計に比べて、セグメント切りの軸を複数にしたり、対象期間を大幅に拡大することが可能です。また、「スコア計算・アルゴリズム」については、会員と原稿のスコア付けや行動履歴からの相関算出などを行い、メールやWebサイトの効果向上やレコメンドに活かしています。「分析前集計」は、ロジック作成やシナリオ作成を目的とした、分析用の変数作成に用いています。

図1 2012年度に進めてきた案件のパターンと活用の概要
図1 2012年度に進めてきた案件のパターンと活用の概要
出典:リクルートテクノロジーズ、2013年2月

Question

その中でも分かりやすいのは、やはり、レコメンドということになりますでしょうか?

Answer

ビッグデータ活用への取り組みは2008年から開始しましたが、当初はリサーチ段階として、3〜4台の実験機を用いて、Webサイトのバッチ処理移植といった、処理性能の評価・研究を行うことが主体でした。そこから社内の各方面へ説明などを行っていく中で、例えば、ユーザの過去の行動履歴などをもとに最適な商品やコンテンツなどをおすすめする、いわゆるレコメンドに使えないかという話が出てきたという経緯があります。高度なレコメンドの実現については、以前から要望はあったものの、元データが大量になるだけではなく、それを扱うロジックがきわめて複雑になることで、中間計算量が膨大なものになり、既存の仕組みでは処理できなかったというわけです。そうした要望を受け、われわれエンジニアとしても、単に高速処理を行うのではなく、レコメンドをはじめとする、データ活用の「出口」の部分をいろいろ広げるという使い道にシフトしていったほうが、Hadoopの基盤を最大限に活かせるのではないという考えに至ったわけです。

 現在では更にそこから広がり、レコメンドのような目に見える施策だけではなく、事業の今後の施策実行のための戦略的分析も行っています。つまり、転職サイトにおける、クライアントや転職エージェントからユーザへのオファーに関して、「どのようなステータスのカスタマーに送信されているのか?」「受信するタイミングにより、どの程度返信率が変化するのか?」といったことを分析することで、オファー施策改善に活かすといったものです。こうしたオファー施策の改善のための戦略的分析の中で使われる1つのクエリは、例えば、メッセージ送信テーブル(3500万件)と行動履歴テーブル(7億件)を 外部結合して、120億件の中間テーブルを作成するといった処理をともなうため、通常の汎用RDBMSでは37時間程度かかると見込まれますが、現在のシステムでは30分で返ってくるため、十分に実用的な段階に入っているというわけです。

Question

システムの規模としても、かなりのレベルに達しているのでしょうか?

Answer

現在までの流れを振り返ると、先ほどお話したリサーチ段階に続き、2010年には20台のラボ環境へと移行しました。ただ、これも、システム移行などで余ったハードウェアを再利用しただけで、実験・検証のフェーズにすぎません。セキュリティなど非機能面で商用利用が可能な設計を施した環境を構築したのは、2011年に入ってからのことで、この時点では120台のシステムを用いて、リクルートの社内業務を担うプライベートクラウドとの部分的な環境融合も果たしていました。現在ではシステムを40台に集約し、プライベートクラウド環境との完全融合を進めた、第2世代環境に移行しており、今後も拡大を続けていく予定です。

 また、機能面ではいわゆるエコシステムをフル活用しており、SQLライクな操作言語としてHive、マイニングのライブラリとしてmahout、データ連携ツールとしてsqoop、そして、Hbaseも現在実装中という構成となります。更に、より多くの社内ユーザがHadoopを扱えるように、ユーザビリティの強化にも力を入れており、Hadoopへの自由なアクセスを実現できるよう、WebHiveを導入しつつ、事業担当者などのユーザの意見を受けながら、改良を進めているところです。その結果、現時点でもある事業では既に60本ものクエリ登録がなされており、利用がより活発化しつつあります。


このページの先頭へ

ビッグデータに対峙する2種類のアナリストを1つの組織に

Question

リクルートではHadoopの導入期を経て、現在ではより広く、より手軽にデータ活用を業務に生かせるような方向で様々な取り組みを行っているとのことですが、ここまでは順調に進んできたと言えるのでしょうか?

Answer

株式会社リクルートテクノロジーズ:石川 信行 氏

そもそも、「情報活用というものはなかなか社内に定着しない」と感じている企業は多いと思いますが、リクルートでも同様に、失敗の繰り返しだったと言えます。例えば、「分析を行っても、それが業務に活かされない」「データを信用してくれない」「予算が確保しにくい」といった課題が次々に生じました。これはどの企業でも同じなのではないでしょうか。では、なぜ、現在のような成果につなげることができたのかというと、それはボトムアップで進められる土壌があったからだと考えます。事業担当者、分析担当者、そしてわれわれエンジニアといった現場レイヤーの人間が、泥臭く「要件出し」「実装」「効果把握」「報告」を繰り返したことで、ここまで取り組みを続けることができ、社内での認知度や理解も徐々に広げられたと言えます。

Question

そうした様々な立場の人々と連携しつつ、ビッグデータ活用を広めていくという上で苦労した点はありますでしょうか?

Answer

ビッグデータ活用においては、データアナリストが重要な役割を果たすと言われますが、リクルートでは「ビッグデータグループ」という1つの組織を設けて、その中で、分析担当者が「コンサル型データアナリスト」、そして、エンジニアが「エンジニア型データアナリスト」の役割を果たすようにしています。その上で各事業担当者、つまりマーケターと協働できる体制を整えられたのが、大きなポイントになったのではないかと思います。つまり、マーケターとエンジニアの間に分析担当者が立つのではなく、三者が相互に連携し、データ活用を進めていくというかたちで、われわれエンジニアも、マーケターと直接要件のやりとりをしつつ、技術提案や実装、集計・分析を通じて、ともに価値を見出していくわけです。

図2 ビッグデータグループにおけるエンジニアの役割
図2 ビッグデータグループにおけるエンジニアの役割
出典:リクルートテクノロジーズ、2013年2月

Question

リクルートでは、ビッグデータ活用を開始した段階から分析担当者とエンジニアを1つの組織にまとめていたということでしょうか?

Answer

いいえ。初期の段階においては、特に専門の組織を設けていたわけではなく、別々に分かれていました。リクルートでも、高度なリコメンドなどを導入したいといった、ビッグデータ活用に対する明確なビジョンを最初から持っていたわけではなく、もともとはバッチ処理の高速化などの、いわば単純な目的にすぎませんでした。扱うデータ容量が多くなるにつれ、バッチ処理が一晩では終わらなくなり、大規模データ処理基盤の導入で処理時間を短縮できないかといった検証から始まったわけです。

 ただ、試行錯誤しながら大規模データ処理基盤を構築し、更にその用途を広げていく中で、当然ながら、事業へのインパクトも強くなり、求められるデータ分析のレベルなども高度になります。そういう状況では、エンジニアだけでは要件定義の部分などが困難ですし、逆に分析担当者だけでは技術実装の面が弱くなってしまうでしょう。内容が高度になっていくにつれて、自分たちが持っている知識・技術だけでは太刀打ちできなくなり、協力の必要性が生じてきたという感じでしょうか。


このページの先頭へ

既にどの企業にもビッグデータ活用の門戸が開かれている

Question

以前からマーケティングに注力してきたリクルートだからこそ、現在のような体制を構築できたのであり、一般的な企業ではなかなか難しいとも言えるのではないでしょうか?

Answer

株式会社リクルートテクノロジーズ:石川 信行 氏

そうでもないと思います。たしかに、ビッグデータ活用とか大規模データ分析基盤といった言葉が独り歩きしている傾向も少しありますし、何かものすごい高度なことを行っているという印象を受けるかもしれません。でも、当事者としては、実は最初からそんなにたいしたことをやっている感覚ではなく、既存の分析・集計から少しずつランクアップしてきたにすぎません。特にデータ活用と大仰にとらえなくても、どの企業にも数字に強く、数字をモニタリングしたり処理する手法を身につけていて、しかも、事業のこともよく理解しているという人は少なからずいるのではないでしょうか。多くの企業がそうした人たちが本格的なデータ活用にシフトしていけるような体制や環境を整えていけば、意外と早く、ビッグデータ活用が広く普及していくのではないかと思っています。

Question

そういう必要性に呼応して、様々な角度からHadoopなどのビッグデータ技術をより手軽に扱えるソリューションが登場してきているとも言えるでしょうか?

Answer

そうですね。われわれはHadoopの基盤を構築して、様々な機能を追加していくという段階まで自力で持ってきましたが、すべての企業が同じことを実行できるわけではないでしょうし、ビッグデータ活用が注目されるにつれ、多様なソリューションが登場してきていますから、無理にすべてを自力で行う必要はないと思います。それこそ、Hadoop基盤をクラウド上に用意して出入り口だけ用意してくれるサービス、あるいはデータを渡せば分析まで行ってくれるサービスなども登場しています。

 予算の確保が難しいという問題もあるでしょうが、こうしたサービスを試す程度であれば敷居はある程度低くなりますし、自前で本当に小規模な実験環境を構築してみるのもいいでしょう。ただ、そこから本格的な段階へと移行するためには、やはり、周囲の理解を得ることが必要になります。先ほども述べたように、事業担当者や経営層に対して、実際にデータ分析を行ってみた結果を見せたり、更には最近では活用事例も揃ってきていますから、そういうものも材料にしつつ、いかに事業にインパクトを与えられるかということを説明していくべきでしょう。有用なデータ、使いでのある面白いデータを持っている企業は多数存在すると思いますし、そうしたところが「Hadoopは難しい」「ビッグデータはよく分からない」という理由などで取り組まないのは非常にもったいない気がしますから。


●ありがとうございました。


取材協力

株式会社リクルートテクノロジーズ 企業サイトへ

2012年10月1日にリクルートグループの機能会社として分社化。リクルートグループのビジネスにおけるIT・ネットマーケティングテクノロジーの 開発・提供を行っている。


このページの先頭へ



◆関連記事を探す

データ分析/ビッグデータ活用を社内で広げるためには?」関連の情報を、チョイスしてお届けします

※キーマンズネット内の「データ分析」関連情報をランダムに表示しています。

データ分析」関連の製品

テキストマイニングツール「Text Mining Studio」 【NTTデータ数理システム】 セルフサービスBI 軽技Web 【富士電機】 音声マイニングソリューション 「VextVoiceMiner」 【ベクスト】
BI BI データ分析ソリューション
日本発のテキストマイニングツール。簡単な操作で本格的なテキストマイニングが可能。日本の企業文化に即した多彩な機能を搭載している。 導入企業900社。社内のデータベースに蓄積された販売管理、生産管理などの業務システムの情報活用から帳票出力まで、セルフサービス型BIツールでデータ分析を促進。 コンタクトセンタに蓄積された音声データを音声認識によってテキスト化し、テキスト化されたテキストデータをテキストマイニングによって分析・活用するソリューション。

データ分析」関連の特集


富士通では、ビッグデータを活用したマーケティング領域の事業で、電通と協業していくと発表した。共同コン…



企業の基幹業務を支援するERPですが、クラウド基盤への展開が広がっており、変化の激しい経営環境に対応…



企業のマーケティング活動を支援する「MA」。米国では10年以上前から普及しており、その実績を引っ提げ…


データ分析」関連のセミナー

医療ICT カンファレンス 2016 【ナノオプト・メディア】 締切間近 

開催日 12月9日(金)   開催地 東京都   参加費 無料

より高品質な医療サービス実現のためのシステムとは?クラウド、セキュリティ、AI活用、ID管理などの課題解決方法を最新事例で解説!■キーノート■      ※敬称…

サービスパフォーマンスモニタリングを、はじめよう 【CTCテクノロジー】 締切間近 

開催日 12月8日(木)   開催地 東京都   参加費 無料

昨今、モバイルの普及に伴い、企業が提供するサービスは「いつでもどこでも、快適に利用できる」ことが以前にも増して求められ、エンドユーザーが体感するサービス品質その…

音声マイニングの最新情報と活用事例 【ベクスト】 締切間近 

開催日 12月15日(木)   開催地 東京都   参加費 無料

テキストマイニングツールVextMinerを始めとした「Vextシリーズ」のユーザー様による導入事例の発表を中核として新技術や新製品の情報を、いち早く皆様にお届…

「データ分析」関連 製品レポート一覧

このページの先頭へ

Myリストへ 印刷用ページへ

この記事をtweetする このエントリーをはてなブックマークに追加


この記事に掲載している情報は、掲載日時点のものです。変更となる場合がございますのでご了承下さい。


30005316


IT・IT製品TOP > ビッグデータ > データ分析 > ビッグデータ > ビッグデータのIT特集 > 特集詳細

このページの先頭へ

キーマンズネットとは

ページトップへ