Greenplumが牽引するEMCのビッグデータ戦略

この記事をtweetする このエントリーをはてなブックマークに追加

掲載日 2012/07/25

ザ・キーマンインタビュー 

ストレージベンダとして著名なEMCコーポレーションでは、様々な専門企業を傘下に収め、既に総合ITベンダへと発展を遂げている。そして、その中でもビッグデータ分野の根幹を支える存在と言えるのが、Greenplumだ。Greenplumの成り立ち、EMCのビッグデータ戦略などについて、EMCジャパン グリーンプラム事業本部の草薙昭彦氏、中村完氏、松下正之氏にお話を伺った。

EMCジャパン株式会社 企業サイトへ

松下 正之 氏(左)、草薙 昭彦 氏(中)、中村 完 氏(右)

グリーンプラム事業本部
テクニカル・コンサルタント
松下 正之 氏

グリーンプラム事業本部
テクニカル・コンサルタント
草薙 昭彦 氏

グリーンプラム事業本部
テクニカル・コンサルタント
中村 完 氏

「シングルノード構成+無償版」で始め、ペタバイトクラスまで拡張することも可能

Question

貴社ではストレージ事業を起点として、現在ではハードウェアベンダから総合ITベンダへと事業を拡大してきていますが、その中でGreenplumはどのような位置づけ、役割を担っているのでしょうか?

Answer

EMCジャパン株式会社:松下 正之 氏

【松下】 EMCはストレージベンダですから、“データを溜める”“溜めたデータを管理する”という分野はそもそも得意でした。ただ、ここ数年は、そこからベンダとしてどの方向に発展していくのか、また、IT業界全体がどう進化していくのかということを考えて、様々な動きを進めています。「今後、サーバやストレージの分野は仮想化へ進む」という判断のもと、2003年にはVMwareを獲得していますし、それと同じ流れで、「溜めたデータを分析することが重要になる」「ビッグデータ活用の時代が来る」ということで、2010年7月にGreenplumを買収したわけです。

 その結果、EMCの既存のハードウェア、あるいはソフトウェアとGreenplumとの連携を図ったり、シナジーを生み出すことで、例えば、「ビッグデータ時代のデータ保護」というと少し大仰かもしれませんが、Greenplumに重複排除ストレージ・システムを組み合わせることで、大量な分析データを高速にバックアップできるような仕組みなども実現しています。Greenplumはソフトウェアですから、その効率的な運用を行うという部分で、仮想化基盤とも親和性が高く、今後はよりいっそう連携を深めていくことになると思います。

 また、その中でもキーテクノロジーとなっているのが、スケールアウトと言えます。EMCではコアのストレージビジネスに関してもスケールアウトを実現するという観点で、専業ベンダを買収したり、独自に機能強化を図っています。データ分析においても、ビッグデータ時代の到来が叫ばれる中、今後もどれだけ扱うデータが増えていくか分からないという状況に対応するためにはスケールアウトという考え方でしか対応できない。そういう意味で、データベースベンダの中でもスケールアウト技術に長けたGreenplumを選んだということが言えるかと思います。

Question

Greenplum事業全体のコアとなっているのは、DWH(データウェアハウス)用データベースソフトウェア「Greenplum Database」だと存じますが、開発されたもともとの背景や、基本的な特長などをお教えいただけますでしょうか?

Answer

【中村】 実は、そもそもDWHだけを狙ったかたちで開発してきたわけではなく、Greenplumを創業した2003年の時点では、オープンソースのテクノロジーを活用することで、データベースにおける、いわゆる“ベンダ・ロックイン”を解消できないか、アンロックできないかという取り組みに端を発しています。その後、開発を進めていく中で、データベース・ユーザのニーズに耳を傾けたところ、より強く求められているのはDWHやバッチ高速化だということが分かったため、DWHの方向へと大きく舵を切り、その分野に精通しているエンジニアを集めて、開発を更に加速させたという流れになります。

 ですから、アンロックというコンセプトは今でも根底に流れており、私たちとしては決して喜ばしい話ではないですけど「場合によっては、グリーンプラムからほかのDBへも容易に移れるような、ロックインしないテクノロジーであり続けよう」、あるいは「専用アプライアンスを提供するとしても、それを事業の中心に据えるのではなく、あくまでもソフトウェアソリューション本位にこだわる」ということがベースの考え方になっています。

Question

その思想は、EMCの傘下に入ったあとも変わってはいないということですか?

Answer

【中村】 そうですね、いまのところ、ソフトウェアビジネスも続けられていますし、現在推進しているHadoopソリューションも、ハードウェアには決して依存はしていませんから、その考え方は引き継がれていると思います。


【草薙】 そうした本来の思想が続いている一例として、無償で利用可能なGreenplum Database: Community Editionの公開が挙げられます。Greenplumは基本的には商用向けにライセンス販売を行っていますが、それとは別に無償版も提供しており、例えば自社のシステム環境にインストールしてデータベースを試用してみるといった用途にも使っていただけますし、シングルノード構成であれば、商用でもそのまま自由に使っていただくこともできます。製品であったとしても、ある程度オープンにして、その技術を広く使っていただくという活動が、EMCの傘下に入った後も尊重され続けていると言えるでしょう。


【中村】 実情として、今のところは活用したいデータは数十ギガ、数百ギガくらいで、そんなに大きくはないけれども、ビッグデータは今後の大きなキーワードだと考えている企業も多く、そういったユーザにもこの無償版は最適かと思います。先ほど述べたように、ハードウェアにもこだわっていませんので、例えば、最小構成が「クォーターラックで数十テラバイトの処理を想定」といったことはなく、サーバ1台からでも試せて、その後、ライセンスを購入してペタバイトクラスまで拡張していくこともできますから。本当の意味でのスモールスタートが可能というわけです。



このページの先頭へ

様々な企業の要件に対応すべく、幅広いHadoopソリューションを提供

Question

GreenplumはDWH分野で発展してきたということですが、ビッグデータに関しては、いつの時点から意識したり、取り組みを始めたということになるのでしょうか?

Answer

【中村】 2006年あたりには、既にGreenplum Databaseでペタバイトクラスを扱う企業が出てきていました。そういう意味では、これまでは大規模な要件はあまり目立ってはいなかったものの、ビッグデータに対応可能なスケーラビリティ、そして、それを現実的なものにするコストパフォーマンスという要素は、かなり以前からベースとして持っていたと言えるでしょう。

Question

先ほどもスケールアウトがキーテクノロジーだという話がありましたが、やはり、そこに大きな特長があると言えますでしょうか?

Answer

EMCジャパン株式会社:草薙 昭彦 氏

【草薙】 スケーラビリティそのものは業界全体に共通する方向性で、多くのソリューションにおいて、扱うデータが増加したり、より高速な処理が必要になった時には、並列的にサーバを追加していくことで対応できるかたちにはなっているかと思います。ただ、Greenplumはあくまでもソフトウェアがベースなので、例えばサーバ1台単位など、拡張そのものがかなり柔軟に行えます。これはユーザから見れば、何年も先を見据えてシステム拡張のキャパシティプランニングをする必要がなく、ビジネス環境の急激な変化に対応して迅速に拡張できるというビジネス的なメリットにつながるでしょう。しかも、全体的に過剰投資を避けて、リーズナブルな台数、つまりコストでビッグデータ活用に取り組めるというメリットももたらしています。更にシステムを止めずに拡張できるという点も重視していますから、様々な意味で非常に柔軟性の高いスケールアウトを実現していると言えるでしょう。

Question

Hadoopとの連携にも取り組まれているようですが、ビッグデータ活用においては、やはりHadoopは押さえておくべき技術だということでしょうか?

Answer

【中村】 昨年前半にGreenplum Databaseの新機能として、Hadoopシステムと高速で双方向かつパラレルなデータ連携ができる機能を追加しました。Hadoopはホットなトレンドですし、実際にユーザ数も増加し続けていますが、現状としては、DWHの分野では必ずしも積極的に活用されているわけではなく、少しずつ採用が始まっている段階と言えます。ただ、やはり今後を見据えてとらえておくべき技術の1つですし、今後はDWH以外のデータ分析に対する要件も増えてくるだろうという流れを踏まえて、Hadoop連携という機能強化を盛り込みました。

Question

企業向けのHadoopディストリビューションも提供されていますが、これはGreenplum Databaseとどのような関係性にあるのでしょうか?

Answer

【草薙】 Greenplumでは多数のHadoopソリューションを提供しており、Apache Hadoopベースの「Greenplum HD」、MapR Technologiesのディストリビューションを採用し、エンタープライズ向けに再設計して信頼性を高めた「Greenplum MR」、そして、アプライアンス製品として構成された「Greenplum Data Computing Appliance(DCA) for HD」などがあります。幅広く展開している分、少し分かりにくいかもしれませんが、一概にHadoopを使うといっても、利用する企業によってシステム構成も異なれば、用途も違います。弊社としても、企業の中で抱えられている様々な要件を1つのHadoopソリューションでカバーできるとは思っていませんし、それぞれの要件に応じたソリューションを的確に提供していくことが、利用する側にとってもメリットになるのではないでしょうか。

 また、Greenplum Databaseとの関係については、1つは技術的な視点での住み分けになりますが、Greenplum Databaseは基本的にはSQLベースのリレーショナルデータベースですから、やはり構造化データを扱う用途と相性がいい。一方で、Hadoopはよく言われるように非構造化データの処理を高速化するのに適しています。データタイプ、処理タイプによる使い分けということですね。

 ただ、もう1つの視点として、ユーザの使いやすさ、開発のしやすさという部分があるかと思います。ユーザから見れば、何らかの目的を果たすためにデータを処理していくという場合には、最終的な出力結果が重要であり、その処理が何をベースに動いてようが関係ないでしょう。つまり、同じことができるならば、SQLでやろうが、HadoopのMapReduceでやろうが、大きな問題ではない。特に日本では、これまでに蓄積されたSQL資産が企業システムにおいて非常に大きな割合を占める状態にありますし、人材としても、SQLに精通している方が圧倒的に多いでしょう。そう考えると、リスクを抑えつつ、Hadoopという新しい分野に取り組むためには、例えば、Greenplum DatabaseとGreenplum HDの関係のように、SQLベースのシステムからHadoopをシームレスかつ容易に扱えるような仕組みが必要だと思います。


このページの先頭へ

身近な課題解決を目的に導入し、段階的に拡大していくという道筋が現実的

Question

ビッグデータ活用において、そのほかに重要視している部分などはありますでしょうか?

Answer

EMCジャパン株式会社:中村 完 氏

【中村】 ビッグデータ活用というものは、何らかのシステムを用意すればそれで済むというものはなく、そのほかにも乗り越えなければならない壁が多いと言えます。その1つが人材です。先ほどスモールスタートが可能という話をしましたが、それは単にコスト削減というだけではなく、そこで余った予算を人材に投入したほうがいいという考え方もあります。ただ、業界全体としてもそうした人材育成の仕組みはまだまだ整っていないですから、弊社でも一般的な製品トレーニングとは別に、データ活用そのもののトレーニングとして、データサイエンティストトレーニングという人材育成プログラムを提供しています。


【松下】 この部分に課題を感じていた、関心を持っていたという企業の方は非常に多かったようで、第1回目のトレーニングはかなり多数の、しかも、様々な立場の方に参加いただけました。

Question

Greenplumを導入している企業では、高速な大規模データ分析をどのような用途に活用しているのでしょうか?

Answer

【松下】 九州で郊外型総合販売店チェーンを展開しているトライアルカンパニー様では、もともと売上情報などを分析してレポーティングに使っていたのですが、毎年右肩上がりで売上が伸びて、店舗も増えており、扱うデータ量も指数関数的なレベルで増加して、その処理が終わらない、追いつかないという状況でした。しかも、これは今だけの話ではなく成長は何年も続くことが見込まれ、ハードウェアを拡張したとしても単なる付け焼刃になってしまいかねないため、アーキテクチャ自体を変えないと将来にわたっての対応には不十分だという意識をもたれていました。そういった目的で、Greenplum Databaseを導入いただいたのですが、結果として、以前は30分以上かかっていた集計処理が7秒で済んでおり、すなわち、約250倍の処理が可能になったそうです。

 ただ、それで終わりではなく、ここまで処理が速くなると、レポーティングだけではなく、ほかの用途でもデータ活用を図りたい、データ分析による予測などにも生かしたいという流れへ必然的に行き着きます。例えば、出店の戦略を立てる際に、商圏をメッシュ単位に分けて、様々なデータをもとに分析を行い、次にここへ出店すれば具体的にどれくらいの売上が見込めるのかといったことも既に行っていますし、販売管理、調達管理などの戦略立案を行う際のデータ分析、更にはバスケット分析といった複雑なデータ分析にも取り組まれています。

図1 導入事例:トライアルカンパニー〜優れたコストパフォーマンスと柔軟な拡張性で、従来はできなかった処理を可能に
図1 導入事例:トライアルカンパニー〜優れたコストパフォーマンスと柔軟な拡張性で、従来はできなかった処理を可能に
出典:2012年 EMCジャパン

【中村】 ビッグデータ活用とはいえ、具体的に何をどうすればいいのかという疑問はまだまだあるかと思いますので、トライアルカンパニー様のような導入の流れはほかの多くの企業でも有効と言えるのではないでしょうか。いきなり何も分析をしていないところから、本格的に大規模なデータを分析して活用しようといってもハードルが高い。しかし、一方で、現在運用しているデータベースシステムに問題を抱えている方は少なくないでしょう。例えば、バッチ処理にものすごく時間がかかるようになっているとか、ユーザ部門から検索クエリが重いというクレームが来ているなど。まずは、そうした喫緊の課題を解決するための取り組みを始めて、それを足がかりとして、小規模の分析基盤を構築する。更にそれを拡大していき、最終的にビッグデータ活用という領域に到達するといったアプローチであれば比較的分かりやすく、組みしやすいでしょうし、企業としてもきわめて現実的な道筋と言えるのではないでしょうか。


取材協力

EMCジャパン株式会社 企業サイトへ

企業のビジネスに役立つ包括的な情報インフラストラクチャを提供する総合ITベンダ。広範な階層型ストレージ・プラットフォーム/テクノロジーをはじめ、アーカイブ、バックアップとリカバリ、ビジネスの継続性と可用性、コラボレーション、コンテンツ管理、データ移行、リソース管理、仮想化などのビジネス課題に対応するための情報インフラストラクチャ・ソフトウェアなど、幅広いソリューションやサービスを展開している。


このページの先頭へ



◆関連記事を探す

データベースソフト/Greenplumが牽引するEMCのビッグデータ戦略」関連の情報を、チョイスしてお届けします

※キーマンズネット内の「データベースソフト」関連情報をランダムに表示しています。

データベースソフト」関連の製品

【ノンプログラミングWebデータベースソフト】UnitBase 【ジャストシステム】 意識調査:Oracleユーザーは「DBクラウド」をどう見ているか? 【日本オラクル】 【ノンプログラミングWebデータベースソフト】UnitBase 【ジャストシステム】
データベースソフト データベースソフト データベースソフト
専門知識不要、簡単なマウス操作や表計算ファイル取込でWebデータベース作成、活用できるソフトウェア。検索・集計・グラフ化も容易。データへのアクセス権限設定も柔軟。 意識調査:Oracleユーザーは「DBクラウド」をどう見ているか? 専門知識不要、簡単なマウス操作や表計算ファイル取込でWebデータベース作成、活用できるソフトウェア。検索・集計・グラフ化も容易。データへのアクセス権限設定も柔軟。

データベースソフト」関連の特集


内部統制の強化のため、固定資産やソフトウェア資産などを正確に把握しておくことは重要。しかし紙台帳では…



 RDBMSにおける情報保護、いわゆるデータベース・セキュリティは2004年、個人情報保護法の完全施…



情シスと業務部門が持つジレンマの解決に貢献するノンプログラミング開発。その特徴や普及状況、導入事例ま…


データベースソフト」関連のセミナー

高速データベース基盤セミナー 【富士通】 締切間近 

開催日 12月9日(金)   開催地 東京都   参加費 無料

あらゆるものがつながり、IoTとビッグデータを組み合わせることによって、新たな価値を創造する。リアルタイム処理による業務効率化はもちろん、データ利活用という点で…

PostgreSQL安心活用セミナー 【富士通】 締切間近 

開催日 12月6日(火)   開催地 オンラインセミナー   参加費 無料

OSSデータベースの採用は年々増加していますが、導入に当たって性能や信頼性、サポート面で不安をお持ちのお客様も多いと思います。本セミナーでは、OSSデータベース…

PostgreSQL安心活用セミナー 【富士通】 締切間近 

開催日 12月7日(水)   開催地 愛知県   参加費 無料

OSSデータベースの採用は年々増加していますが、導入に当たって性能や信頼性、サポート面で不安をお持ちのお客様も多いと思います。本セミナーでは、OSSデータベース…

「データ分析」関連 製品レポート一覧

このページの先頭へ

Myリストへ 印刷用ページへ

この記事をtweetする このエントリーをはてなブックマークに追加


この記事に掲載している情報は、掲載日時点のものです。変更となる場合がございますのでご了承下さい。


30004975


IT・IT製品TOP > ビッグデータ > データ分析 > ビッグデータ > ビッグデータのIT特集 > 特集詳細

このページの先頭へ

キーマンズネットとは

ページトップへ