ビッグデータ基盤もアマゾンで買う時代?

この記事をtweetする このエントリーをはてなブックマークに追加

掲載日 2013/04/17

ザ・キーマンインタビュー ビッグデータ処理基盤もアマゾンで“買う”時代?

クラウドサービス「アマゾン ウェブ サービス」は、大企業や先進的な企業では活用されているものの、自社で本格的に使いこなすのはハードルが高いと考えている企業も少なくないだろう。しかし、既に日本国内でもデータセンタが設置され、日本語サポートも開始されている。更に、エコシステムの整備により、活用の裾野はかなり広がっているようだ。Amazonのeコマースサイトにおけるビッグデータの取り組み、そして、国内企業における活用事例などを伺った。

アマゾン データ サービス ジャパン株式会社 企業サイトへ

アマゾン データ サービス ジャパン:玉川 憲 氏

技術統括本部
本部長  玉川 憲 氏

Amazonのeコマースサイトにおけるビッグデータの取り組み

Question

貴社の一顧客でもあるAmazonのeコマースサイトはビッグデータへの取り組みを積極的に行っていますが、具体的にはどのようなことを行っているのでしょうか?

Answer

アマゾン データ サービス ジャパン:玉川 憲 氏

Amazonのeコマースサイトの最も基本的であり、しかもAmazonならではの特長とも言えるのは、すべての注文履歴を残しており、お客様が見たいときにいつでも見られるようにしている点ではないでしょうか。これは単に過去に購入した商品を確認するだけではなく、例えば、エアコンのフィルタなどの消耗品を買う場合には、以前に「いつ」「どの型番を」「いくらで」購入したのかが分かるため、非常に便利だという評価をいただいています。この注文履歴は件数にすると6億7000万、容量で4TBにも達しますから、まさしくビッグデータと言えるかと思います。

 膨大な人数のお客様を扱うeコマースサイトでは、何ヵ月分、あるいは何年分は遡れたとしても、やはり、ある一定の期間で注文履歴を切り捨てるのが一般的なやり方だと思います。なぜなら、当然ながら、ずっと記録しておくとコストが高くつくからです。従来のリレーショナルデータベース(RDB)に入れる手法では、保存データ容量が増えれば増えるほど、サイズによるパフォーマンス劣化が顕著で、そのスケールアップのためには高額なハードウェアが必要になり、またスケールアウトのためにアプリケーション修正をともなうなど、様々な課題が生じます。AmazonでもかつてはRDBMSで全データを管理していましたが、社内の全システムの中でも最もコストが高くつくインフラとなっていました。しかし、現在はRDBMSでは最近の注文履歴のみを扱うようにし、弊社のクラウドサービス「アマゾン ウェブ サービス(AWS)」のクラウドストレージ「Amazon Simple Storage Service(Amazon S3)」へ全履歴を変更不可能なかたちで保存することで、大幅なコストダウンとユーザ利便性を両立させています。

Question

そういった利便性の高い顧客体験を提供することで、顧客を離さないことにもつながり、また、売上の向上にもつながるわけですよね?

Answer

最終的にはそうなります。また、ほかの部分でのビッグデータ活用としては、配送センタの物品管理が挙げられます。Amazonのeコマースサイトでは非常に膨大な点数の品目を扱っており、しかも、毎日のように大量の新商品が追加されたり、商品データの更新などが行われるため、刻々と変わっていきます。こうしたカタログデータは、単に商品が並んでいるだけではなく、非常に細かく分類されており、きれいなツリー構造を保つように、常に分類処理を施さなければなりません。そうでなければ、Webサイトの商品表示だけではなく、倉庫、物流など、全社のあちこちのシステムで問題が生じてしまいます。しかし、このカタログデータは点数も数十億単位と膨大ですから、常に更新するには多大なコンピュータの処理能力が必要になり、最大で数十時間かかってしまうという時期もありました。しかし、現在では全カタログをAmazon S3へ格納し、クラウド上にHadoopフレームワークをホストした「Amazon Elastic MapReduce(Amazon EMR)」で50〜数百ノードのクラスタを起動し、分類処理を行うようにしたことで、2時間で処理が完了するようになっています。しかも、そのほかの更新作業やアドホック分析は別クラスタで実施可能です。そのため、毎日、必要なときに数時間だけ処理を走らせれば、いつでもカタログを更新できるようになったわけです。

 また、Amazonアソシエイトにおけるアフィリエイトの支払い計算も、大量のデータ処理をともなう作業です。以前はC++ベースのバッチプログラムで構成しており、処理所要時間の遅延やプログラムのバグ発生などが課題でしたが、こちらも「Amazon EMR」で分散処理を行うことで、数時間のバッチ処理で直近1ヵ月の支払いデータの集計が完了できるようになりました。しかも、「Amazon EMR」では、オンデマンドでHadoopクラスタを調達可能なため、スケーラブルなインフラが確立できています。


このページの先頭へ

並列分散処理の活用は「ベーカリーショップの原価計算」にまで広がっている

Question

Amazonはリコメンデーションにも古くから取り組まれており、常に改善を図っているわけですよね?

Answer

そうですね。リコメンデーションエンジンも現在ではAWS上に構築しており、いわゆるビッグデータを扱う単価が抑えられ、しかも、必要に応じて、データ容量はもちろん、解析能力に関してもオンデマンドで増強可能ですから、巻き込めるデータの量や種類が抜本的に変わっています。ある書籍を購入した人に、それに似た書籍をおすすめするというレベルにとどまらず、Amazonで取り扱う多彩な品目をまたがって、異なるカテゴリ間での相関リコメンデーションも可能になっています。

Question

AWSを利用して、ビッグデータ活用に取り組まれている顧客企業も多いかと存じますが、どのような用途に使われているのでしょうか?

Answer

アマゾン データ サービス ジャパン:玉川 憲 氏

例えば、リクルート様では住宅情報の物件情報のリコメンドやWebサイト上でのユーザ行動分析などに活用されていますし、ソネットエンタテインメント(So-net)様などのように広告分析基盤の構築にAWSを用いられるケースも増えています。ただ、こうした大規模な導入事例の増加とともに、最近はより幅広い規模の企業へ活用の裾野が広がりつつあると実感しています。とりわけ、アンデルセンサービス様におけるノーチラステクノロジーズ様の事例などは、ビッグデータと呼ぶほどには大きなデータ量ではないものの、並列分散処理をうまく活かしたケースとして、日本のお客様には非常に価値のある、しかも分かりやすいものではないかと思います。

 同社は、ベーカリーショップのアンデルセン、リトルマーメイドなどを展開しているアンデルセングループのIT基盤構築・運用や専門業務を担う企業ですが、約500店の全店舗で製造・販売するパンの原価計算を行うために、ノーチラステクノロジーズ様のAsakusa Framework(TM)/HadoopをAWS上で活用されています。原材料原価を積み上げて、製品原価を算出していくわけですが、その組み合わせは複雑化しており、以前は原材料の原価計算バッチのRDB処理に約4時間を要していました。これをより綿密に、なおかつ短時間で行いたい。つまり、想定データではなく、実際の数字を用いた原価計算を高い頻度で実施することで、調達先の調整などの意思決定を迅速にしたり、コスト削減につなげたいということです。

 ただ、こうした原価計算は企業にとっては絶対に外に漏らしたくないデータであり、高い機密性が求められます。そのため、クラウド上の処理への移行に際しては、抵抗感を持たれるお客様も多いのですが、AWSではプライベートクラウド基盤「Amazon Virtual Private Cloud」を利用いただくことで、クラウド上にそのお客様しかアクセスできない閉じた領域を構築可能です。アンデルセンサービス様のケースでも、この「Amazon Virtual Private Cloud」の中で「Amazon EMR」を稼働させており、基幹データベースなどが置かれているアンデルセンサービス様側のシステムと、VPNを利用した閉域網接続を行っています。機密性を高めつつ、4時間かかっていたバッチ処理は20分で完了するようになり、更に、夜間のバッチ処理から解放されることで、業務変革が実現され、運用コストも約20分の1に抑えられているそうです。こうした導入形態であれば、幅広い企業の方にとって、敷居が低く、入りやすいビッグデータ活用と言えるのではないでしょうか。

 また、このアンデルセンサービス様ではノーチラステクノロジー様という弊社のパートナー企業が間に入るかたちで導入支援を担っています。日本では特に、なかなかAWSを自前で導入するのは難しいと考えられている企業も多いでしょうから、こうしたパートナーなどをエコシステムとして活用していただくことが重要だと当初から意識しており、投資などに力を入れてきた部分でもあります。そのため、現在では、エコシステム主体で幅広いお客様の要望にお応えできる体制が整えられていると自負しています。


このページの先頭へ

コスト最適化によるAWSの利用料値下げは過去6年間で29回に及ぶ

Question

AWSは、もともとはAmazonのリテールビジネスで利用するために構築されたサービスを外部にも提供しているものととらえてよいのでしょうか?

Answer

アマゾン データ サービス ジャパン:玉川 憲 氏

Amazonは1995年からeコマースに取り組んでいますが、当時から、お客様がWebサイトを訪問されたときにいかに魅力を感じていただけるかを大事にしています。そして、そのためには、常に新しい情報を提供する、新しいサービスの実装に取り組むということが重要なのです。そうした考えのもとで、Amazonの中で何が“ボトルネック”になっているのかを2000年初頭に解析したところ、開発者が新しいサービスを作ろうとしたときに、リソースの調達に時間がかかっていることが問題だと認識しました。その後、そうしたリソースを迅速に提供できる仕組みの構築に着手し、社内で大きな成功を収めたため、2006年にAWSとしての展開を開始したという流れです。

 ただ、その時点で、完全に外部向けのビジネスとして出発しており、フィードバックなども参考にしつつ、エンタープライズ系のお客様がどういうサービスが必要とされているのかを考えながら発展を続け、現在では30以上のサービスを展開しています。つまり、最初からクラウドコンピューティングをビジネスにすることを念頭に置いたものであり、お客様のカテゴリとしても、当初はスタートアップなどに用いられるケースが目立っていたかもしれませんが、現在では、エンタープライズ、そして、パブリックセクタと呼ばれる学校や官公庁などを含む、世界190ヵ国にわたる数十万以上のお客様に利用いただいています。

Question

2013年2月からパブリックβが公開された「Amazon Redshift」も、ユーザの要望に応えたものと言えますでしょうか?

Answer

データウェアハウス(DWH)というものは、莫大な組み合わせを計算するためのデータベース基盤ゆえに、高い性能が求められ、一般的には数千万から数億円といった規模の予算を組んで導入することが多かったかと思います。Amazon Redshiftは、テラバイトあたりの年単価を10万円程度に抑えることで、DWHをより幅広いお客様に手軽に使っていただくことを目指したものです。

Question

クラウドサービスの利用に関しては、オンプレミスとのコスト比較なども論じられることも多いのですが、オンプレミスの場合は初期投資が高くなるものの、長期間にわたって使い続けることでトータルコストも下がっていきますから、一概には比較できないという側面もありますよね?

Answer

そうですね。ただ、ハードウェアを購入する場合には、1回投資してしまうと、コストとしてはそこで固定されてしまいます。クラウドサービスの場合は、電気料金や水道料金のように、使った分だけの料金をお支払いいただくというメリットはよく語られますが、AWSの場合は更に、過去6年間で29回、今年だけでも既に3回以上もコストの見直し、つまり、値下げを実施しています。基本的には、自分たちの運用コストが下がれば、その分、料金も下げていくという方針なので、お客様はAWSを使い始めたあとも値下げにともない利用料が下がっていきます。また、多くのリソースを使っていただく場合にはボリュームディスカウントもきいてきます。こうした部分にも配慮しつつ、既存環境とのコスト比較をしていただければ、クラウドサービスのメリットをうまく見出していただけるのではないでしょうか。いずれにせよ、AmazonではクラウドサービスであるAWSを、リテールビジネスと同じくらい大きな規模にまで成長するビジネスとして位置づけており、今後もサービス拡大やコスト最適化に取り組んでいくつもりです。


●ありがとうございました。


取材協力

アマゾン データ サービス ジャパン株式会社 企業サイトへ

クラウドサービス「アマゾン ウェブ サービス(AWS)」、コンテンツ配信事業、マーケティング・サポート・サービスなどを展開。日本においては、2011年3月、世界で5個所目となるデータセンタ「東京リージョン」を設立し、日本国内でのAWS展開を本格的に進めている。


このページの先頭へ



◆関連記事を探す

データ分析/ビッグデータ基盤もアマゾンで買う時代?」関連の情報を、チョイスしてお届けします

※キーマンズネット内の「データ分析」関連情報をランダムに表示しています。

データ分析」関連の製品

ExcelベースのオープンソースBI 「Jedox」 【KSKアナリティクス】 IoTの付加価値を最大化させる「ビッグデータ分析環境」とは? 【ホートンワークスジャパン】 ビーコンによる動線分析ソリューション Location Data Analyzer 【パナソニック ソリューションテクノロジー】
BI ビッグデータ データ分析ソリューション
予算・実績管理に特化したExcelベースのBI。Excelライクな操作性で使いやすく、スモールスタートが可能。 「自動車ビッグデータ」の事例で学ぶHadoopの使い方 場所を選ばず簡単に設置可能な小型軽量のビーコンを用いて、人やモノなどの経営資源の位置情報や動きを「見える化」することで、業務効率アップや売上拡大を支援。

データ分析」関連の特集


「一太郎」や「ATOK」を筆頭に、現在では各種集計・検索ソリューション、更にはBI製品なども展開して…



 今回は、社長の問題意識を契機に経営の見える化を推進して、利益改革をしたN社の事例を紹介します。社長…



幅広いビジネス情報コンテンツ/データベースを提供しているジー・サーチでは、データ分析サービスにも注力…


データ分析」関連のセミナー

音声マイニングの最新情報と活用事例 【ベクスト】 注目 

開催日 12月15日(木)   開催地 東京都   参加費 無料

テキストマイニングツールVextMinerを始めとした「Vextシリーズ」のユーザー様による導入事例の発表を中核として新技術や新製品の情報を、いち早く皆様にお届…

BIツール・BOARD無料体験セミナー 【日本ラッド】  

開催日 1月12日(木),1月19日(木),1月26日(木)   開催地 東京都   参加費 無料

初めてBIツールを検討される方へ求めているBIツールが見つからない方へ既存のBIツールにご満足されていない方へBIツール・BOARDを使って、もっと自由に!もっ…

S-Quattro Simulation System体験セミナー 【NTTデータ数理システム】  

開催日 12月16日(金),1月24日(火),2月16日(木),3月8日(水)   開催地 東京都   参加費 無料

S-Quattro Simulation Systemは、誰でも簡単に複雑なモデルを GUI上で表現しシミュレーションを行なえる汎用離散イベントシミュレーション…

「データ分析」関連 製品レポート一覧

このページの先頭へ

Myリストへ 印刷用ページへ

この記事をtweetする このエントリーをはてなブックマークに追加


この記事に掲載している情報は、掲載日時点のものです。変更となる場合がございますのでご了承下さい。


30005951


IT・IT製品TOP > ビッグデータ > データ分析 > ビッグデータ > ビッグデータのIT特集 > 特集詳細

このページの先頭へ

キーマンズネットとは

ページトップへ