この記事をtweetする このエントリーをはてなブックマークに追加

掲載日 2013/01/09

ザ・キーマンインタビュー Hadoopで解ける問題、解けない問題

2012年12月6日に、EMCジャパン主催「第2回 データサイエンティスト・ワークショップ」が開催された。今回の最初の講演では、統計数理研究所の副所長・教授である丸山宏氏が登壇し、「ビッグデータ分析時代のITアーキテクチャ」というテーマで講演を行った。丸山氏は、かつて日本アイ・ビー・エムのジャパン・サイエンス・インスティテュート(東京基礎研究所)で人工知能や自然言語処理の研究に従事し、のちには米IBMソフトウェア事業部でインターネット技術の評価、XMLやWebサービスの研究開発・標準化などにも従事した経歴を持つ。そうした立場から昨今のビッグデータ周辺の動向をどのように見ているのだろうか。

統計数理研究所 企業サイトへ

統計数理研究所:丸山 宏 氏

副所長・教授
丸山 宏 氏

もともと日本の経営者は統計の活用に積極的だった

Question

統計数理研究所はかなり古くから、確率に関する数理とその応用研究などを行ってきたようですが、そうした立場から見て、現在のビジネスにおけるビッグデータ活用やデータ分析を取り巻く状況をどのように見られているでしょうか?

Answer

統計数理研究所:丸山 宏 氏

統計数理研究所は文部省直轄の研究所として、1944年に設立されました。戦争が終わる直前ですから、何らかのかたちでの軍事分野への貢献というものも期待されていたのかもしれませんが、特に記録に残っているわけではないようです。実は、私ももともとはIT企業に勤めていたコンピュータ畑の人間ですから、日本における古くからの数理統計の事情に特に明るいわけではありません。ただ、私の理解するところでは、戦後になって米国のデミング博士が来日し、統計的品質管理の手法を日本企業に広めたという話もありますし、また、ほかの先生方からお話を伺うかぎりでは、当時の日本の経営者は統計に関して非常にリテラシーが高く、経営者が自ら様々な分析を行うこともめずらしくはなかったと聞いています。

Question

日本は海外と比べて、データをビジネスに生かすのが不得意だと言われることも多く、たしかに経営やマーケティングに関しては、やや後れを取っている部分もあるのかもしれませんが、全部が全部そうではないということでしょうか?

Answer

少なくとも品質管理の面では、日本のほうが米国などよりも圧倒的に進んでいた時代もあると言えるでしょう。ただ、過去にはそういう時代があったものの、最近は「データを使って、イノベーションを起こす」ということに、グーグルやアマゾン、フェイスブック、あるいはセールスフォースなどが積極的に取り組んでいるのに対して、日本の企業ではあまり熱心ではない、なかなか進まないという印象を持っています。

Question

それはどのような原因からだと考えられますか?

Answer

鶏が先か、卵が先かという側面もあるかもしれませんが、研究所内でもよく話題に上るのは、先進国の中でも統計を専門に教える学科がほとんど存在しないというのは日本だけではないかということです。厳密に言えば皆無というわけではなく、統計数理研究所がかかわるかたちで、国立総合研究大学院大学に統計科学専攻の大学院が設けられています。ただ、米国の主要な大学には必ずと言っていいほど統計学科が設置されていますし、韓国でも70校以上、更に中国では3桁まで増えているようです。

 実際、マッキンゼー・グローバル・インスティテュートのビッグデータに関するレポートにも記載されていましたが、日本の大学から輩出される“ディープアナリティカルタレント”、つまり深い分析ができる人材、大学生の数は極端に少なく、更に深刻なのは、ここ数年にわたって、その数がますます減っているという事実です。これは教育制度の問題でもあるでしょうし、また、そもそもそういう人材を企業が積極的に採用してこなかったという問題もあるでしょう。


Question

ビッグデータ活用に注目が集まったことで、そうした状況が変わるきっかけにもなると言えるでしょうか?

Answer

きっかけの1つにはなるでしょう。ただ、われわれが危惧しているのは、ビッグデータに注目が集まったとしても、ビッグデータに投資するだけではイノベーションは起きず、それによって、結局、データ分析そのものがだめだという判断が下されてしまう可能性があることです。いわゆるハイプ・サイクルの頂点から幻滅期への移行です。私もIT業界にいましたから、ビッグデータのブームに乗っかって、なんとか自社の製品を売り込まなければいけないという思考はよく分かりますが、それだけで終わらせてしまっては意味がないでしょう。今回の講演はビッグデータのセミナーではなく、データサイエンティストをテーマとしたものでしたが、そういうアプローチこそ、いま求められるものではないでしょうか。だからこそ、私も今回の講演では、データは大事だけれども、それが必ずしもビッグデータかどうかは別だという点を主にお話したわけです。



このページの先頭へ

データを生かした経営を行うために必要なものとは?

Question

ビッグデータで解くべき問題は意外と少ないという話もされていましたが、これはどういう意味なのでしょうか?

Answer

統計数理研究所:丸山 宏 氏

データにもとづく経営のためには、企業がそのビジネスにかかわるデータを持っており、それらを統一的に管理するためのデータウェアハウスや、エンタープライズアーキテクチャが整っていることが前提となります。その上で、データ分析の3局面、つまり、「何が起きたか」という説明的、「何が起こるか」という予測的、そして、「何をするべきか」という指示的なデータ分析ツールを状況と目的に応じて使い分ける必要があります。ビッグデータもそうしたデータにもとづく意思決定の延長線上にあるものにすぎません。

 まず何をやりたいかということがあって、その問題を解くためにビッグデータというアプローチが有効であればそうすればいいし、そうでなくていいものであれば、別のデータ分析を行うべきだということです。データ分析には多くの手法があり、ビッグデータはそのうちの1つにすぎないのですから。

 そもそも、現在、IT業界で喧伝されているビッグデータとは、「Hadoop、MapReduce、または大きなクラスタで解く問題」という狭義にすぎない印象があります。仮にそうであれば、そうした今言われている“ビッグデータ関連技術”で解ける問題というものは意外と少ないという点には留意すべきでしょう。なぜなら、非常に大きなデータがあった場合にはまずランダムサンプリングを行うべきです。また、線形な計算量を必要とする分析アルゴリズムがあったとしても、データ量が10の12乗バイト程度のものは単一の計算機で解けるでしょうし、10の16乗バイトを超えるようなものは、1000台のクラスタでHadoopを動かしても解くのは難しい。だから、Hadoopで解けるのは、データ量がたまたま10の13乗バイトから10の15乗バイトくらいに落ちてくれる問題に限られることになります。

Question

一方で、データ分析をうまく行ったとしても、それが経営にきちんと活かせるかどうかという問題もありますよね?

Answer

そもそも、データ分析を行う目的は、よりよい意思決定につなげるためです。そして、そのためには相関ではなく、因果を知らなければいけません。相関と因果は異なるものですが、われわれの頭の中では両者をごちゃまぜにしてとらえてしまうことも多く、それでは正しい意思決定ができないのです。

 また、データ分析を経営に活かす場合には、経営者がデータとファクトは別物だということを正しく認識しなければいけません。データはファクトではなく、必ず誰かがある目的を持って集めて処理したものですから、必ず何らかのバイアスはかかっているし、裏に意図が入り込んでいる可能性もある。それにもかかわらず、データがファクトであるかのようにとらえて、そのまま意思決定を行えば、うまくいかないどころか、何か大きな問題すら起こしかねない。そのデータがどういうプロセスで出てきたのかということも眺めつつ、データの合理性などを判断できるような素養が経営者には求められているのではないでしょうか。


このページの先頭へ

各々のワークロードに応じたアーキテクチャを適用すべき

Question

今回の講演では、アーキテクチャに関する考察に重点を置かれていましたが、その意図をお聞かせいただけますでしょうか?

Answer

統計数理研究所:丸山 宏 氏

先ほども触れましたが、現在のようなHadoop一辺倒の扱われ方、ビッグデータ=Hadoopという図式での広がり方は危険だと思います。(Hadoopの原型である)MapReduceは、あくまでもグーグルのファイルシステムを実装するためにつくられた、つまり、そのワークロードに特化された仕組みですから、Hadoopで解ける問題も相当あるものの、それ以外のものも山のようにあるはずです。しかも、いま言われているビッグデータには、普通のエンタープライズデータの範疇だととらえられるものも多いと思いますが、本当に注目されているのは、インターネット上のトラフィックから出てくるものや、各種センサーから送られてくる膨大な情報だと思います。

 では、そうした状況で出現しつつある新たなワークロードとは何か。その1つには、実世界とITが緊密に結合されたシステムである「Cyber Physical Systems」などが挙げられます。例えば、デンマークではスマート・グリッドの一環として、風力発電で生成された余剰電力を一時的に電気自動車へ蓄えて効率化を図ろうという取り組みを進めていますが、そのためには様々なセンサー情報がリアルタイムに流れるようにし、しかも、それをリアルタイムで分析しなければならない。そのほかにもアブダビ首長国の二酸化炭素を排出しない新たな都市をゼロから設計しようというMasdarプロジェクトなども同様です。こうしたまったく新しいワークロードが今後は次々に現れることになるでしょうし、そこに必要となるアーキテクチャを検討し、準備していく必要があります。

 これは決して大掛かりなプロジェクトだけに関係した話ではなく、企業の情報システム部門などにおいても、ワークロード、つまり、どういう計算をする必要があるのかをしっかりと把握することが重要になります。どういうワークロードがどの程度の割合で発生するのかということを正しく理解していく必要があるというわけです。その上で、クラウド利用なども含めて、いずれかのアーキテクチャにすべて統一しようというのではなく、どのアーキテクチャをどの部分に適用すれば最も有効かという点をしっかりと見極めつつ、自社のITポートフォリオを考えていく必要があるでしょう。


●ありがとうございました。


取材協力

大学共同利用機関法人 情報・システム研究機構 統計数理研究所 企業サイトへ

確率に関する数理及びその応用の研究を行う大学共同利用機関法人。合理的予測の実現を目的に、データ・数理を道具としつつ、散在・偏在している様々な知識を適切に「つなぐ」方法、すなわち、統計数理の特性を活かし、異分野の研究者、広範囲の研究領域、あるいは大学と大学、産業と学術、更にそして学術と一般社会をつないでいる。

EMCジャパン株式会社 企業サイトへ

企業のビジネスに役立つ包括的な情報インフラストラクチャを提供する総合ITベンダ。広範な階層型ストレージ・プラットフォーム/テクノロジーをはじめ、アーカイブ、バックアップとリカバリ、ビジネスの継続性と可用性、コラボレーション、コンテンツ管理、データ移行、リソース管理、仮想化などのビジネス課題に対応するための情報インフラストラクチャ・ソフトウェアなど、幅広いソリューションやサービスを展開している。


このページの先頭へ



◆関連記事を探す

データ分析/Hadoopで解ける問題、解けない問題」関連の情報を、チョイスしてお届けします

※キーマンズネット内の「データ分析」関連情報をランダムに表示しています。

データ分析」関連の製品

脅威検出/分析プラットフォーム RSA Security Analytics 【EMCジャパン】 音声マイニングソリューション 「VextVoiceMiner」 【ベクスト】 最良の顧客体験につなげる、デジタルアセット管理7つの秘訣 【アドビ システムズ】
IDS データ分析ソリューション データ分析ソリューション
従来の分析ソースであるログ情報に加えパケット情報と脅威インテリジェンスを統合し、従来は発見困難だった脅威も迅速な検出を可能にする脅威検出/分析プラットフォーム。 コンタクトセンタに蓄積された音声データを音声認識によってテキスト化し、テキスト化されたテキストデータをテキストマイニングによって分析・活用するソリューション。 7つのトレンドで分かる、最良の顧客体験を引き出すコンテンツ活用法

データ分析」関連の特集


中堅・中小企業でもマッチする製品が整備されてきており、導入が容易になってきているERP。導入を目的に…



NTTデータは今年7月、社内のいろいろな部門やグループ会社に分散していたビッグデータ関連のケイパビリ…



メディアも世間も賑わせている人工知能ですが、本当に新しいビジネス価値を生み出している?AIの虚像をア…


データ分析」関連のセミナー

金融ICT カンファレンス 2016 【ナノオプト・メディア】 締切間近 

開催日 12月9日(金)   開催地 東京都   参加費 無料

Fintech 時代に求められる金融業界が取り組むべき課題改善の重要なポイントを企業の成功事例を中心に、最先端テクノロジーとソリューションを一挙解説する。■キー…

音声マイニングの最新情報と活用事例 【ベクスト】 締切間近 

開催日 12月15日(木)   開催地 東京都   参加費 無料

テキストマイニングツールVextMinerを始めとした「Vextシリーズ」のユーザー様による導入事例の発表を中核として新技術や新製品の情報を、いち早く皆様にお届…

物流ICT カンファレンス 2016 【ナノオプト・メディ】 締切間近 

開催日 12月9日(金)   開催地 東京都   参加費 無料

IoTで革新する物流サービス             一歩先を行く物流システムの最先端テクノロジーを事例で解説!■キーノート■    ※敬称略●物流Big Da…

「データ分析」関連 製品レポート一覧

このページの先頭へ

Myリストへ 印刷用ページへ

この記事をtweetする このエントリーをはてなブックマークに追加


この記事に掲載している情報は、掲載日時点のものです。変更となる場合がございますのでご了承下さい。


30005172


IT・IT製品TOP > ビッグデータ > データ分析 > ビッグデータ > ビッグデータのIT特集 > 特集詳細

このページの先頭へ

キーマンズネットとは

ページトップへ