この記事をtweetする このエントリーをはてなブックマークに追加

掲載日 2012/09/12

ザ・キーマンインタビュー データサイエンティストの育て方

ビッグデータへの関心が高まり、更に実際の活用が広まることが期待される中、そのために必要な人材として、データサイエンティストに注目が集まっている。しかし、具体的にはどのような職種であり、また、ビッグデータ活用においてはどういった役割を果たすことが見込まれているのだろうか?既にデータサイエンティストの育成を目的としたトレーニングコースを実施している、EMCジャパンの仲田聰氏と松下正之氏にお話を伺った。

EMCジャパン株式会社 企業サイトへ

仲田 聰 氏(左)、松下 正之 氏(右)

グリーンプラム事業本部
テクニカル・コンサルティング部 部長
仲田 聰 氏

グリーンプラム事業本部
テクニカル・コンサルタント
松下 正之 氏

課題や仮説を数字に落として、先を読むためのスキルが求められる。

Question

ビッグデータへの関心が高まり、更に実際の活用が広まることが期待される中、そのために必要な人材として、データサイエンティストに注目が集まっていますが、具体的にはどのような職種と言えるのでしょうか?

Answer

EMCジャパン株式会社:仲田 聰 氏

【仲田】 きわめて新しいプロフェッション(専門職)ですから、明確な定義はまだないようですが、どういう能力が求められるのかを考えると、やはり、第一には「相関分析などの数理統計的な手法や思考を身につけている」ということが挙げられます。ただ、その条件だけであれば既に満たしている人は学術分野はもちろん、企業の中にも少なからず存在しているでしょう。では、なぜ今、ことさらに「データサイエンティストという職種が必要だ」「統計的な知識を持った人材が足りない」と騒がれているかというと、単に統計を扱えるだけではなく、実際のビジネスの課題や仮説を数字に落として、それをシミュレーションして先を読むための、一連の知識やスキルが求められているわけです。

 例えば、商品の価格を下げたら、販売数はどれだけ増加するのか、言い換えれば、利益総額を最大にするための最適価格はいくらなのかといったことは、これまでも多くの企業が常に検討すべき問題だったとは思います。しかし、厳密なシミュレーションを行うというよりは、実態としては、多くの部分を勘と経験に頼らざるを得なかった。もちろん、勘と経験ではなく数理統計的な分析を行ったほうがいいことは誰もが分かっていたのですが、そうしようにも、まず必要なデータを集めるのがなかなか困難だったわけです。しかし、そうした状況が変化し、周りを見渡せば様々なデータが存在している。だったら、それを使って何十通り、何百通りものシミュレーションを行ったほうが厳密な予測ができるかもしれない。そして、そのためには現実のビジネスを数字で見ることができ、周りにある膨大なデータの中から有用なものを見出したり、作り変えたりして、更にそれを分析できる人材が必要だという流れになっているわけです。

Question

ビジネス課題や目標について、経営層や各部門のマネージャなどが考えていること、話していることを理解し、統計の専門的な手法を用いて解決できる人材ということでしょうか?

Answer

【仲田】 そういうことがベースにありますが、実際に解決するためには、データ分析のためのモデリング、データベース設計、あるいはプログラムの記述など、やはりITをきちんと道具として使いこなせる知識や技術が必要です。ビジネスアナリストなどの中にはITの知識を持った人は少数ながら存在していますが、あまり、それを1つのプロフェッションとは認識していなかったと思います。また、IT技術者の側にも数理統計的な専門家と呼べる人はほとんどいなかったのではないでしょうか。ただ、例えば、ソーシャルゲームなどで利益分岐点を意識しつつパラメータを調整するなど、無意識にそういう職種になっている人はいるのかもしれません。

Question

そうなると、やはり、企業の中では情報システム部門のIT技術者をデータサイエンティストに育成していくのが早道と言えるのでしょうか?

Answer

【仲田】 ビジネスとITの中間に位置する人とも言えるので、どちらからのアプローチもありだとは思います。ただ、データサイエンティストという概念が出てくる以前から、「今後、情報システム部門はシステムの世話役ではなく、経営的な視点や考え方に立って、積極的にITのビジネス活用に取り組むべきだ」と盛んに言われていました。しかし、業務をITに落とし込むことはできても、なかなかその先には行けない。そういう状況も受けて、待っていてもデータサイエンティストは出てこないのだから、情報システム部門から出てきてほしい、育成したいという意識が広がっているのではないでしょうか。

 もちろん、すべての企業がビッグデータによる将来予測を必要としているわけではないでしょう。しかし、一方で、そこまでいかなくとも、もう少しビジネスを数字で見たり、事実を把握したり、「こうしたら、どういう結果になるのか」といったシミュレーション的なアプローチも少しずつ取り入れたいという意向はあるはずです。でも、具体的な手段は見当たらなかった。そうした意味で、多くの企業でデータサイエンティストに対する関心が高まっているのだと思います。



このページの先頭へ

積極的にビジネスに関与するための“表現力”も必須。

Question

今までの話を伺っていると、データサイエンティストはビジネスとITの間を取り持つ調整役なのではないかというイメージも受けるのですが、その認識は正しいのでしょうか?

Answer

EMCジャパン株式会社:仲田 聰 氏

【仲田】 いいえ。基本的には、やはり、まさしく“サイエンティスト”ですね。工学を扱うエンジニアでもなく、物事に科学的なアプローチで取り組む立場と言えるでしょう。ただ、企業においては机上の空論では意味がないわけですから、「データを科学する」ための一環として、ビジネスを実際に進める人とのコミュニケーションを図ることも欠かせないというわけです。

 コミュニケーションといっても意味は広いですが、当然ながら、まず幅広い部門や立場の方と会話ができて、「相手はどのような分析を必要としているのか」、あるいは「自分は分析のためにどういう材料を必要しているか」ということを明確に伝えられなければいけません。仮に統計学や数学の天才であっても、自分の部署に閉じこもって、何かを与えられたらモデリングなどを行うだけという受身な人ではだめなのです。

 更に、最も重要なのは“表現力”ですね。データ分析で誰も気づいていない何かを見出したとしても、経営層などの実際にビジネス上の流れを変えたり、新しい施策を起こす人にその価値を理解してもらわないといけません。そのためには、ビジュアライゼーションやプレゼンテーションのテクニックなども求められるでしょう。売り上げ増加、コスト削減、顧客満足度の向上など、取り組む対象のテーマは様々でしょうし、それらに応じて、どういう見せ方が分かりやすいか、よりインパクトが強いかといったことをしっかりと検討した上で、相手に伝える必要がありますから。そういう意味では、データサイエンティストに必要な能力の半分くらいは、コミュニケーションに関わるプロフェッショナルスキルなのではないかと感じています。

Question

貴社ではデータサイエンティストを育成するトレーニングコース「Data Science & Big Data Analytics」を実施していますが、ITベンダであるEMCジャパンが、こうしたトレーニングを行う理由や目的をお聞かせ下さい。

Answer

【仲田】 われわれはデータ分析を経営に役立てるためのミドルウェアを提供しているわけですが、製品側でいくら先進的な機能や高速性を実現したとしても、ビジネスに役立ててくれる方がいなければ意味がありません。そして、将来的にはデータサイエンティストという職種が主要ユーザとなると見込まれ、そういう人たちが増えていけば、市場も大きくなるはずです。そういう大きな意味では、デマンドジェネレーションの一環として実施していると言えるかもしれません。ただ、実際のセミナーでは弊社の製品を売り込んだり、扱うわけではなく、あくまでもデータサイエンティストとしてのスキルを身につけていただくためのエデュケーションを行っています。

 弊社ではユニファイドアナリティクスプラットフォームと呼んでいますが、つまり、統合分析基盤というものは人間も含めたエコシステムだととらえているのです。そのため、社内にもデータサイエンティストが約30人ほど在籍し、お客様とともにデータ分析などに取り組んできました。そうした既存のコンピテンシー、つまり、人材や能力、経験を活用することで、最終的にはお客様が自らデータサイエンティストを抱え、統合分析基盤を独自に構築していただけるようになればよいという考えです。


このページの先頭へ

データサイエンティストを育成するトレーニングコースの中身とは?

Question

トレーニングは、企業のデータ分析に従事するアナリストやその管理者、データベース・プロフェッショナルなどを主な対象としていましたが、初回に実施した際の参加者はどのような内訳だったのでしょうか?

Answer

EMCジャパン株式会社:松下 正之 氏

【松下】 定員は16名としていたのですが、有料にもかかわらず、定員を大幅に超える申し込みをいただき、多くの方々にお断りをせざるをえないほどでした。その内訳としては、エンドユーザ企業の方が半分で、あとは、これからデータ分析の分野に進出していこうというSIerやサービス事業者の方々です。エンドユーザ企業から参加された方の職種は、大きく2つに分けると、社内にデータ分析の組織やチームを作りたいというマネージャ的な立場の方と、もう一方は、ビジネス現場のデータ分析を実際に行っていたり、今後そういう業務を担うことを社内のミッションとして与えられている方です。企業の業種としては、IT系とそれ以外の事業会社がやはり半々という感じでしたね。

Question

トレーニングは具体的にどのような内容なのでしょうか?

Answer

【松下】 5日間のプログラムで、1日目はビッグデータ分析やデータ分析ライフサイクルの概論を紹介するイントロダクションとなりますが、以降は実際にデータベース上で様々な統計手法やツールを用いるケーススタディがメインです。2日目はR言語を用いた基本的なデータ分析・探索、3日目はK-meansクラスタリングによるデータ解析、相関分析、線形回帰やロジスティック回帰による回帰分析といった、より高度な統計手法に取り組んでいただきます。

 そして4日目は、MapReduceとHadoopによる非構造データの分析、Hadoopエコシステム、あるいはMADlibというin-Database分析を行うためのオープンソースライブラリなどを組み合わせて、例えば金融業界のリスク分析を行ってみるという流れですね。更に4日目の後半から5日目にかけては、それまでのケーススタディをもとに、チーム単位でのワークショップを行います。チーム内で議論しながら分析に取り組み、その成果をプレゼンテーション形式で発表して完了というかたちです。プレゼンテーションの時間は10〜20分程度とさほど長くはないのですが、先ほどのコミュニケーションの話題でも触れたように、コース全体の中でもかなり重要な部分ととらえています。

 実際のビジネスにおいても、データサイエンティストがプレゼンテーションを行うべき対象は、1つがプロジェクトマネジメントでいうところのエゼクティブ・スポンサー(経営的な立場からプロジェクトの管理・支援を行う最終権限者)、そして、もう1つが自分の周りのアナリストが主体になります。ですから、トレーニングの最終プレゼンテーションでは、そのどちらを対象とするかを決めた上で、自分たちの見出したことを的確に伝えるということにチャレンジしていただきます。

Question

短期間ながら非常に網羅的な内容になっている印象を受けましたが、日本では初回だからという意味合いもあったのでしょうか?

Answer

【仲田】 いいえ。グローバルのプログラムをそのまま用いていますので、これが標準です。今回のトレーニングは、ストレージ管理者向けなどで幅広く展開しているものと同様に、EMCエデュケーション・サービスの1コースとして実施しており、トレーニングを修了された方はEMC Proven Professionalの資格認定を取得していただけます。「Data Science & Big Data Analytics」に関しては、現在はいわゆるアソシエイト、入門・初級コースという位置づけのみの実施となり、より上級のトレーニングコースは現在開発中という段階です。

 また、これらはグローバルでの展開に沿ったものですが、日本の場合はデータサイエンティストを目指すプロフェッショナルだけではなく、例えば一般社員の方が丸1日程度でデータ分析の基礎が学べるなど、よりエントリーの方向へ振ったコースも用意できればいいかなと考えています。

Question

今回のトレーニングは1日目と5日目は日本語同時通訳つきだったものの、それ以外は、基本的には講義・テキストともに英語で行われたようですし、参加した方にとっても少しハードルが高かったかもしれないという印象なのでしょうか?

Answer

【松下】 いいえ、むしろ逆で、実はわれわれの側にはそうした危惧も少しあったのですが、受講者の方々は非常に高い意識を持っていて、事前によく勉強されており、プログラムもしっかりと消化していました。休憩時間や最後の打ち上げなどでも、積極的に情報交換などに勤しんでおられましたし、期待以上の盛り上がりが得られたと感じています。そうしたモチベーションの高い人たちをしっかり選んで送り込んできているという点からも、企業自体のデータサイエンティストの育成に対する真剣度の高さが伺えるのではないでしょうか。


取材協力

EMCジャパン株式会社 企業サイトへ

企業のビジネスに役立つ包括的な情報インフラストラクチャを提供する総合ITベンダ。広範な階層型ストレージ・プラットフォーム/テクノロジーをはじめ、アーカイブ、バックアップとリカバリ、ビジネスの継続性と可用性、コラボレーション、コンテンツ管理、データ移行、リソース管理、仮想化などのビジネス課題に対応するための情報インフラストラクチャ・ソフトウェアなど、幅広いソリューションやサービスを展開している。


このページの先頭へ



◆関連記事を探す

BI/データサイエンティストの育て方」関連の情報を、チョイスしてお届けします

※キーマンズネット内の「BI」関連情報をランダムに表示しています。

BI」関連の製品

ZeeM 会計 【クレオ】 Webレポーティングソリューション 「CROWNIX Report & ERS」 【日本エムツーソフト】 インテル 統合分析プラットフォーム 【インテル】
会計システム BI BI
財務・管理会計を統合し、他システムとの連携性と充実した管理会計、決算日程の短縮にこだわったオールインワン会計システム。 業務帳票、管理帳票から半定型分析レポートまでカバーする出力ツール。DB環境は問わず、様々なデータソースと連携できBIツールのような検索・抽出も可能。出力形式も多様。 多様なデータを統合管理、DWHの制限を取り払う「統合分析ハブ」

BI」関連の特集


情報システムの運用管理に十分な費用と労力をかけることができない中堅・中小企業にとって、クラウドは有効…



「ビッグデータと言われても…」予算高に人手不足など中小企業では敷居が高かった社内外のデータ活用。そん…



営業マンの残業の大きな理由の1つが日報作成。日中は顧客訪問、帰社後はスケジュール管理・メールなどの対…


BI」関連のセミナー

TCO削減に効く!OracleDBからSQL Serverへの移行支援セミナー 【日本マイクロソフト/シーイーシー】 注目 

開催日 7月5日(水)   開催地 東京都   参加費 無料

2016年4月、日本マイクロソフトが「Oracle Database」から「SQL Server」への乗り換え支援プログラムの提供を発表して以来、「SQL Se…

Qlik あきんどスシローが解説 データ分析実践セミナー 【マイナビ】 締切間近 

開催日 6月27日(火)   開催地 東京都   参加費 無料

データ分析で成功している多くの企業では、データ分析や意思決定をするための製品・ソリューションを現場主導で導入していると言われています。一方で、「導入したものの成…

Qlik Sense Tour 東京 【クリックテック・ジャパン】 注目 

開催日 7月13日(木)   開催地 東京都   参加費 無料

「セルフサービスBI」とはよく耳にするようになったものの、真の「セルフサービス」とは何を指すのか?BIからビジネスチャンスを導き出す方法や、最新トレンド情報、導…

「データ分析」関連 製品レポート一覧

このページの先頭へ

Myリストへ 印刷用ページへ

この記事をtweetする このエントリーをはてなブックマークに追加


この記事に掲載している情報は、掲載日時点のものです。変更となる場合がございますのでご了承下さい。


30005004


IT・IT製品TOP > ビッグデータ > データ分析 > BA > BAのIT特集 > 特集詳細

このページの先頭へ

キーマンズネットとは

ページトップへ