暗号化DBを復号せずにデータ分類!「暗号化データマイニング」

この記事をtweetする このエントリーをはてなブックマークに追加

流行りモノから新技術まで! 5分でわかる最新キーワード解説

暗号化DBを復号せずにデータ分類!「暗号化データマイニング」

2016/03/02


 最新キーワードを5分で理解するこのコーナー、今回のテーマは暗号化されたデータを暗号化したまま分類を可能にする「暗号化データマイニング」技術です。プライベートデータが大規模に集約されるようになった今日、プライバシー保護は大問題。これまで以上に企業の機密情報を活用していくためにも暗号化が求められています。これまではいったん復号してから統計処理を加えるのが一般的でしたが、万一復号時のメモリが読まれたら一大事に。今回紹介する技術ならその心配がなくなるほか、現行暗号技術の限界を超えて、将来の量子コンピュータ時代でも解読困難な暗号化データが利用できるようになるかもしれません!  

暗号データマイニング

※「暗号データマイニング/暗号化DBを復号せずにデータ分類!「暗号化データマイニング」」の記事を一部ご紹介します。会員登録を行い、 ログインすると、「暗号データマイニング/暗号化DBを復号せずにデータ分類!「暗号化データマイニング」」の記事全文がお読みいただけます。

会員登録はこちら(無料)



1

「暗号化データマイニング」とは?

 暗号化された膨大なデータを、復号することなく分類し、統計情報として結果を出力する技術。国立研究開発法人情報通信研究機構(NICT)がこの1月、かねてから開発してきた「準同型暗号技術 SPHERE(スフィア)」と「ロジスティック回帰分析」技術を組み合わせる方法で、従来は途方もない時間が必要だった暗号化データを復号しないまま行う統計処理を、現実的な時間内で行うことに成功した。

1-1

暗号化したデータを統計処理するってどういうこと?

 IoTをはじめビッグデータの利活用が企業の競争力の要になると言われている現在、そこに含まれる個人データや企業の機密データをどう保護するかが大きな課題になっている。課題解決のためにクリアしなければならないことは大きく2つある。1つは個人や企業・組織が秘匿したいデータを情報漏洩しないようにしながら利活用する決め手がないこと、もう1つはコンピュータ能力の進歩により、現在の暗号方式が破られる日が来ることがほぼ確実であることだ。今回の「暗号化データマイニング」技術は、この両方の課題を技術的に解決する1つのアプローチとして注目したい。

■データを分類する機械学習技術「ロジスティック回帰分析」

 NICTの実験では、まず糖尿病に関する公開実データ(カリフォルニア大学アーバイン校(UCI)機械学習リポジトリ)を用いて、各種計測データから糖尿病との関係を割り出す機械学習のプログラムを作成した。これは「ロジスティック回帰分析」と呼ばれる手法で、図1はそのうち血糖値とBMIを手掛かりに、ある人が糖尿病であるか否かを自動判定した結果の例だ。

図1 血糖値とBMIから糖尿病か否かを推定する「ロジスティック回帰分析」
図1 血糖値とBMIから糖尿病か否かを推定する「ロジスティック回帰分析」
資料提供:NICT

 サンプルデータを2次元のグラフにプロットすると、図1上のように、グラフのある境界(直線)を境に、糖尿病患者と健常者がくっきり分かれて分布している。その分布の仕方から境界となる直線を計算で導き出すのがロジスティック回帰分析による学習だ。それは図1下のように各点に対して直線との位置関係に応じたスコアを割り振り、その合計値が最大となるように調整する。いったんこの直線が定義できると、以降はプログラムに計測データを入力すれば、その人が上の図上で言えば赤いエリアにいるのか、緑色のエリアにいるのかを自動判定できることになる。その誤差が一定範囲内なら十分実用的な診断法になるというわけだ。
 データの位置関係とスコアの関係は対数関数と指数関数を組み合わせたもの。これはデータ分析の基本となっている一般的な技術であり、ビッグデータ解析を行うアナリティクスソフトウェア(SASやSPSSなど)に組み込まれて、疫学研究のリスク要因研究や各種予測分析によく利用されている。しかし、これを暗号化したまま行おうとすると、高いコンピュータ能力が必要になる。

■従来の暗号化データを計算処理するときは、どこかで必ず復号する必要あり

 現行の市販ソフトウェアなどは平文のデータを対象としており、データは暗号化されて保管していても、計算処理を行うときにはいったん復号して平文に戻す処理がいる。それがたとえメモリ上だけであっても、管理者がメモリをダンプしたり、不正プログラムがストレージに書き込んで外部送信したりする可能性がゼロではない。そこで、暗号化されたデータを暗号化されたまま計算処理する仕組みが求められている。
 それを実現したのが「暗号化データマイニング」だ。従来は、暗号化されたデータに対して計算処理をすることは困難だったのだが、暗号化されたデータ同士を加法・乗法演算可能な(コンピュータの論理演算のXORとANDが処理できる、つまりデジタルデータならどんな計算でもできる)画期的な暗号技術「完全準同型暗号」が2009年に開発された。この技術によれば、例えば、a、b、cという数値をある暗号化鍵で暗号化したデータがあるとして、その平均を暗号化されたまま計算処理でき、その結果であるdも同じ鍵で暗号化された状態で出力される。平均計算をリクエストしたユーザーは、その結果の暗号化されたデータを受け取り、暗号化鍵で復号すれば平均値dを知ることができる。しかしその結果となる元データがa、b、cであることを推理することはできない……というような仕組みが作れる。
 これは例えばクラウドサービスで多数のユーザーのウェアラブルデバイスなどからの生体情報を収集し、本人に健康管理情報を提供するとともに統計的な情報として活用しようとする場合などには大変好都合だ。ユーザー個々の生のデータは平文では通信経路上やストレージ、メモリ上に存在せず、復号の権限を持った人(復号鍵を持った人)だけが、統計結果のみを平文にすることができる。その統計結果からは、どの人の数値がいくらだったのかはわからない。つまり生のプライベートデータが外に出てくる部分が全くない。これはプライバシー問題や機密情報漏洩問題を技術的に解決する決め手になりうる。
 なお、糖尿病か否かを自動判定するNICTの実験では、血糖値とBMIだけを用いた場合だと、暗号化なしのオリジナルのロジスティック回帰分析処理で正解率は約77%、暗号化データの場合で約76%だった。また年齢や血圧などの8種類のデータを用いた場合ではオリジナルの場合も暗号化データの場合も80%前後と、ほぼ同じ結果が得られている。

…この記事の続きは、会員限定です。  会員登録はこちら(無料)

続きを読むには…
会員登録いただくと自動的にこの記事に戻り、続きが読めます。

会員登録(無料)・ログイン

キーマンズポイントで今応募できるプレゼントはこちら!(2016/12/31まで)

ITキャパチャージに解答いただくとポイントがたまります。
たまったポイント数に応じて、以下、A〜E賞の各賞品に応募することができます。

●B賞:抽選で1名様
 象印マホービン 圧力IH炊飯ジャー「極め炊き NP-YB10」 
●A賞:抽選で1名様
 HUAWEI Windows 10 Pro搭載 2in1デバイス「HUAWEI MateBook M3」 
●C賞:抽選で1名様
 iRobot 床拭きロボット「ブラーバ ジェット240」 
●D賞:抽選で1名様
 プリンセス 大皿みたいな白いホットプレート「Table Grill Pure」 
●E賞:抽選で2名様
 ASUS 毎日の健康をスマートに記録「VivoWatch」 

このページの先頭へ

暗号データマイニング/暗号化DBを復号せずにデータ分類!「暗号化データマイニング」」関連の情報を、チョイスしてお届けします

※キーマンズネット内の「暗号データマイニング」関連情報をランダムに表示しています。

「BI」関連の製品

オープンソースBI「Pentaho」 【KSKアナリティクス】 オールインワンBIツール Actionista! 【ジャストシステム】 Webレポーティングソリューション 「CROWNIX Report & ERS」 【日本エムツーソフト】
BI BI BI
大規模エンタープライズクラスはもちろん、小規模導入にも対応したオープンソースBI/BAツール。サブスクリプションモデルの料金体系により、低コストでの導入/運用が可能。 “かんたん、きれい、わかりやすい”
「誰でも分析」を実現するオールインワンBIツール。誰でも簡単に本格的な分析が行え、分析結果を組織内で自由に共有することができる。
業務帳票、管理帳票から半定型分析レポートまでカバーする出力ツール。DB環境は問わず、様々なデータソースと連携できBIツールのような検索・抽出も可能。出力形式も多様。

「BI」関連の特集


利用端末環境として、スマートフォンやタブレット型端末が増加する同市場。拮抗する上位3社のベンダとは?…



膨大なデータの中からビジネスに役立つ情報を抽出、分析できるBIツール。超高速な処理を可能にする「イン…



ビジネス環境が変化して陳腐化していったBIツール。このような経験を繰り返さないためには、どのように選…


「BI」関連のセミナー

第69回事例研究フォーラム 【アイエルアイ総合研究所】  

開催日 12月9日(金)   開催地 東京都   参加費 無料

Excelをプラットフォームとしたデータベースシステム構築ユーザ事例の紹介セミナーです。Excelと『StiLL』とDBを使って実際に開発されたシステムの事例発…

予実管理、販売分析を実践! Qlik Sense 無料体験セミナー 【グランバレイ】  

開催日 10月13日(木),10月20日(木),11月10日(木),12月1日(木),12月22日(木)   開催地 東京都   参加費 無料

Qlik Senseは、誰もが簡単にデータを統合し、分析し、表やグラフを作成できるセルフサービス型データビジュアライゼーションツールです。高度な機能もドラッグ&…

WebFOCUSハンズオンセミナー 【アシスト】  

開催日 1月16日(月)   開催地 大阪府   参加費 無料

見て体験してこそ分かる『WebFOCUS』を使用した情報活用成功術みなさんで情報活用できていますか?たとえば、社員に情報活用してもらいたいけれど・・・ ▼ユーザ…

「データ分析」関連 製品レポート一覧

このページの先頭へ

暗号データマイニング/ 暗号化DBを復号せずにデータ分類!「暗号化データマイニング」」の記事を一部ご紹介しました。
会員登録を行い、ログインすると、「暗号データマイニング/ 暗号化DBを復号せずにデータ分類!「暗号化データマイニング」」の記事の続きがお読みいただけます。


Myリストへ 印刷用ページへ

この記事をtweetする このエントリーをはてなブックマークに追加


この記事に掲載している情報は、掲載日時点のものです。変更となる場合がございますのでご了承下さい。


ページ: 1 | 2 | 3


30008347


IT・IT製品TOP > データ分析 > BI > BIのIT特集 > 特集詳細

このページの先頭へ

キーマンズネットとは

ページトップへ