事例

Splunk Services Japan合同会社

Splunk Services Japan合同会社

スパコン「京」の膨大なログを活用、計算科学研究機構が選んだ管理手法は?

システム規模が大きくなるほど安定運用にはログ分析が欠かせないが、規模に応じて膨れ上がるログの生成量がログの有効活用を阻む。国内最高峰の処理速度を備えるスパコン「京」のログ管理・活用の取り組みを見てみよう。

要約

 2011年に世界最速のコンピュータと認定されたスパコン「京」を運用する理化学研究所 計算科学研究機構(現:計算科学研究センター)では、「京」を中核に、ネットワークシステム、HPCIサーバ群の3つのシステムを運用している。この効率的な運用・管理には、膨大なログをシステム横断的に分析・活用する仕組みが欠かせない。

 同機構の環境を支えているのが、大量のログ管理と高速な検索を可能にするログ分析システムだ。蓄積場所の分散や利用者権限の設定も容易で、効率的な圧縮機能、スケールアウトによる拡張性も備える。システムの生成ログは1日に数百GBにもなると見込まれるが、点在する事象をログ分析でつなぐことで障害の予兆を発見したり、データ間の相関分析により異常検知の精度を向上したりするなど、ログ活用の選択肢が大きく広がるという。

 また、「京」は巨大なシステムなだけに思わぬ異常が発生する可能性もある。ログ流量に対するアラート、外部委託しているネットワーク運用の監査など、安心感を生む機能の評価も高い。本資料では、同機構の事例を通じ、巨大システムのログ蓄積・管理を効率化するポイントを明らかにする。

アンケート