データセンターで求められる4つの運用監視を徹底解説!
※この記事は製品や技術にまつわるお役立ち情報=豆知識を意図しておりますことから、弊社製品以外の製品や市場一般に関する内容を含んでいることがあります
データセンターの役割は、システムが恒常性をもって正常稼働することが最低条件かつ絶対条件です。データセンターはシステムを安定的に正常稼働させるために様々な項目の運用監視業務をおこなっているのをご存知ですか。この記事はデータセンターの運用監視業務について解説していますので、データセンターを選ぶ際の参考にしてください。
データセンターでの運用監視業務とは
データセンターの運用監視業務の基本は、ネットワークやサーバーの運用状態を監視することです。運用監視業務をおこなうことで、ネットワークやサーバーの機能性を維持管理することができます。ネットワークとは、複数のPCや関連機器が互いに接続または交信されている状態です。ネットワークが正常に稼働していなければPC間で情報を共有したり、メッセージを送受信したりすることができません。データセンターのネットワークを使用しているエンドユーザに対して冗長性を保つためには、24時間365日常にネットワークやサーバーを安定稼働させることが重要です。
データセンターでの4つの運用監視業務
データセンターを正常稼働させるための運用監視業務には基本的な4つの項目が存在します。ここではデータセンターがそれぞれの項目をどのように監視しているか解説します。
死活監視
死活監視とはコンピューターおよびネットワークシステム、またはサーバー上で実行されているソフトウェアが正常稼働しているかを外部から継続的にチェックする業務です。死活監視の方法は大別するとアクティブ監視とパッシブ監視に分けられます。
アクティブ監視は、ネットワークやシステムの障害を事前に察知することで予防的な対処ができる監視方法です。アクティブ監視で有名な方法にPING監視があります。PING監視は監視対象機器が通信可能な状態かを確認するために、ICMPパケットと呼ばれる信号を定期的に送信して監視機器からの応答でシステムの正常性を確認可能です。監視対象の機器から一定期間応答がなければ、異常や障害が発生していると判断します。アクティブ監視には、監視対象機器のポート状態を確認する方法も含まれます。アクティブ監視はトラブルを事前対処するための予測的アプローチです。
パッシブ監視は、ネットワーク接続を通して一定期間にわたってユーザデータを収集・分析する監視方法です。パッシブ監視として有名な方法にウォッチドッグタイマーがあります。ウォッチドッグタイマーとは、MCUのプログラムに異常や停止がないかを確認する機能です。監視対象となる機器から定期的に送出されるデータを監視し、一定期間パケットが到着しなければ異常や障害が発生したと判断します。パッシブ監視はセキュリティ上PINGの応答を止めている機器の監視に有効な方法です。アプリケーションに機能を組み込むことでアプリケーションレベルでのパッシブ監視も可能です。
機器監視
ネットワーク機器本体のCPU使用率、メモリ使用率、ハードディスク使用率、プロセス数などのリソースを監視します。機器監視をおこなうことでネットワーク機器やハードウェアの異常や障害を未然に防ぎ、機器に負荷がかかっている状態を迅速に発見できます。機器監視をおこなうことで客観的なデータが集積されていくので、システムの稼働状況を正確に把握でき、問題が顕在化する前に対策を立てることが可能です。例えば、処理負荷が増大してきて性能劣化の可能性があれば、リソースを増強するのか、インフラを作り替えるのか事前に対策を検討できます。
トラフィック監視
トラフィックとは、ネットワーク上に流れている単位時間当たりのデータ量のことです。一般的にトラフィックの単位にはbps(bits per second)が用いられます。bpsは1秒間に流れるデータをビット数で表したものです。bpsの変化や平均値、ピーク値、パターンを監視することをトラフィック監視と言います。トラフィックの過剰利用やサイバー攻撃などによってトラフィック量が増大すると、サーバーやネットワーク機器の負荷が増大します。それによってネットワークの遅延やシステムダウンなどの障害につながることがあります。トラフィック監視をおこない、必要に応じてネットワークシステムの制御など適切な運用をおこなえばネットワークシステムの安定稼働が可能です。
空調監視
空調監視はデータセンター内の温度を適正範囲内に保つための業務です。データセンターは全体に冷気が行き渡り、冷却箇所に偏りがないようにする必要があります。そのためには室内の複数箇所の温度を常に監視する必要があります。空調管理が適切におこなわれていないと、局所的な高温部が発生して機器異常の原因になる可能性もあるでしょう。さらには電気代が高額となる恐れもあります。空調監視は、外気温や室内温度・機器の稼働状況や空調機の処理能力などの要素を把握したうえで、フレキシブルな対応をおこなうべきです。
その他の非定型業務
業務の改善
リスク対策の基本は発生した異常やトラブルを最小限に抑えるシステムを構築することと、起こりうる異常やトラブルを未然に防ぐシステムをあらかじめ構築しておくことです。データセンターの業務改善はシステム全体の自動化、異常やトラブルの概括化、異常やトラブルの際の手順の標準化、システムの可視化を目的におこなわれます。
コスト削減
日本のデータセンターの電力コストは諸外国と比較して相対的に高くなっています。実例として、日本のある大手企業の大規模データセンターは日本国内ではなく、米国に建設されています。電力コストの削減はデータセンターを運営する企業にとって共通の課題です。無駄な電力消費を抑え、効率的に電力を使用するためには機器更新の際にサーバーを高効率かつ省電力タイプのものに切り替えると良いでしょう。寒冷期に外気を利用して空調をおこなうような多角的視点が必要です。
まとめ
データセンターに求められる機能は恒常的かつ安定的なものです。今回はデータセンターで取り組んでいる死活監視・機器監視・トラフィック監視・空調監視の4つの運用監視業務について紹介しました。データセンターは運用監視業務をおこなうことでシステムの正常稼働に努めています。そのうえで、断続的に業務改善やコスト削減に取り組むことで持続的な運営をおこなう努力をしています。データセンターを選ぶ際はどのような運用監視業務体制か確認することが重要です。また、業務改善やコスト削減の取り組みなどを総合的に判断しましょう。