【インフラエンジニア】監視・運用業務の障害事例を集めてみました！

2024.07.12

ITインフラにおける監視・運用業務は、システムの安定稼働を支える重要な役割を担っています。
しかし、エンジニア未経験の人にとっては、監視・運用業務で普段どのような障害が発生しているかイメージしづらい人もいるのではないでしょうか。

そこで本記事では、監視・運用部門がどのような障害に対応しているのか、現役のインフラエンジニアが実例をもとに解説します。

インフラエンジニアの監視・運用業務とは

はじめに、インフラエンジニアの監視・運用業務について解説します。
インフラエンジニアの監視・運用業務は、システムの安定した稼働を確保するための基盤を支える重要な役割です。
これらの業務は、システムの監視、障害発生時の対応、定期的なメンテナンスなど、多岐にわたります。

監視・運用業務の役割と重要性

監視・運用業務は、システムの安定稼働を支えるための重要な仕事です。
これらの業務は、システムの状態を常時監視し、異常が発生した場合に即座に対応することを目的としています。
システムがダウンすると、ビジネスに多大な影響を及ぼす可能性があるため、迅速かつ正確な対応が求められます。

例えば、企業のWebサイトが動いているサーバーに障害が発生した場合、その障害中は企業HPを閲覧できない状態となります。
これにより、企業のブランドやイメージの損失、機会損失などに繋がる恐れがあります。
また、ECサイトなどを運用している場合は、企業の利益に直結するような損害が発生します。

このような被害を最小限に抑えるために、インフラエンジニアはシステムの動作状況をリアルタイムで把握し、異常が発生した場合には直ぐに対応する必要があります。

監視方法・アラートの仕組み

次に、インフラエンジニアがどのようにIT機器を監視・運用しているか解説します。

監視には、ZabbixやMackerelなどの監視ツールを利用します。
監視・運用業務では、常時100台以上のサーバーを監視することが一般的です。
そのため、監視ツールを利用して各サーバーの状態を一元管理しています。

監視ツールに監視対象のサーバーのIPアドレスやMIB情報の登録、サーバー側にも監視ツール側のエージェントをインストールし、常時監視を行います。

次に、アラートの仕組みについてです。
監視システムが異常を検知すると、アラーム音と共にパトランプが点灯し、エンジニアへ通知します。
アラートの設定は非常に重要で、適切な閾値を設定することで、過剰なアラートや見逃しを防ぐことができます。

例えば、サーバーのCPU使用率が80%を超えた場合にアラートを発する設定にすることで、エンジニアは迅速に対応を開始できます。また、アラートの内容には、発生時刻や対象システム、具体的な異常内容などが含まれるため、エンジニアは必要な情報を迅速に把握することができます。

このように、監視ツールとアラート設定を適切に実施することで、システムの安定稼働を維持し、障害発生時の対応を迅速に行うことができます。

実際に起きた障害事例を紹介

監視・運用業務において、実際にどのような障害が発生しているのでしょうか。
ここからは、実際に発生した障害事例をいくつかご紹介します。

機器の経年劣化による故障

機器の経年劣化による故障は、最も一般的な障害の一つです。
ハードウェアは長期間使用されると、劣化が進み、故障のリスクが高まります。

サーバーなどの機器は、通常5年〜7年程度で性能が落ち、故障しやすくなります。
また、これらの機器は精密機器であり、ハードディスクやチップ、ポート、電源部、ファンなど様々な部品で構成されています。
このように、サーバー1台に対して故障箇所が複数存在します。
機器の故障による障害時は、対象機器と故障箇所を迅速に特定することが重要です。

しかし、機器や部品の故障は毎日起きるわけではありません。
筆者の場合は、監視対象機器が1,000台ほどの現場で月に2〜3回程度の頻度でした。

作業ミスによる障害

作業ミスによる障害も発生します。
エンジニアが手動で行う作業には、常にミスが付き物です。

誤ってルーターの設定削除をしてしまった、プログラムのバグにより企業HPが見れなくなった、開発環境サーバーで作業するはずが本番環境で実施してしまったなど、様々なことが要因で障害が発生します。

特に、自部署が原因で発生した障害は対応がすぐできますが、他部署起因の障害の場合、当人が気づいていないことや監視部門側も状況が分からずに障害が長期化してしまうことになります。

クライアント側作業による障害

クライアント側で行われる作業も、しばしば障害の原因となります。

例えば、クライアント側がシステムの設定を独自に変更した結果、全体のネットワーク構成に不具合が生じ、サービスが停止する、クライアント側建物の停電作業でサーバーの電源が落ちるなどの事例がありました。
他にも、クライアント側が負荷テストとして大量のパケットをネットワーク内に流し込みをしてくる場合や、ネットワークループを起こしてしまう場合などもあります。

このようなケースでは、クライアントとエンジニアとのコミュニケーションが重要です。
クライアントが独自に行う変更作業は、予期せぬトラブルを引き起こすリスクが高いため、事前に情報共有をしてもらうなど理解を深めてもらうことが重要です。

自然災害

自然災害による障害も発生します。
具体的には、落雷・地震による停電や洪水による浸水などです。
また、落雷においては停電だけでなく、逆流電による被害も発生します。
落雷により電源を供給している電源部や基盤部分に電流が流れ込み、故障となるケースです。

特に日本では、豪雨・台風による被害は毎年発生しており、梅雨や台風シーズンに合わせて人員を増員させることもあります。
このような災害時には、1日で数千件のアラームや数十件の故障が発生するため、障害の見逃しや迅速な障害対応が重要です。

鳥獣被害

発生数は少ないですが、鳥獣被害による障害も度々起こります。
例えば、通信ケーブルをネズミが噛むケースや、配電盤に侵入してショートを引き起こすケースが挙げられます。
こうした事例は、山間部の小さな設備や、屋外に設置されている機器に対して発生しやすいです。

企業としては、ケーブルや配電盤の定期チェックや、ねずみの生息調査として捕獲機などを設置して対応しています。

実障害でないアラートも

監視システムが発するアラートは、必ずしも実際の障害を示しているわけではありません。
誤検知や設定のチューニング不足、作業アラートなども頻繁に発生します。

例えば、監視システムがサーバーの過負荷アラート発生時、現場ではバックアップ作業中で一時的に負荷が上がっただけという事例もあります。
他にも、サーバーの一時的な負荷により監視ツールからの応答ができず、監視ツール側が機器障害と判断するパターンもあります。

インフラエンジニアは、これらのアラームに対しても実障害か誤検知によるものかを適切に判断しなければなりません。
判断を見誤ると、クライアント側に誤情報を流してしまう場合や、逆に通知が遅れてしまう場合もあります。

まとめ

本記事では、監視・運用業務の基本から、実際に発生した障害事例までを詳しくご紹介しました。

監視業務では、機器の経年劣化、作業ミス、クライアント側作業、自然災害、鳥獣被害、そして実障害でないアラートなど、さまざまな障害が発生します。
インフラエンジニアは、これらの障害に対して原因や被害状況を適切に把握し、迅速な対応が必要となります。

本記事を通じて、インフラエンジニアの監視・運用業務について理解を深めて頂ければ幸いです。

もし、インフラエンジニアへのキャリアを目指している場合は、転職エージェントの利用がおすすめです。
エンジニア専門の転職エージェントはIT業界の動向や企業の内部事情を把握しており、一般には公開されていない求人情報も持っています。
そのため、自分の条件にぴったり合った求人を見つけることが可能です。

▼おすすめの転職エージェント比較ページはコチラ
エンジニアが利用したい転職エージェント比較

mirapura

記事一覧へ＞