9章 ネットワーク監視

ネットワークの動きやパフォーマンスは、これに依存するいろいろなもののパフォーマンスの基礎になる
ネットワークがスリーナイン(99.9%)の可用性を維持する能力しかないなら、アプリケーションのフォーナインの可用性を実現できない

ネットワーク監視はSNMP(Simple Network Management Protocol)を使うしかない

監視する項目について

帯域幅…
ある接続から一度に送れる理論上の最大情報量

スループット…
ネットワークリンクの実際のパフォーマンス
MPLSなどのカプセル化を行うとスループットが下がる
帯域幅の60%しかでなかった場合などはどこかに問題を抱えている可能性がある

レイテンシ…
パケットがネットワークリンクを通じてやり取りされるのにかかる時間

エラー…
以下のエラーが該当する

電気的干渉・送受信機やケーブルの欠陥はCRCエラーとキャリアエラーから監視できる

ジッタ…
あるメトリクスの通常の測定値からの狂い
ネットワークの世界ではレイテンシに使われることが多い

ネットワークデバイスの構成…
RANCIDを利用しバージョン管理する

ルーティング…
スタティックルーティングはリンクとルート越しにトラフィックが流れるかどうかを監視
ダイナミックルーティングプロトコル(OSPFとBGP)の監視
OSPF
アジャセンシの変更

BGP

スパニングツリープロトコル(STP)…
スパニングツリーの変更はネットワークで急に大規模な障害を引き起こす可能性がある
ルートブリッジが変わったのはいつか、プロトコルのコンバージェンスがいつかの2つをのみ

シャーシ(内部の装置とかのことかな)… CPU
基本的にベンダが進めない限りはアラートを送らない

ハードウェア
コールドスタートが起きたのかは重要