3章 アラート、オンコール、インシデント管理
アラート
障害に気づくのにアラートは重要な機能
アラートがないと障害に気づくためにずっとグラフを眺め続ける必要がある
アラートについては2つの意味で使い分けている人が多い
- 誰かを叩き起こすためのアラート
- 緊急の対応を求められ、でなければシステムがダウンしてしまうもの
- 電話・テキストメッセージなどの方法で送られる
- 例: webサーバーのダウン、メインサイトへの疎通が取れない
- 緊急の対応を求められ、でなければシステムがダウンしてしまうもの
- 参考情報としてのアラート
- すぐに対応する必要はないが、アラートが来たことは誰かが確認するべきもの
- 例: 夜間のバックアップジョブが失敗した
良いアラートの仕組みを作る6つ上げる
- アラートにメールにつかうのをやめる
- すぐに応答かアクションが必要なアラート
- SMS,PagerDutyなどのページャに送る
- 注意が必要だが、すぐにアクションが必要ないアラート
- 社内のチャットルームに送る
- 履歴や診断のために保存するアラート
- ログファイルに送る
- すぐに応答かアクションが必要なアラート
- 手順書を書く
- 固定のしきい値を決めることだけが方法ではない
- 固定のしきい値にすると、一晩でディスク容量が一気に減るといったケースに対応できない
- アラートを削除し、チューニングをする
- アラートに対応する必要がないなら、消すなどをする
- メンテナンス期間を使う
- メンテナンス期間はアラートを一時的に無効化する
- まずは自動復旧を試す
- 既知でかつ用意された手順に沿って対応するなら、コンピューターにやらせて自動復旧をまず試す
オンコール
なにか問題が起きたときに呼び出しに答える担当のこと
インシデント管理
インシデント対応のときの役割
- 現場指揮官(IC incident commander)
- 決断をする
- 顧客や社内のコミュニケーション調査に関わらない
- サービス停止に関する調査を監督する役割
- スクライブ(scribe)
- 起こったことを記憶する
- 誰が何をいつ行ったか、どんな決断されか、どんなフォローアップをすべき事項が見つかったのかを記憶する
- SME(subject matter expert)
- 実際にインシデントに対応する人