運用しているサービスがダウンしたとき
インフラエンジニア、中でも運用まで担当する場合の話です。
現場で運用をしていると、どんなに気をつけていても稀にサービスに障害が発生するということが起こります。
自分がユーザーとして使っているアプリやゲームがダウンしている、快適に利用できないといった経験、1度はしたことがあるんじゃないかなと思いますが、まさにその瞬間、その裏ではインフラエンジニアを中心にどうにか復旧させようという対応が行われていたりします。
そういった障害ですが、き...
っちり平日の9時 ~ 18時の間にだけ起こる、なんてことは当然ないので、深夜だろうが休日だろうが起こる時は起こります。 そうなった瞬間に業務スタート、そして如何に早く復旧させられるかの勝負になります。 そもそもその状態にならないことがベストなので、ハナからこの勝負に"勝利"は無く、とにかく如何に負けの影響を小さくできるか、という時間になりますし、事業的なダメージが大きいのもヒシヒシと感じますし、打ち手を間違うと更に悪化することもあります。 極めて精神的にプレッシャーが掛かっている状態にも関わらず、冷静に正確な判断を、かつ最速で出すことが求められる、という難易度の高い状況です。 その上勝利することもないので、とても大変な時間となります。