SODAにおける PagerDuty を利用したインシデント管理
株式会社SODA / decoch
EM / EM / 従業員規模: 301名〜500名 / エンジニア組織: 11名〜50名
ツールの利用規模 | ツールの利用開始時期 | 事業形態 |
---|---|---|
11名〜50名 | 2022年6月 | B to C C to C |
ツールの利用規模 | 11名〜50名 |
---|---|
ツールの利用開始時期 | 2022年6月 |
事業形態 | B to C C to C |
導入の背景・解決したかった問題
導入背景
ツール導入前の課題
以前は緊急のアラートをSlackのグループメンションを利用していました。タスクに集中している時や深夜においては、Slackやメールの通知が埋もれてしまうことが多く、重要なアラートが見過ごされる可能性があり、特定の担当者に負荷が偏ってしまう問題もありました。
どのような状態を目指していたか
オンコールスケジュールの管理ができ、オンコールの負荷が分散すること、全てのアラートが確実に担当者に届き迅速に対応をできることを目指していました。
選定理由
1. 簡単な連携
主に使用しているDatadogとのインテグレーションがあり、簡単に連携できたことが非常に大きなポイントでした。
2. オンコールスケジュールの管理の容易さ
オンコールスケジュールの作成や変更、確認が簡単であり、公式サイトのドキュメントやブログが充実していたため、導入後の運用もスムーズに進められました。
3. イニシャルコストがないこと
テスト利用が無料でできたため、導入前に試用できたことも安心して選定できた理由の一つです。
導入の成果
オンコールスケジュールの管理、電話での通知を自動化することで緊急時の対応が分散され、対応漏れを防ぐことができています。
導入時の苦労・悩み
導入時にはいくつかの課題がありました。特にSODA社内で運用をしている、RunbookやPlaybookの整備には時間がかかりました。担当者のノウハウをドキュメント化し、全員が対応できるようにするために、最初の数回は経験豊富な担当者が伴走し、フォローを行う必要がありました。
導入に向けた社内への説明
上長・チームへの説明
セキュリティアラートに即座に対応することの重要性を上長・チームが理解をしていたため導入は迅速に決定をすることができました。
活用方法
開発チームで、オンコール対応のインシデント作成、オンコール担当者のスケジュール管理に利用をしています。
よく使う機能
1. Incidents Management
Datadog で値が超えると Slack と PagerDuty に通知が来る設定をして、各担当者に通知がいくようにしており、インシデントレベルが High の場合に電話が来るようにしています。
2. On-Call Management
オンコールのスケジュール管理と、社内の問い合わせ担当のスケジュール管理に使っています。各曜日にチームを割り当てて、オンコールメイン、オンコールサブをローテーションするようにしています。 また、Google カレンダーと同期をさせて PagerDutyの権限がない人も確認できるようにしています。
ツールの良い点
いままでオンコールのローテーションを毎回時間を作って決めていたが PagerDuty に移行したことで自動でローテーションするようになりましたし、オンコールの負荷を分散することができました。
ツールの課題点
特に夜間に対応をすると「急に電話が来て、英語で話しかけられる」みたいなところは寝ぼけた頭だと少し大変という声を聞きます。「この障害が起きてるよ!今すぐ対応して!」みたいに具体的に電話口で教えてくれたらとても理想的だと思います。
ツールを検討されている方へ
サービスは常時稼働していることが前提であるため、オンコール担当を適切に設定することで、運営の負荷を分散し、致命的なインシデントを見逃すことなく対応する体制を整えることができます。 信頼性の高いサービス運営を目指す企業にとって、PagerDutyは有力な選択肢の一つとして検討する価値があると思います。
今後の展望
アラート前に社内やユーザーの問い合わせでインシデントが発覚することがあるため、アラートがそれなりに充実していないと拾えるアラートが少ないため今後もっと拡充をしていきたいと考えています。 便利な機能はたくさんあるけど活用がまだできていない物が多く、今後 Postmortems を利用してポストモーテムのタイムライン管理、分析の改善につなげていきたいと考えています。
株式会社SODA / decoch
EM / EM / 従業員規模: 301名〜500名 / エンジニア組織: 11名〜50名
新卒でビズリーチに入社し、2019年にスタートアップのBrhinoに転職。フリーランスを経て現職のSODAに入社。現在はエンジニアリングマネージャーとして採用や組織づくりに携わっています。
よく見られているレビュー
株式会社SODA / decoch
EM / EM / 従業員規模: 301名〜500名 / エンジニア組織: 11名〜50名
新卒でビズリーチに入社し、2019年にス...
レビューしているツール
目次
- 導入の背景・解決したかった問題
- 活用方法