PagerDuty Operations Cloudの導入効果をレビューでご紹介(ニフティ株式会社)
ニフティ株式会社 / 熊谷 哲良
メンバー / バックエンドエンジニア
利用プラン | 利用機能 | ツールの利用規模 | ツールの利用開始時期 | 事業形態 |
---|---|---|---|---|
Business | オンコール, AIOps, モバイルアプリケーション | 11名〜50名 | 2023年4月 | B to C |
アーキテクチャ
アーキテクチャの意図・工夫
導入前は基本的にslackまたはメールでアラートを受け取っていました。 ほとんどのツールはインテグレーションが用意されているので、インテグレーションを使ってPagerDutyに連携しました。 メールで通知していたアラートは、メールの送信先をPagerDutyにすることで、その内容を元にアラートを作れるので、メールの送信先を変えるだけで移行しています。 上記の方法ですべてのアラートをPagerDutyへ連携できたので、アラートの一元管理と架電対応を実現できています。
導入の背景・解決したかった問題
導入背景
ツール導入前の課題
- システム担当への障害発生連絡をチャット通知、監視担当の電話連絡で行っていた
- 見落としが増加
- TTAが増加
- システムの依存関係がわからず影響が見えない
- インシデント管理・分析が出来ていない
どのような状態を目指していたか
- 障害発生通知が自動で確実に行われる
- 関連システムへの障害影響を推測しやすくなる
- インシデント管理・分析が可能になる
比較検討したサービス
- Grafana Oncall
- AWS Incident Manager
- 24,365有人監視
比較した軸
- ドキュメント量
- 参考になる事例量
- モニタリングツールとの連携
選定理由
- モニタリングツールに縛られないため、各チームにツール選定権がある弊社に合っていた
- 採用企業が多く事例が多い
導入の成果
- 障害発生通知が自動で確実に行われる
- PagerDutyへのアラート連携率の上昇とともに改善傾向
- 障害影響を推測しやすくなる
- 導入システムの増加段階にあり解決が見込まれる
- インシデント管理・分析が可能になる
- 時間周りの分析では解決が見込める状態である
- ドキュメンテーションにおいては他ツールに利があり、インシデント内容に深く踏み込んだ分析は手探りな状態である
導入時の苦労・悩み
- テクニカルサービスをどのような粒度で登録するか
- 導入前のTTAを計測できていないため、導入効果を定量的に説明しづらい
- アラートが多く困っているチームはPagerDutyを新規に導入する余裕もないことが多い
- TTAを改善するプロジェクトチームを立ち上げ、代理で設定を行い対応
- Slackによるコミュニケーション、NotionによるドキュメントとPagerDutyの使い分け
導入に向けた社内への説明
上長・チームへの説明
- 3チームに検証導入を行い、下記を実施し説明根拠を収集
- 障害対応ロールプレイング
- 利用者アンケート
- 数回の実際の障害での利用
- 障害発生の通知に課題があるため何かしらのツールの導入を早急に行う必要がある認識があり、迅速に決定できた
活用方法
メインはオンコールシフトとエスカレーションポリシーを使ってアラートを受ける用途で使用しています。 また、シフトは基本ローテーションですが、休暇等でアラートを受けづらいことが事前にわかっているメンバーがいる場合は、オーバーライド機能を使って、取れるメンバーでスケジュール調整しています。 アラートの受け方は、メンバーに委ねていますが、high-urgencyのアラートは電話連絡することは必須にしています。 定期的な利用シーンだと、1~2週間程度の間隔で、インシデントの発生状況や、MTTA、MTTRなどを確認しています。
よく使う機能
オンコールシフト、エスカレーションポリシー
- この2機能だけで誰がオンコール担当するか、どの順番で通知するかを簡単に設定できるので、アラートを受けやすい状況を維持できていると思います。
Incidents
- アラートが出た際にインシデント状況を確認するために使用しています。
- 主に何の機能でどのレベルのアラートが出ているのかを確認しています。
モバイルアプリ
- 出先でアラートの確認、シフトの確認に使用しています。
ツールの良い点
- オンコールの管理が簡単にできる
- シフトのローテーションで組める
- シフトを上書きできるので不規則なパターンも管理しやすい
- ラウンドロビンで通知できるので誰かが気づける
- 振り返りに必要な情報がまとまっている
- MTTA, MTTRが記録されている
- タイムラインが残る
- サービスの依存関係をマッピングできる
- サービスとアラートが紐づくので障害ポイントが視覚的に確認できる
ツールの課題点
- 基本的なオンコール機能の設定は簡単だが、それ以上の機能の設定はやや複雑
- 電話が英語なので、初めてアラートを受けるメンバーが混乱しがち
ツールを検討されている方へ
ほとんどのツールのインテグレーションが用意されているので、既存のアラートを電話連絡したい、シフト管理したいケースはPagerDutyを導入することで改善されると思います。 また、アラートや障害を一元管理できるので、担当者の負担も軽減されると思います。
今後の展望
アラート連携とオンコールシフト、エスカレーションポリシーを設定まで済むと、オンコールとアラート管理の問題はある程度改善されるので、それ以上のオートメーション機能やアナリティクス・ダッシュボードまで活用しきれていない状況です。 今後は障害発生後のアクションに関する設定と、アナリティクス・ダッシュボード、インサイトなどの分析機能をうまく活用していきたいです。
ニフティ株式会社 / 熊谷 哲良
メンバー / バックエンドエンジニア
よく見られているレビュー
ニフティ株式会社 / 熊谷 哲良
メンバー / バックエンドエンジニア
レビューしているツール
目次
- アーキテクチャ
- 導入の背景・解決したかった問題
- 活用方法