KINTOテクノロジーズにおけるPagerDutyの導入や検討について
KINTOテクノロジーズ株式会社 / 島村純平
EM / インフラエンジニア / 従業員規模: 301名〜500名 / エンジニア組織: 101名〜300名
利用プラン | 利用機能 | ツールの利用規模 | 事業形態 |
---|---|---|---|
Business | IncidentManagement | 101名〜300名 | B to C |
利用プラン | Business |
---|---|
利用機能 | IncidentManagement |
ツールの利用規模 | 101名〜300名 |
事業形態 | B to C |
アーキテクチャ
アーキテクチャの意図・工夫
- 複数の監視ツールのアラートをまとめて通知しています
- インシデント発報は、CallだけではなくSlackなどにも通知して反応しやすく、JIRAでチケット管理も一括で行うことができます
導入の背景・解決したかった問題
導入背景
※PagerDutyはサービス立ち上げ当初から導入しているため、2021年の入社前のことなどはヒアリングなどで補っています。
ツール導入前の課題
サービス立ち上げ時期においては、インシデント管理を行う体制・環境を構築する必要があります。 KINTOテクノロジーズでは、初期は少ない人数でサービスを作っていったため、コスト・手間をかけずに環境を準備する必要がありました(当時は監視担当者が1名)。また、BtoCのシステムであることから、インシデント管理担当者は24/365でアラートを受ける想定でした。
どのような状態を目指していたか
- 24/365での監視・インシデント管理を構築すること
- インシデントの対応自動化というところまでは少人数のため目指さない
比較検討したサービス
導入当時
なし
しばらくしてから、ツールの再検討時
- AWS IncidentManager
- 導入後にしばらくして、AWS IncidentManagerがGAされた際に、移行可能かの比較検証を実施
比較した軸
PagerDutyで機能がある
- OnCall Schedule(Rotate)
- Escalation
- 一時的なオンコール担当者の上書き
ができること
選定理由
- PagerDuty導入後にインシデントマネージャと比較した時点では、エスカレーション周りの機能がAWSインシデントマネージャーでは不足していたこと
- 現在は担当者のローテーション、エスカレーションの設定が可能
- 監視ツールであるAWS Managed Grafana / OpenSearchServiceからのアラート通知がAWSインシデントマネージャーでは容易ではないこと
- PagerDutyでは、プルダウンで連携先としてPagerDutyがあるので、設定が容易
導入に向けた社内への説明
上長・チームへの説明
導入時は、そもそも、管理体制ができていないということに加えて
- 担当者にナレッジがあること(前職で使用していたこと)
- サービス立ち上げに合わせて迅速に準備する必要があること
を説明しました。
特に人数が少ないということから、架電やSlackの対応では見落としなどが発生するということもあり、SaaSでの運用を提案しました。
活用方法
よく使う機能
- IncedntManagement
- CloudWatch/OpenSearch/Grafanaからのコールを通知する設定をしています
- 現状ではインシデント件数が少ないことから、定期的な指標のレポートなどはしていません
ツールの良い点
Integrationsが豊富であり、監視ツールなどの選択幅が広いこと
- 使用中のツールを変更する場合、検討・移行しやすい
TerraformのProviderが公式で存在する
- サービスごとの管理をIaCで管理しやすい
営業時間や重要度でコールタイミングを変更できる柔軟性
担当者のシフト設定の容易さ
- 一時的な上書、変更、通知しないなどが簡単にできる
ツールの課題点
- インシデント管理だけ利用だと価格が高いこと
- RunbookなどAddOnが必要なものが多い
- Callが英語だけなので、とっさにレスポンスしづらい
- Slack連携・MobileAppも導入して緩和しています
ツールを検討されている方へ
監視専任チームと開発・運用チームが分離している場合は、アカウントも少ないので、AddOnなどで監視のフィルタリングやノイズ除去を上手く使うことで、運用管理は容易になるのでは?と思います。
開発チームがアラートを受けるような場合は、不要な監視を監視設定側で除外するとかの活動になっていくので、AddOnも少なく運用できるのかなと考えています。
現時点では、Integrationsが多く既存からの移行がしやすいことも含め、インシデント管理では選択肢に入るツールだと思いますので、困っている場合は検討いただければいいのかなと思います。
今後の展望
もう少し使い倒したい(WorkflowやAnalysis)ということは考えているのですが、インシデント数が多くなければ、費用対効果が見合わないので、検討中です。
KINTOテクノロジーズ株式会社 / 島村純平
EM / インフラエンジニア / 従業員規模: 301名〜500名 / エンジニア組織: 101名〜300名
よく見られているレビュー
KINTOテクノロジーズ株式会社 / 島村純平
EM / インフラエンジニア / 従業員規模: 301名〜500名 / エンジニア組織: 101名〜300名
レビューしているツール
目次
- アーキテクチャ
- 導入の背景・解決したかった問題
- 活用方法