PagerDuty Operations Cloudの導入効果をレビューでご紹介(morihaya-オイシックス・ラ・大地株式会社)
オイシックス・ラ・大地株式会社 / morihaya
開発部長 / インフラエンジニア / 従業員規模: 1,001〜5,000名 / エンジニア組織: 51名〜100名
利用プラン | ツールの利用規模 | ツールの利用開始時期 |
---|---|---|
Business | 11名〜50名 | 2018年 |
アーキテクチャ
アーキテクチャの意図・工夫
かなりサービスの歴史が長いことと、物流側のシステムではオンプレが入っていたり、サービス統合を行っていたりする関係でMackerel、Nagios、Papertrail、New Relic、Datadog、Zabbixなど複数のサービスの情報をPagerDutyに渡している。それぞれのアラートをPagerDuty1つに集約することで、見るツールを1つにできている点。また、PagerDuty自体もTerraformで管理することで、Infrastructure as code(IaC)のメリットを享受している点。
導入の背景・解決したかった問題
導入背景
国内のMSPにシステムの監視と初期対応を依頼していたが、チームメンバーの体調不良や休暇取得時などにオンコールローテーションを柔軟に変更できないことや、通知先や通知方法の変更の手続きが煩雑だったことが課題として挙げられ、2018年ごろにPagerDutyの検討を開始した。
比較検討したサービス
MSP
選定理由
- メンバーの1人がPagerDutyの知見が多少あったこと
- 当時のインシデント管理サービスの大手としてPagerDutyを選ぶことに違和感はなかったため
導入時の苦労・悩み
オンコールを受けるメンバーへの説明は、インターフェースが英語であることが壁になったが、実際にモバイルアプリ操作を見せながらの説明や、通知先・方法・架電順番などの変更が簡単にできることが伝わると良いものであると反応をもらい導入を推進できた。
導入に向けた社内への説明
上長・チームへの説明
会社へはMSP費用のリプレースとしてコスト削減にもつながることを説明して理解を得ている。一方で、PagerDuty利用から5年ほど経過し利用者も増えてくると当時のMSP費用より多く見えるケースもあるが、インシデント対応の効率化によって価値は出ていると判断している。
毎年の更新について
特に比較はしておらず、必要経費として出している。PagerDutyがなくなるとシステムが止まった際に翌朝まで対応できなくなってしまうという伝え方をしている。会社としてインシデント対応の重要性に理解があるので運用工数との費用対効果などを細かく数値を出している訳ではない。
活用方法
よく使う機能
当社の主要ECサイト oisix.com , radishbo-ya.co.jp , takuhai.daichi-m.co.jp を構成するシステムにおいてDatadogやZabbixからのアラートをPagerDutyへ送っている。また物流倉庫やオフィスにある物理ネットワーク機器についてもPagerDutyにアラートを送って適切な部署に通知している。 また、インシデントについて対応が急でない場合にスヌーズすることで対応漏れを防いだり、オンコール担当者の休暇や前日の夜間対応の場合にオンコールを交代して使っている。
Incidents on All Teams: インシデントの画面
- 直近のインシデントの発生件数や、誰が対応しているかを確認
- インシデント削減の期間は毎週開催しているSRE定例で確認していた
My On-Call Shifts:自分のオンコールがカレンダーとしてわかる機能
- 旅行などの泊まり込みの予定を行う時にオンコールかどうかを確認できる
Subscription:利用人数やプラン、次回の支払日がわかる画面
- 年間更新のタイミングを確認
- 最小人数でやっているので、メンバーが増減があった際に、追加や削除をしないといけない。年間契約だが追加時は日割り計算になるため都度確認している。
ツールの良い点
インシデントを手軽に集約できる点
- 各種モニタリングSaaSとの豊富なインテグレーションで、簡単にアラートを集約できる。メールやAPIによる通知も可能で隙がない。
- インシデントが集約されることで、数年前までは1つ1つのSaaSのツールを見にいく必要があったところから、1つのサービスだけをみるため棚卸しがしやすくなった。
ブラウザやスマホアプリから自在にインシデント管理を行えるのが素晴らしい
- 以前MSPを利用しており電話とメールでしかアラートを受け付けていなかったが、アプリによって個人の中でも通知の優先順位(Pushしてだめなら電話など)を付けられる点
- オンコールの交代が簡単にできるため、休暇や疲労しているメンバーに”優しさのオンコール交代”ができる
- 例えば、個別設定で通知の方法をメール・電話で選択できたり、Push通知から反応がなければ5分後に電話ということも選択が可能
豊富で質の高いドキュメントがあり大体のことは解決できる点(ただし英語)
ツールの課題点
- 英語UI・ドキュメント
- 英語UI・ドキュメントが基本になるため、国内でのシェアを広げるには壁になるかもしれない。日本法人が設立されたことでの改善を期待している。
- ML・Automation プランについて
- MLやAutomationといった便利そうな機能がAdd-onとして追加コストが必要だが、特にAutomationは回数制限ありで標準のプランに加えてほしい。
ツールを検討されている方へ
私たちが導入時に検討を行なった2018年と異なり、GitLab、AWS、Datadogなど多くのプロダクトがインシデント管理に対応しているため、インシデントの一覧性とモバイルアプリは重要視した方が良いと思います。例えば夜中の3時にアラートで叩き起こされたときに、どういう設定、UI・UXになっているかを考えるとPagerDutyのモバイルアプリの操作や個人単位での通知コントロールなどの設定の柔軟さは素晴らしいです。
オイシックス・ラ・大地株式会社 / morihaya
開発部長 / インフラエンジニア / 従業員規模: 1,001〜5,000名 / エンジニア組織: 51名〜100名
SIerでネットワークエンジニアを2年、その後はインフラエンジニアとしてサーバや仮想基盤の管理を8年、株式会社カプコンへ転職しプライベートクラウドの管理やゲームタイトル付きインフラエンジニアとして3年、現職オイシックス・ラ・大地株式会社でSREとして5年ほどサービス運用に携わっています。
よく見られているレビュー
オイシックス・ラ・大地株式会社 / morihaya
開発部長 / インフラエンジニア / 従業員規模: 1,001〜5,000名 / エンジニア組織: 51名〜100名
SIerでネットワークエンジニアを2年、...
レビューしているツール
目次
- アーキテクチャ
- 導入の背景・解決したかった問題
- 活用方法