一万台のサーバを安定して運用するための次世代監視基盤(アイレット株式会社)
アイレット株式会社 / Liang Yee Wong
ツールの利用規模 | ツールの利用開始時期 | 事業形態 |
---|---|---|
301名〜500名 | 2019年 | B to B |
ツールの利用規模 | 301名〜500名 |
---|---|
ツールの利用開始時期 | 2019年 |
事業形態 | B to B |
アーキテクチャ
アーキテクチャの意図・工夫
監視ツールから上がったアラートはPagerDutyに登録され、AMSに連携されます。 AMS[*]が動作確認や復旧対応を行なった上で、対応結果をチケットシステムに連携し、クローズする。 有人対応が必要な場合は、PagerDuty上でインシデントが引き継がれます。
[*]AMS:https://www.pagerduty.co.jp/blog/automated-primary-response-iret
導入の背景・解決したかった問題
導入背景
アイレットとは
アイレット は「cloudpack」というクラウドの設計・開発・構築から、運用保守までトータルサポートするフルマネージドサービスを提供しています。 cloudpack の運用監視サービスでは、お客様の様々なクラウド環境を中心としたワークロードに対して、24時間365日体制での監視と一次対応を実施しています。 このサービスの基盤は、PagerDutyと監視業務の一次対応を自動化する内製ツール「AMS」を組み合わせることで実現しています。現在では10,000台を超えるサーバーに対して運用監視を行うまでに成長し、「次世代監視基盤」と呼んでいます。
PagerDuty導入前の状態
- 各監視ツールから通報されたメールをひとつずつMSPメンバーが対応していた
- 不要なものは手動で除外し、必要なものは別途用意された手順書を確認し、障害対応をしていた
PagerDuty導入前の課題
- メールを使用したアラート対応では、状況の可視化と拡張性がない
- アラート対応の履歴が残らない
- 事業拡大に伴うアラート数の激増に関連して、MSPメンバーの負荷が増加していた
どのような状態を目指していたか
- オブザーバビリティツール含む様々なツールからのアラートを集約し、シームレスにインテグレーションできるようにしたい
- 不必要なアラートをフィルターしたい
選定理由
- 700+の拡張性を持ち、色々なツールとのインテグレーションが可能であること
- インシデント履歴が残るため、データ分析が可能になること
導入の成果
改善したかった課題はどれくらい解決されたか
PagerDutyを導入したことで、以前は各監視サーバーやオブザーバビリティツールから個別に受信していたアラートメールが、PagerDutyのGUIに集約されるようになりました。
どのような成果が得られたか
- 直近2年間で、運用工数を年間約1000人月削減
- インシデント対応履歴を分析・可視化し分析結果に基づいた対応を実施
- 自動化の導入により、オペレーターの対応品質やサービスレベル目標の達成率が改善された
導入に向けた社内への説明
上長・チームへの説明
当時はパブリッククラウド市場の成長に伴い、cloudpackの事業も拡大しMSPのアラート対応件数は飛躍的に増加しました。 PagerDutyは拡張性が高く、自動化ツールや分析ツールとの連動も容易なため、将来的なアラート件数の増加にも柔軟に対応できると判断し、導入を推進しました。
活用方法
よく使う機能
- REST Api
- Event Orchestration
- Incident Workflow
ツールの良い点
- GUIが充実している
- コンソールでの操作はハードルが低く、ラーニングカーブが低い
- ドキュメントが充実している
- インシデント管理に対するノウハウが豊富で、Saas自体の利用マニュアルはもちろん、運用に関連するフィロソフィも備えている
- オブザーバビリティツールとのシームレスなインテグレーション
- 上記2点のおかげで各インテグレーションや設定はスムーズに調整可能
- モバイルアプリの機能も充実し、操作しやすい
- PagerDuty Advance のAI集約機能はSlackから利用可能であり、後からジョインした担当は状況を素早く把握しインシデント対応に貢献可能
ツールの課題点
オンコールやエスカレーションなどスケジュール機能の設定面で柔軟性がやや欠けている
- 複数レイヤー設定、オンコールローテーション機能などは豊富だが、複数人オンコールが必要な場合は、複数のスケジュールを作成する必要があり、設定の手間が増える。
- エスカレーションポリシーに連動しているため、オンコールメンバーを自動的に交代させることはできるが、GUIの操作性は自由度が低く、操作には慣れが必要となる。
- 運用メンバー全員が仕組みを理解していれば利用可能だが、組織それぞれの特徴に適した運用を行うには、設定面で調整に時間が必要になる。
ツールを検討されている方へ
PagerDutyはインシデントの管理と運用に不可欠のツールだと思います。
アラートは全て一つの画面に集約され、各環境の状況を一括で確認できるため、可視性がかなり高まります。
アラートのトリアージとオンコールの自動化機能は充実しており、人力のコストを抑えつつ、さらなる自動化を組み込めるプラス循環を生み出すことも可能です。
その他、アイレットが提供する「cloudpack」ではPagerDutyの導入とコンサルティングも可能です。検討されている方はご気軽にお問い合わせください!cloudpack公式サイト
より詳細な内容はアイレットの PagerDuty On Tourの講演をご参考いただけますと幸いです。
今後の展望
PagerDutyの機能をさらに使い倒し、よりスムーズなオペレーションを築くため、今後も様々な方向性を探っていきます。
例えばPagerDuty AdvanceのAI集約機能を活用したインシデント対応の迅速化、ポストモーテムの自動作成は、分析の効率化の面でも更なる運用の改善が期待されます。
これらの取り組みを通じて、オペレーションの自動化を素早いスピードで推進してまいります。
アイレット株式会社 / Liang Yee Wong
よく見られているレビュー
アイレット株式会社 / Liang Yee Wong
レビューしているツール
目次
- アーキテクチャ
- 導入の背景・解決したかった問題
- 活用方法