試験運用中のプロダクトにSLOを導入する
株式会社TOKIUM / 對馬克
メンバー / SRE / 従業員規模: 101名〜300名 / エンジニア組織: 51名〜100名
利用プラン | 利用機能 | ツールの利用規模 | ツールの利用開始時期 | 事業形態 |
---|---|---|---|---|
Datadog Pro | Logs、APM、dashboard、SLOなど | 10名以下 | 2025年8月 | B to B |
利用プラン | Datadog Pro |
---|---|
利用機能 | Logs、APM、dashboard、SLOなど |
ツールの利用規模 | 10名以下 |
ツールの利用開始時期 | 2025年8月 |
事業形態 | B to B |
アーキテクチャ

導入の背景・解決したかった問題
導入背景
ツール導入前の課題
従来のTOKIUMでは、システムの稼働状況を確認のデータとして、データベースの負荷状況やAWS ALBの5XXエラー率などを利用していました。
この方法は一定の効果をあげてはいたものの、データベース以外の問題に気づきにくかったり、重要機能にフォーカスして状況を確認することが難しい状況でした。
どのような状態を目指していたか
SLOを導入し、システムの信頼性を観測可能な状態を目指しました。 導入の第一歩として、試験運用中のプロダクトにSLOを導入することにしました。
比較検討したサービス
モニタリングは基本的にDatadogを利用しているため、他サービスとの検討は行なっていません。
Datadog SLOには以下3つの種類が存在しており、それらのいずれを選択するかを検討しました。
- metrics base SLO
- time slice SLO
- monitor base SLO
結果的には、metrics base SLOとtime slice SLOを併用して利用することにしました。
比較した軸
- SREの一般的プラクティスに準じたSLOを算出可能であること
- ダッシュボードで可視化可能であり、多種多様な形でビジュアライズができること
- SLOの数値が長期的保持可能であり、振り返りができること(少なくとも1年)
選定理由
time slice SLOと、metrice base SLOを並行運用することになりました。
以下が決め手となりました。
- time slice SLO :稼働率ベースでSLOが算出可能であり、マネージャーなどへの説明に利用しやすいこと
- metrics base SLO:エラー率をそのままSLOに反映可能なため、チームで品質を確認する値として適している点
monitor base SLOは、以下の理由から利用しませんでした。
- 複数のメトリクスからSLOを算出したい場合に利用するものという認識だが、そのようなニーズは存在しなかった
- 他2つのSLOと比較し、メトリクスの保持期間など様々な点で機能的に劣っていた
導入の成果
現在はサービスイン直後でユーザー数が少ない状態であっても、SLOがあることで重要機能の監視設定の不足に気づくことができました。
導入時の苦労・悩み
関係者への合意獲得 当初SREチームはtime slice SLOのみを導入することを想定していましたが、プロダクトエンジニアのレビューを経た結果、time sliceのみだと短時間のスパイクがSLOに反映されないことなどを指摘され、設計を見直す必要が出ました。
それぞれのSLOの違いのキャッチアップ time sliceとmetrics baseでは、SLOの算出方法に大きな違いがありますが、それらの違いを理解して比較検討することにもかなりの時間を要しました。
導入に向けた社内への説明
上長・チームへの説明
PO、SREチーム、プロダクトエンジニア、マネージャーの4者に対し、SLO導入で得られる効果や運用体制のイメージを説明しました。 SLOの導入に対する説明は必要でしたが、Datadog SLOを利用すること自体への反発はありませんでした。
活用方法
- 朝会で毎日SLOに違反していないかを確認する
- 違反していた場合は、チケットを発行し、違反に対する対処を行う
現在はサービスイン前であることを考慮し、一般的なSREのプラクティスよりも緩和した運用方法で利用しています。
よく使う機能
チーム内では基本的にmetrics base SLOを利用しています。 time slice SLO
ツールの良い点
- Datadog SLO自体には料金がかからない
- SLOのグラフからSLIに利用しているデータにシームレスにアクセスが可能であり、操作性が良い
ツールの課題点
- SLOはダッシュボードでのビジュアライズ方法が限られており、思ったよりSLOをさまざまな形で可視化できなかった
- SLO計算式の柔軟性:metrics base SLOはSLOの算出方法として分子/ 分母の形しかとれず、当初想定していた計算式を実現できなかった
ツールを検討されている方へ
以下に当てはまる方は、ぜひDatadog SLOは一考の余地があると思います。
- 既にlogsやmetricsなどをDatadogに収集している
- SLOの導入を検討している
Datadog SLO自体には料金がかからないので、まずは試しに設定してみて、組織として利用することを検討してみるのが良いと思います。
今後の展望
現在は一つのプロダクトにしか導入していないが、最終的にはTOKIUMの全プロダクトにSLOを導入することを目指しています。
株式会社TOKIUM / 對馬克
メンバー / SRE / 従業員規模: 101名〜300名 / エンジニア組織: 51名〜100名
よく見られているレビュー
株式会社TOKIUM / 對馬克
メンバー / SRE / 従業員規模: 101名〜300名 / エンジニア組織: 51名〜100名
レビューしているツール
目次
- アーキテクチャ
- 導入の背景・解決したかった問題
- 活用方法