サービスのリニューアルプロジェクトを契機としたオブザーバビリティの実現に向けたDatadogの導入について
株式会社エス・エム・エス / kaga
メンバー / SRE / 従業員規模: 1,001〜5,000名 / エンジニア組織: 101名〜300名
利用プラン | 利用機能 | ツールの利用規模 | ツールの利用開始時期 | 事業形態 |
---|---|---|---|---|
Proプラン | APM, Logs, Monitor, AWS Integration (Infrastructure), RUM, Error Tracking, Custom Metrics | 51名〜100名 | 2023年6月 | B to B |
利用プラン | Proプラン |
---|---|
利用機能 | APM, Logs, Monitor, AWS Integration (Infrastructure), RUM, Error Tracking, Custom Metrics |
ツールの利用規模 | 51名〜100名 |
ツールの利用開始時期 | 2023年6月 |
事業形態 | B to B |
アーキテクチャ
.png?disposition=inline)
導入の背景・解決したかった問題
導入背景
ツール導入前の課題
介護/障害福祉事業者向け経営支援サービス「カイポケ」のリニューアルプロジェクトを進めるにあたり、既存のシステムを複数のサービスから構成された分散システムとして再設計することになりました。このため、トラブルシューティングを現実的な時間・品質・コストで行えるようなオブザーバビリティを実現する必要がありました。
どのような状態を目指していたか
リニューアルプロジェクトに携わるSREメンバーが少数だったため、パフォーマンスの計測・改善だけでなく、各開発チームが自律的にトラブルシューティングやトリアージを行える体制を構築したいと考えていました。そのため、開発組織全体での利用を前提とし、導入時のSREチームの負担があまり大きくないこと、サービスと開発組織がスケールしても利用コストと運用コストが増加しすぎないことを目指しました。
比較検討したサービス
- Honeycomb
- New Relic
比較した軸
開発組織全体で利用していくという前提があったため、開発組織がスケールし利用者が増加したときのコストがどのように変化するのかというのは比較の際の大きなポイントでした。また、前述の通りリニューアルプロジェクトに携わるSREメンバーが少数だったため、初期導入時の負担 (テレメトリーデータの取得設定やダッシュボードの整備) という観点もツールを比較する際に考慮する材料となりました。
選定理由
- アカウント数の制約がなく、アカウントを払い出すための費用もかからないため、開発チームが監視・障害対応を行うための責務の移譲が容易だった点が挙げられます。これは開発組織全体でツールを利用していくというプロジェクトの方針に強くマッチしていたと感じています。
- サービスのIntegration設定により整ったダッシュボードが自動的に用意されるため、SREがゼロからダッシュボードを整備する負担がなく、導入のハードルが低いと感じました。
- 社内の別のプロジェクトでの導入実績があるため、そこで得られた知見が私達のプロジェクトにも活用できると判断しました。
- リニューアルプロジェクトで採用している技術スタックに対し、AgentやSDKが既に対応しており、必要な機能が揃っていることを検証にて確認することができました。
導入の成果
改善したかった課題はどれくらい解決されたか
各開発チームが自主的にAPIのレイテンシやエラーレートのチェックを行ってくれており、オンコールアラートにも対応してくれています。結果として、導入前の課題であった「現実的な時間・品質・コストでトラブルシューティングができるオブザーバビリティ仕組みの構築」は解決されつつあると感じています。
どのような成果が得られたか
前述の通り各開発チームが自律的に運用できる体制を目指しており、テレメトリーデータやエラーの確認を各開発チームが行ってくれています。責務の移譲による影響かはわかりませんが、オブザーバビリティに関する本質的な学習を行いたいとの声があがり社内での輪読会が始まったり、開発チームからDatadogの新機能を試してみたいといった要望があがってくるようになり、特定のチームに依存しない良い開発体制が維持できているというのが成果の1つであると感じています。
導入時の苦労・悩み
ツールの導入時にはコストの見積もりが発生しますが、Datadogは機能単位でコストが変わってくるため、ある程度精緻な金額を出すために苦労しました。
導入に向けた社内への説明
上長・チームへの説明
導入時点で私はまだ入社していませんでしたが、リニューアルプロジェクトのSREチームが機能・コスト比較やトライアル検証を経て、本番導入をリードしてくれました。当時はまだ開発フェーズであったためデータ量も少なく、スモールスタートで丁寧に導入を進めてくれたので上長やチームも問題なく納得してくれたように思います。
活用方法
よく使う機能
- APM
- Logs
- Monitor
- AWS Integration (Infrastructure)
- RUM
- Error Tracking
- Custom Metrics
ツールの良い点
- 開発組織全体での使用を想定したアカウント機能とプライシング
- データの集約・可視化・分析を行い、問題の迅速な解決と運用の最適化を実現可能な多彩な機能群
- AIやセキュリティへの対応に積極的
ツールの課題点
- 機能単位で利用料金が設定されており、見積もりが複雑
- 複数の開発チーム・開発サービスで利用する場合は適切なOrganizationや権限の設計が必要
ツールを検討されている方へ
オブザーバビリティサービス (ツール) を導入するにあたり、開発組織全体での利用が現実的なコストで実現可能かというのは非常に重要なポイントとなります。Datadogは利用者が増えてもアカウントに付随した請求額が増えることがないため、安心して組織全体で利用することができます。
また、データの収集・分析・可視化といった基本的なユースケースに加え、運用を最適化するためのオンコール機能や、オブザーバビリティのベストプラクティスをどの程度実践できているのか可視化するためのスコアカード機能など、多くの機能があなたの開発チームの支えとなります。
今後の展望
Datadogの年次イベントであるDASH 2025で発表されたBits AI SRE, APM Investigatorなどの機能を活用することで問題解決までの時間を短縮したり潜在的な問題を解決できるようなオブザーバビリティ基盤を整備していこうと考えています。
株式会社エス・エム・エス / kaga
メンバー / SRE / 従業員規模: 1,001〜5,000名 / エンジニア組織: 101名〜300名
よく見られているレビュー
株式会社エス・エム・エス / kaga
メンバー / SRE / 従業員規模: 1,001〜5,000名 / エンジニア組織: 101名〜300名
レビューしているツール
目次
- アーキテクチャ
- 導入の背景・解決したかった問題
- 活用方法