株式会社HacobuにおけるDatadog活用事例
株式会社Hacobu / sheepland
メンバー / SRE / 従業員規模: 101名〜300名 / エンジニア組織: 51名〜100名
| 利用プラン | 利用機能 | ツールの利用規模 | 事業形態 |
|---|---|---|---|
Pro | Metrics, Monitors, Synthetic Testing, Logs, APM, RUM, On-Call... | 51名〜100名 | B to B |
| 利用プラン | Pro |
|---|---|
| 利用機能 | Metrics, Monitors, Synthetic Testing, Logs, APM, RUM, On-Call... |
| ツールの利用規模 | 51名〜100名 |
| 事業形態 | B to B |
導入の背景・解決したかった問題
導入背景
マルチプロダクト化・マイクロサービス化が進むにつれ、プロダクトやサービスをまたいだシステム全体の挙動を把握することが難しくなっていた。各所でメトリクスやログは取得していたものの、サービス間のつながりやリクエストの流れを一貫して追える仕組みは十分とは言えず、障害発生時の調査に時間がかかりやすい状況だった。
導入の成果
Datadog導入により、マイクロサービス間のリクエストの流れをAPM、Logs、RUMで一気通貫に追跡できるようになり、障害時の切り分けと原因特定が大幅に高速化しました。 Monitors、Synthetic、On-Callで検知から通知の自動化も進み、復旧までのリードタイムが短縮されました。 また、Metrics、Log、Trace、RUMといった調査に必要な情報がDatadog上に一元化されたことで、各プロダクトチームが自律的に障害調査や性能改善を行える体制が整いました。
導入に向けた社内への説明
上長・チームへの説明
導入を行ったのがかなり前であり当時の関係者が残っていないため不明ですが、当時のSlackやドキュメントをみると機能面やコスト面でニーズに合致していたことが導入判断の背景にあったと推測されます。
活用方法
- スロークエリやエラーログのダッシュボードを作成し日次/週次でチーム内で確認しており、パフォーマンス悪化の傾向やユーザー体験の悪化を早期に発見できるような運用を行なっています。
- SLOを定義し、チーム内で隔週で確認と振り返り、SLOを満たしていないものについては改善のアクションを検討するようにしています。
- Monitorsで検知したアラートを元に、AIエージェントを使った一次切り分け対応を自動化し障害調査を効率化しています。
よく使う機能
- Metrics
- Logs
- アプリケーションログだけではなく、DBのスロークエリや一部のLambdaのログを送信
- APMやRUMとログが紐付いているため調査がしやすい
- DatadogのIndex Filter機能を使って不要なログを除外するように設定
- APM
- トレースから障害発生時・性能劣化時のボトルネックを特定し、必要に応じてProfilerで詳細なボトルネック解析も実施
- プロダクト間、マイクロサービス間で分散トレーシングを行い、ユーザーのリクエストの流れを追跡して、障害の原因やパフォーマンスのボトルネックを特定
- RUM
- 実ユーザーの画面遷移・表示速度・エラーを可視化し、障害調査やユーザー傾向の把握に活用
- Monitors
- メトリクス、ログを元にアラートを定義し、閾値超過や異常兆候を検知したら担当チャンネルへ通知
- Synthetic Testing
- 外形監視に失敗したらOn-Callを鳴らすように設定
- On-Call
- 外形監視に失敗した場合にエンジニアのスマホに電話をかけるように設定
- エスカレーションポリシーは各チームで管理
- Dashboard
- デフォルトのダッシュボードの他に、各チームで必要なダッシュボードを定義して使用
- SLO
- ユーザーリクエストベースでのエラー率の可視化
- 主要機能のレスポンスタイムの監視とユーザー体験の悪化傾向を早期に検知
- システム可用性の達成度を計測
ツールの良い点
- スモールスタートが可能で、必要な範囲から段階的に導入・拡張しやすい
- UI/UXが直感的で分かりやすい
- メンバー数課金ではないため、コストを気にせずエンジニア全員がオブザーバビリティを獲得できる
- 新機能の開発スピードが速く、プロダクトが継続的に進化している
- 安定性が高く、日常運用で安心して使える
- 必要なダッシュボードがデフォルトで用意されている
ツールの課題点
- 料金体系がやや複雑で、事前にコストを見積もり・予測しづらい
- 特にログやRUMは利用量に応じてコストが膨らみやすく、運用フェーズで想定以上になることがある
- ドキュメントが分かりづらい部分があり、欲しい情報に辿り着きにくい場合がある
ツールを検討されている方へ
- Datadogは機能が非常に多いため、最初から全部を使おうとせず、必要な機能に絞ってスモールスタートするのがおすすめです
- ログを送るとメトリクスやAPMと自動で紐づきやすくなり、トレーサビリティが大きく向上します
- 一方でログは量に応じてコストが増えやすいため、「障害解析に必要なログ」「重要なサービス・重要なイベント」などにログを絞るとよいと思います
- コストが想定以上に膨らんでいないかを定点観測し、特にログとRUMは重点的にチェックするとよいです
今後の展望
- SLO機能を組織全体で本格活用し、可用性やレイテンシなどの重要指標を「ユーザー体験ベース」で継続的に管理していく
- Bits AIの活用により、アラート発生時の仮説立て・関連ログ/トレースの探索を効率化し、障害調査のリードタイム短縮を狙う
- 人によって活用度が異なるため、社内でTipsや利用プラクティスを共有し、社内全体の活用レベルを底上げしていく
株式会社Hacobu / sheepland
メンバー / SRE / 従業員規模: 101名〜300名 / エンジニア組織: 51名〜100名
よく見られているレビュー
株式会社Hacobu / sheepland
メンバー / SRE / 従業員規模: 101名〜300名 / エンジニア組織: 51名〜100名
レビューしているツール
目次
- 導入の背景・解決したかった問題
- 活用方法


