株式会社HacobuにおけるDatadog活用事例

参考になった

レビュー投稿日の情報になります

株式会社Hacobu / sheepland

メンバー / SRE / 従業員規模: 101名〜300名 / エンジニア組織: 51名〜100名

最終更新日2026/01/30投稿日2026/02/04

利用プラン	利用機能	ツールの利用規模	事業形態
Pro	Metrics, Monitors, Synthetic Testing, Logs, APM, RUM, On-Call...	51名〜100名	B to B

利用プラン	Pro
利用機能	Metrics, Monitors, Synthetic Testing, Logs, APM, RUM, On-Call...
ツールの利用規模	51名〜100名
事業形態	B to B

導入の背景・解決したかった問題

導入背景

マルチプロダクト化・マイクロサービス化が進むにつれ、プロダクトやサービスをまたいだシステム全体の挙動を把握することが難しくなっていた。各所でメトリクスやログは取得していたものの、サービス間のつながりやリクエストの流れを一貫して追える仕組みは十分とは言えず、障害発生時の調査に時間がかかりやすい状況だった。

導入の成果

Datadog導入により、マイクロサービス間のリクエストの流れをAPM、Logs、RUMで一気通貫に追跡できるようになり、障害時の切り分けと原因特定が大幅に高速化しました。 Monitors、Synthetic、On-Callで検知から通知の自動化も進み、復旧までのリードタイムが短縮されました。また、Metrics、Log、Trace、RUMといった調査に必要な情報がDatadog上に一元化されたことで、各プロダクトチームが自律的に障害調査や性能改善を行える体制が整いました。

導入に向けた社内への説明

上長・チームへの説明

導入を行ったのがかなり前であり当時の関係者が残っていないため不明ですが、当時のSlackやドキュメントをみると機能面やコスト面でニーズに合致していたことが導入判断の背景にあったと推測されます。

活用方法

スロークエリやエラーログのダッシュボードを作成し日次/週次でチーム内で確認しており、パフォーマンス悪化の傾向やユーザー体験の悪化を早期に発見できるような運用を行なっています。
SLOを定義し、チーム内で隔週で確認と振り返り、SLOを満たしていないものについては改善のアクションを検討するようにしています。
- MOVO VistaにおけるSLI/SLO策定と運用〜ユーザー視点でサービス品質を見える化する取り組み〜
Monitorsで検知したアラートを元に、AIエージェントを使った一次切り分け対応を自動化し障害調査を効率化しています。

よく使う機能

Metrics
Logs
- アプリケーションログだけではなく、DBのスロークエリや一部のLambdaのログを送信
- APMやRUMとログが紐付いているため調査がしやすい
- DatadogのIndex Filter機能を使って不要なログを除外するように設定
APM
- トレースから障害発生時・性能劣化時のボトルネックを特定し、必要に応じてProfilerで詳細なボトルネック解析も実施
- プロダクト間、マイクロサービス間で分散トレーシングを行い、ユーザーのリクエストの流れを追跡して、障害の原因やパフォーマンスのボトルネックを特定
RUM
- 実ユーザーの画面遷移・表示速度・エラーを可視化し、障害調査やユーザー傾向の把握に活用
Monitors
- メトリクス、ログを元にアラートを定義し、閾値超過や異常兆候を検知したら担当チャンネルへ通知
Synthetic Testing
- 外形監視に失敗したらOn-Callを鳴らすように設定
On-Call
- 外形監視に失敗した場合にエンジニアのスマホに電話をかけるように設定
- エスカレーションポリシーは各チームで管理
Dashboard
- デフォルトのダッシュボードの他に、各チームで必要なダッシュボードを定義して使用
SLO
- ユーザーリクエストベースでのエラー率の可視化
- 主要機能のレスポンスタイムの監視とユーザー体験の悪化傾向を早期に検知
- システム可用性の達成度を計測