Datadog の導入と活用によるオブザーバビリティ強化
会員限定コンテンツです。無料登録すると制限なしでお読みいただけます。
レビュー投稿日の情報になります
株式会社Linc’well / 志田和也
テックリード / 従業員規模: 101名〜300名 / エンジニア組織: 11名〜50名
最終更新日投稿日
ツールの利用規模 | ツールの利用開始時期 | 事業形態 |
---|---|---|
11名〜50名 | 2020年3月 | B to B B to C |
ツールの利用規模 | 11名〜50名 |
---|---|
ツールの利用開始時期 | 2020年3月 |
事業形態 | B to B B to C |
アーキテクチャ
導入の背景・解決したかった問題
導入背景
ツール導入前の課題
2020年当時では、システム監視ツールとして複数のツールを利用していました。
- Librato: モニタリング
- New Relic APM: アプリケーションパフォーマンスモニタリング
- Pingdom: 外形監視
用途別にツールが別れており、どのツールで確認すべきか不明瞭な状況が発生していました。 また、障害の早期検知、外形監視の整備が十分に行き届いていないことも課題と認識していました。
どのような状態を目指していたか
- ツールの統一: すべての監視情報を Datadog に集約し、認知コストを削減
- 外形監視の強化: 提供サイトやサービスの障害発生時の迅速な対応体制の整備
比較検討したサービス
- Amazon CloudWatch Alarms
導入の成果
改善したかった課題はどれくらい解決されたか
- 情報の一元化: APM や外形監視を Datadog にまとめたことで、確認すべき情報がわかりやすくなった。
- 障害の早期検知: Synthetics Test の導入により、障害発生を早期に発見し対応できる体制が整いました。
どのような成果が得られたか
- オンコール体制の構築: 監視アラートを Slack と PagerDuty と連携することで迅速な対応が可能になりました。
- SLI/SLO 運用の推進: オンライン診療チームを対象に SLI/SLO を定義。毎月の振り返り会で Datadog を活用し、改善すべきポイントを具体的に議論できる。
導入時の苦労・悩み
- GraphQL API を提供していますが、エンドポイントがひとつのため GraphQL Ruby の Datadog Tracing を利用し GraphQL の Query 、 Mutation 単位で APM を確認できるようにしています。
use GraphQL::Tracing::DataDogTracing, service: 'clinicfor-graphql' if Rails.env.production?
導入に向けた社内への説明
上長・チームへの説明
- ツールの統一化: 複数のツールを1本化することで効率化
- 障害対応の優先度向上: 当時、障害多発しておりの早期検知が求められたため必要性を強調
- 費用対効果の検証: 導入時、小規模な組織であるため、導入後の成果を見ながら効果を検証する方針
活用方法
- メトリクスを用いた監視の整備
- モニタリングアラートのメッセージにチームメンションと発生時の対応方法を明示し、チームのメンバーが対応可否を判断できる。
- 障害や問い合わせ調査
- アプリケーションログ、CloudFront ログを連携しているため、ログの調査に利用
- 特定のページが開けないといった障害時の原因究明
- SLI/SLO 運用
- 毎月の振り返り会でアラートメトリクスを共有し、課題解決に活用
よく使う機能
- APM
- メトリクス、モニタリング
- ログ
- SLI/SLO
ツールの良い点
- 機能が豊富でカスタマイズ性が高い
- カスタムメトリクスの作成が容易
- Slack や PagerDuty などの外部ツール連携が充実
- アカウント数による課金がないため、非エンジニアの招待も容易
ツールの課題点
- コストの見積もりが難しい
- サービスのアクセス数によってログ利用料の変動が発生しやすい
- エンジニアの学習コスト
- エンジニアへのトレーニングや操作に慣れることが必要
ツールを検討されている方へ
- 社内のオブザーバビリティの民主化を進める場合、ユーザ課金がない Datadog は非常に有用です。
- ログ利用料に注意し、予算管理に気をつける。
今後の展望
- 他プロダクトチームへの SLI/SLO の定義と実装の推進
- Datadog を活用し、DBデータ量のパフォーマンス監視や、ECS キャパシティプランニングを実施。サービスのパフォーマンス維持に貢献していきます。
株式会社Linc’well / 志田和也
テックリード / 従業員規模: 101名〜300名 / エンジニア組織: 11名〜50名
よく見られているレビュー
株式会社Linc’well / 志田和也
テックリード / 従業員規模: 101名〜300名 / エンジニア組織: 11名〜50名
レビューしているツール
目次
- アーキテクチャ
- 導入の背景・解決したかった問題
- 活用方法