Datadogの導入効果をレビューでご紹介(Takuya Mikouchi-株式会社ビットキー)
株式会社ビットキー / Takuya Mikouchi
チームリーダー / データサイエンティスト / 従業員規模: 101名〜300名 / エンジニア組織: 51名〜100名
利用プラン | ツールの利用規模 | ツールの利用開始時期 | 事業形態 |
---|---|---|---|
Datadog Pro | 51名〜100名 | 2021年12月 | B to B B to C |
利用プラン | Datadog Pro |
---|---|
ツールの利用規模 | 51名〜100名 |
ツールの利用開始時期 | 2021年12月 |
事業形態 | B to B B to C |
アーキテクチャ
アーキテクチャの意図・工夫
- この図には記載していませんが、基本的にはトレースをDatadog APMに集約し監視を実現しています。
- ビットキーのSREチームはSLI/SLOを用いたプロダクト品質のモニタリングに注力しており、そこにピンを止めたアーキテクチャを掲載させていただきました。
- インテグレーションされたメトリクスに加え、Datadog導入以前にBigQuery上でのSLI計測に用いていたイベントログをPub/Sub経由でDatadogにLogsとして流し込み生成したカスタムメトリックを用いてSLIを設定しています。
導入の背景・解決したかった問題
導入背景
ツール導入前の課題
事業的な背景から触れると、ビットキーは2020年にhomehubとworkhubを提供開始しました。 これに伴い、機能数、チーム数、エンジニア数などが爆発的に増加しました。 比例する形で、リリース後の不具合や障害の発生頻度も上がり、それぞれの振り返りの中で「監視」の重要性が高まってきました。その課題に再現性高くアプローチするために、監視サービスの検討を始めました。
どのような状態を目指していたか
まずは組織横断的な監視体制の構築を目指していました。具体的には以下の実現を目指していました。
- SLIの計測とアラートの設定によるプロダクト品質の定量化とモニタリング(SLOの運用)
- APMを用いたバックエンドの監視の充実
- Log Pipelineを用いたエラーログの可視化による異常検知
比較検討したサービス
- New Relic
比較した軸
- 比較対象のサービス間で機能に大きな差があるか
- 導入のハードル
選定理由
- 先に検討のテーブルに上がっていたDatadogと比較して、New Relicに大きな機能的な違いがなかった
- メインで活用しているGoogle CloudサービスとのIntegrationが充実していた
- Preset Dashboardが当時Datadogのほうが充実していた
導入の成果
導入に向けた社内への説明
上長・チームへの説明
上長及びチームメンバで一緒に活用目的/使い方/ツール選定を検討したので、特に承認用の説明が必要になることはありませんでした。 またコスト面についても、ビットキーは本当にやるべき事であれば予算に厳しい会社ではないのでハードルにはなりませんでいた。 またトライアル期間があったため、Datadog様のサポートを受けつつとにかく触ってみることで本導入にスムーズに進むことができました。
活用方法
よく使う機能
- SLOs
- プロダクト品質のモニタリングに活用しています。
- SLI/Oの計測からエラーバジェット、バーンレートベースのアラートの設定まで直感的に操作できます。
- インテグレーションされたメトリクスだけでなく、Logからカスタムメトリックを生成しSLIを設定することもあります。
- APM
- 主に調査対応に活用しています。
- ビットキーには多くのサービスが存在しており、どこがどう繋がって、何がどう処理進んだかを簡単に把握することができるようになったため、調査対応工数の削減に繋がりました。
- Profiler機能を利用するためOpenTelemetry CollectorではなくDatadog Agentを利用しています。
- Real User Monitoring
- 主にUI/UXデザイナーやPdM、データサイエンティストがUI/UX改善に活用しています。
- ブラウザ上のユーザの動作を把握することができ、更にその統計値をダッシュボードで可視化することができます。
ツールの良い点
- 基本的なプロダクトの運用に必要な機能が揃っている
- AWS、Azure、Google Cloud全てに対応している機能が多い
- SaaSインテグレーションの豊富さ
- フロントエンド監視が一通り揃っている(RUM)
- マイクロサービスや大規模システムの監視に強い
- アカウント数課金でないことにより、部署やチーム全員を巻き込みやすい
- ダッシュボードウィジェットの豊富と直感的な操作の実現
- Watchdogによる自動異常検知が便利
ツールの課題点
- 多機能ゆえに使いこなすまでに時間がかかる
- 料金見積もりの難しさ
- OTLP対応についてはまだ利用している中で課題を感じる部分がある
ツールを検討されている方へ
- 複数のSaaSを使い分けたくない人におすすめ
- 開発チームが大人数の場合におすすめ
- マイクロサービスアーキテクチャを採用しているチームにおすすめ
今後の展望
プロダクト開発チーム内でより自律的に活用できる状態にしていきたいと思っており、まずはSRE文化の浸透に取り組んでいきたいと思っています。
株式会社ビットキー / Takuya Mikouchi
チームリーダー / データサイエンティスト / 従業員規模: 101名〜300名 / エンジニア組織: 51名〜100名
よく見られているレビュー
株式会社ビットキー / Takuya Mikouchi
チームリーダー / データサイエンティスト / 従業員規模: 101名〜300名 / エンジニア組織: 51名〜100名
レビューしているツール
目次
- アーキテクチャ
- 導入の背景・解決したかった問題
- 活用方法