株式会社インゲージのDatadog導入事例
株式会社インゲージ / anecho108
シニアマネージャー / SRE / 従業員規模: 51名〜100名 / エンジニア組織: 11名〜50名
利用プラン | 利用機能 | ツールの利用規模 | ツールの利用開始時期 | 事業形態 |
---|---|---|---|---|
Pro | APM, ログ, ASM | 10名以下 | 2023年12月 | B to B B to C |
利用プラン | Pro |
---|---|
利用機能 | APM, ログ, ASM |
ツールの利用規模 | 10名以下 |
ツールの利用開始時期 | 2023年12月 |
事業形態 | B to B B to C |
アーキテクチャ
導入の背景・解決したかった問題
導入背景
ツール導入前の課題
元々、弊社インゲージではNew Relicを利用していましたがコストに課題を感じていました。
Datadogでは、機能単位の従量課金+ログ容量であるのに対し、New Relicではフルプラットフォームユーザの人数+ログ容量で料金が決まってきます。
弊社ではNew RelicのProを利用していました。そのため、"僕"がオブザーバビリティを獲得したいのであれば、以下にある通り+$418.80(月額)を払う必要があります。 また、新しいメンバーが加われば、その分を支払う必要があります。
僕の考えとしては、サーバ台数が多ければ多いほどNew Relicの方がお安くなると思います。
さらにそれを(参照するユーザではなく)管理するユーザが少なければ尚良し。1人で数百台を管理するならNew Relicがお得でしょうね。
Datadogは管理する人数による課金はありません。
どのような状態を目指していたか
コスト問題もあり、僕にはNew Relic のフルプラットフォームユーザーが払い出されていない状態でした。
また、New Relic のアラート通知先としてSlackを利用しているのですが、なぜこのアラートが飛んでくるか、またアラートの全量がわからず オオカミ少年化してしまっていて、いまいちオブザーバビリティが見えていない状態でした。
結果的に眺めるのはCloudWatchのダッシュボードになっており、トレース情報の連携がなくパフォーマンス調査のアジリティが低い状態でした。
コストの問題を解決しつつ、オブザーバビリティの獲得が出来る状態を目指していました。
比較検討したサービス
- New Relic
- AWS(X-Ray, Application Signals)
導入の成果
改善したかった課題はどれくらい解決されたか
年額払いに加え、従量課金も発生していますが当初想定していたコスト感で収まったと思います。
ですが、それでもログの転送量と保存は削減の見直しが必要と考えています。
どのような成果が得られたか
Dashboardの整理やアプリケーション独自のメトリクスを可視化できたため、事前に状況を察知して攻めの監視が出来ていると考えています。
アラートに関しては、今回の導入によって一覧化ができたためオオカミ少年アラートを撲滅する動きが取れています。
また、開発メンバーにもDatadogの権限を与え、勉強会の開催や自由に触っていただくことで便利だと認識いただけました。これからは開発メンバー以外のCSメンバーにも普及させたいと考えています。
導入時の苦労・悩み
ボリュームディスカウントが大きかったので年額払いにしましたが、コスト計算が大変でした。
AWSのECS on Fargate、ECS on EC2、それに加えてタスク数、コンテナ数など課金体系の理解が複雑だったと記憶しています。
また、ログに関しては、AWS CloudWatchのように送信と保存で別々のコストがかかりますし、そのデータ容量の見積もりも苦労しました。
導入に向けた社内への説明
上長・チームへの説明
Datadogの営業の方と数回ヒアリングした後、僕は早い段階でステークホルダーと状況の共有、そして「どうしたらDatadogを導入するのか?」を話し合っていました。
結論としては、コストに最も大きな問題を抱えていましたので、それがクリアになるなら導入という結論に至りました。
また、元々Datadogの機能面は知見があったので基本的にはNew Relicと大差はないだろうと考えていました。
(でもDatadogのRUMらへんの良さが違うらしい)
活用方法
よく使う機能
- APM
- トレース情報から障害発生時などの原因調査
- 例えば、アプリケーション独自のメトリクス化していない情報(現在の利用者数)や、特定のクエリ(SELECT系をGroup Byして異常なSELECT数が投げられていないか)などAPMからDashboardへExportして利便化しています。
- ログ
- アプリケーションログに限らず、AWSのCloudTrailやAWS WAFのログも出力しています。※本記事上部のアーキテクチャ図はこちらの内容を掲載しました。ただし、コスト的な面で、今はWAFやCloudTrailのログはAmazon Security Lakeで一元管理したいと考えています。
- Synthetic Testing
- 外形監視を入れて、NGであればSlack通知にしています。
- ASM
- APMでDatadog Agentを導入していれば、手間もなく多層防御を実現できるのでWAFを通過した内容をASMでも監視することでWAFの見直しに役立てています。
ツールの良い点
- 様々なSaasツールとIntegration可能でそのメトリクス等を取得できる
- 課金額の制限によらず日本語サポートがある
- DashboardにAPMの情報をExeportできる
- Datadog Agentを入れるだけでAPMの導入が楽
- 環境変数で機能のON/OFFが可能(APMのプロファイラーを有効化したり)
- Plan & Usageからコスト確認が容易
ツールの課題点
- 導入時のコスト計算が複雑
- 従量課金分のコストが高い
- 各機能を隅々まで使いこなせていない
- ツールのキャッチアップに時間をかけられない
ツールを検討されている方へ
弊社のDatadog導入時の下記ブログで概要を掴めていただけるかなと思います。
株式会社インゲージ / anecho108
シニアマネージャー / SRE / 従業員規模: 51名〜100名 / エンジニア組織: 11名〜50名
よく見られているレビュー
株式会社インゲージ / anecho108
シニアマネージャー / SRE / 従業員規模: 51名〜100名 / エンジニア組織: 11名〜50名
レビューしているツール
目次
- アーキテクチャ
- 導入の背景・解決したかった問題
- 活用方法