株式会社タイミーにおけるDatadog活用事例
株式会社タイミー / MoneyForest
メンバー / インフラエンジニア / 従業員規模: 1,001〜5,000名 / エンジニア組織: 101名〜300名
利用プラン | 利用機能 | ツールの利用規模 | ツールの利用開始時期 | 事業形態 |
---|---|---|---|---|
Pro | Monitor、APM、Logs、Metrics、DBM、CI Visibility、Cloud Cost | 101名〜300名 | 2019年11月 | B to B B to C |
利用プラン | Pro |
---|---|
利用機能 | Monitor、APM、Logs、Metrics、DBM、CI Visibility、Cloud Cost |
ツールの利用規模 | 101名〜300名 |
ツールの利用開始時期 | 2019年11月 |
事業形態 | B to B B to C |
アーキテクチャ

導入の背景・解決したかった問題
導入背景
導入背景
スキマバイトサービスである「タイミー」が急成長する中で、テレビの放映などスパイクアクセスへの対策・監視や性能改善に対するソリューションとして導入されました。
当初はコスト観点でログはCloudWatch Logsと併用していましたが、組織・サービスの規模拡大に伴い、メトリクス、ログ、イベント、トレースはDatadogに集約するようになっています。
現在は基本的な機能に加え、以下のような機能を活用しています。
- CI Visibilityによるアプリケーションデリバリーの監視
- Database Monitoringによるクエリ結果の分析
- Cloud Costによるコストアノマリーのチェック
比較検討したサービス
導入された2019年時点ではNew Relicと比較検討しており、以下のような観点が上がっていました。
- インテグレーションの豊富さ
- UIにおけるメトリクス、アラート、ログの連携の良さ
- インターネット上の知見が多い
また、Datadogに機能はあるものの、他のSaaSと併用しているものがあります。
Sentry
エラートラッキングについてはDatadog Error Trackingではなく、Sentryを使用しています。 Sentryを使用開始した時にはまだDatadogを導入していなかったためです。 SentryからDatadog Error Trackingに移行していない理由は以下の通りです。
- エラー送信の際にAttributeを付与するなど、アプリケーション実装でSentryに特化した処理がある
PagerDuty
オンコールについてはDatadog On-Callではなく、PagerDutyを使用しています。 PagerDutyを使用開始した時にはまだDatadog On-CallがGAされていなかったためです。 PagerDutyからDatadog On-Callに移行していない理由は以下の通りです。
- DatadogにはPagerDutyとのIntegrationがあるため、Datadog MonitorとPagerDutyの繋ぎ込みが容易
- PagerDutyにはSlack Integrationがあり、一部のインシデントフローで使用している
- PagerDutyには公式のTerraform Providerがあり、リソースも充実している
選定理由
- 日本市場に対して積極投資をしている点
- 2023年から日本のデータセンターが利用可能になった
- 営業やセールスエンジニアとコンタクトが取りやすくなった
- R&Dに対する投資額も多く、年次カンファレンスで多数の新機能が発表されるなど、今後の機能拡充についても期待できる点
- ログ、メトリクス、APMをモニタリングするだけではなく、AIプロダクトを活用することにより、バグの自動修正や、性能劣化の自動分析などが行えるようになることが期待できる
- そのため、ログ、メトリクス、APMをはじめとした情報をDatadogに集約することで得られるメリットが最大化すると考えている
- 公式がメンテナンスしているTerraform Providerがある
- タイミーではIaCにTerraformを使用しており、モニターやログインデックスの設定などをコード管理しています
導入に向けた社内への説明
上長・チームへの説明
導入時点で私は入社していなかったのですが、Slackのログを参照すると、サービスの成長に伴い必要性が高まりスピーディな導入に至っていました。
活用方法
よく使う機能
Monitor、APM、Logs、Metrics、DBM、CI Visibility、Cloud Cost
ツールの良い点
- それぞれのクラウドサービスにモニタリングの機能があるが、Datadogをつかって1つのダッシュボードにまとめられる
- 例えばテレビ放映があった時に、ロードバランサーのアクセス数が増え、検索コンポーネントの負荷が増え、SMS送信のSaaSのメッセージ送信数が増える、などで利用者が増加していそう、など個々のメトリクスをまとめることで現象として捉えられるのがよい
- こういったことを日常的に観測することで、システムに慣れ親しんでファクトベースで意思決定することが可能になる
- ログやAPMの検索に特定のクエリ言語を覚える必要がない
- UIからExcludeしたりなど直感的に操作することが可能なため、探索や調査など本質的な操作に時間を割くことができる
ツールの課題点
- 機能が多く、UIに慣れるのに時間がかかる
- コストのわかり辛さ
- 料金体系が多数あり、試算し辛い
- ログ、APMも取り込みと保存で課金体系が分かれており、単位もサイズや件数で異なっていたりなど複雑であり、認識を合わせるのが大変
- 新機能についてはAPMやインフラホストの料金に包含されていて無料で使えるものと、新しく課金が発生するものがあり都度調査する必要がある
ツールを検討されている方へ
運用システムに対するオブザーバビリティを高めることは現代の開発においてとても大事なことだと思います。しかし、何を揃えればよいのだろうか?と悩むことが多くあります。
そのようなときにDatadogは様々なツール提供をしてくれるため、我々はそのツールを用いてシステム運用・改善に集中することができます。
Datadogをはじめとしたオブザーバビリティツールを最大限に活用するためには、サイトリライアビリティエンジニアリングの知識や、OpenTelemetryなどの標準化技術の知識が必要になり、専門性が求められます。
また、Datadogに関しては毎年多くの新機能が導入されるため、ROIを最大化するには機能のキャッチアップも行なっていく必要があります。
そのため導入後はオブザーバビリティに詳しい人材を配置し、組織にイネイブリングしていくことが重要だと思います。
株式会社タイミー / MoneyForest
メンバー / インフラエンジニア / 従業員規模: 1,001〜5,000名 / エンジニア組織: 101名〜300名
よく見られているレビュー
株式会社タイミー / MoneyForest
メンバー / インフラエンジニア / 従業員規模: 1,001〜5,000名 / エンジニア組織: 101名〜300名
レビューしているツール
目次
- アーキテクチャ
- 導入の背景・解決したかった問題
- 活用方法