Datadog 導入事例
株式会社バニッシュ・スタンダード / ヴィエス・オカモッティ
チームリーダー / インフラエンジニア / 従業員規模: 11名〜50名 / エンジニア組織: 11名〜50名
利用プラン | 利用機能 | ツールの利用規模 | ツールの利用開始時期 | 事業形態 |
---|---|---|---|---|
Pro+(ボリュームディスカウントあり) | ほぼ全て | 11名〜50名 | 2021年1月 | B to B |
利用プラン | Pro+(ボリュームディスカウントあり) |
---|---|
利用機能 | ほぼ全て |
ツールの利用規模 | 11名〜50名 |
ツールの利用開始時期 | 2021年1月 |
事業形態 | B to B |
アーキテクチャ
アーキテクチャの意図・工夫
ECS(Fargate) で動作する弊社管理の API やバッチ関連のログは、サイドカーコンテナである fluentbit の機能によって転送させています。 AWS ネイティブな各サービスのログは Datadog 側で用意された Lambda Function によって転送を実現しています。 Datadog に集約された情報は弊社エンジニアは誰でも確認可能としており、 Monitor 条件に合致して発報されたアラートは Slack や Opsgenie を介して運用担当エンジニアに通知されます。
図で網羅できていない範囲として、ユーザがアクセスするエンドポイントを対象にした Synthetic Test や、各 SaaS の監査ログのリスク分析を行う CloudSIEM 機能等も利用しています。
導入の背景・解決したかった問題
導入背景
ツール導入前の課題
導入を検討した時期は、そもそもインフラ担当者として新任という状況で既に歴史ある既存システム全体についての
把握が必要なフェーズでした。その時点で複数の監視ソリューションが既にいくつか乱立状態で導入されており、部分部分ではシステムモニタリングの文脈において一定の役割を果たしていました。
ただ、新任として全体システム理解と並行して監視ソリューションの設定状況をキャッチアップする必要に迫られていたことで、工数もかさみ結果的にオブザーバビリティの低下を招いていました。
どのような状態を目指していたか
既存の監視ソリューションの流用にはあまりこだわらずに、システム運用上必須となる監視項目をゼロベースでなるべく工数を掛けずに導入でき、システムとして一定のオブザーバビリティを担保できる状態を目指しました。
比較検討したサービス
- Amazon CloudWatch
- Zabbix (self hosted)
- Prometheus + Grafana (self hosted)
比較した軸
前述の通り、既に導入されており運用実績もある監視ソリューションが複数存在していたため、それらのいずれかを横展開させるか新規ソリューションを導入し直すかの二択となっていました。導入検討時点においてはインフラ基盤の面倒を見るエンジニア数に限りがあったため、監視ソリューションについてはなるべく自己管理が不要なマネージドサービスに寄せたい思惑がありました。
具体的には、例えば Anazon CloudWatch や Zabbix は個人的に導入・運用実績もあったのですが、システム側の展望として各種リソースをサーバレスに寄せていく可能性がある中で、そことの親和性について見定めることができておらず、積極的な採用を躊躇う背景がありました。 Prometheus と Grafana の組み合わせについても未経験であったため、アーキテクチャを把握していく中で横展開に伴う工数のハードルの高さを見積もれず、一定のリスクになりそうという肌感覚がありました。
選定理由
検討段階において一定のトライアル利用期間を提供してもらい、その中で AWS に限らず各種サービスとの連携設定が非常に容易に実現できることを痛感しました。最低限の工数で必要十分なメトリクスをモニタリングできそうな見込みが立ち、既存ソリューションからの移行メリットを見出せました。
更に導入検討時点ではスコープとしていなかったのですが、強力な APM 機能についてはインフラ担当者に限らずアプリケーションエンジニアも含め、一定の恩恵を得られそうという見込みが立った点も大きかったです。
導入の成果
改善したかった課題はどれくらい解決されたか
トライアル期間で導入手順の理解を深めて広範囲なリソースに監視設定を横展開できたことで、最小限の工数でシームレスに運用に乗せることができました。導入時期は新規インフラ環境の構築作業も並走しており、もし既存の監視ソリューションを継続利用していればそちらの運用工数の肥大化に伴い運用効率の低下を招いた可能性が考えられます。
どのような成果が得られたか
導入以前と比較して監視対象の網羅性が向上し、アプリケーションのパフォーマンスに関わる詳細なデータも調査可能になりました。ソリューションが統一されたことで、想定利用ユーザも運用担当者に限定せず、エンジニア全員に広げることも容易に実現できました。
導入時の苦労・悩み
トライアルの段階でフルに機能を使わせていただいたことで、そのままの設定で課金契約に移行すると想定コストを上振れることが明らかになりました。当時は課金体系への理解も浅く、どの利用箇所をどの程度シュリンクすることでどの程度コストを圧縮できるのかの検討に苦慮しました。
導入に向けた社内への説明
上長・チームへの説明
前述したような背景に付随するシステム運用面の課題感を共有しつつ、契約に伴って見込まれる追加コスト感を根拠として相談を進めました。導入の必要性はすぐに理解を得られたものの、当時(に限らず今も…というか未来永劫かと思いますが…)インフラのランニングコストが課題として挙がる状況で純粋な追加コストとなるため、上長に協力いただきながら Datadog 導入と並走する形で AWS 側のランニングコスト削減も推進する計画として合わせて提案し、予算から大きくブレない形で導入できるよう整理しました。
活用方法
インフラチームとしては、 Monitor 条件に合致し発報されたアラートの内容に応じた各種状況確認の利用が主です。アプリケーションチームとしては、エンドユーザからの問い合わせやアプリケーションのパフォーマンス調査の必要が生じた際に随時 APM や Log Explorer を参照する形で利用しています。
よく使う機能
- Log Explorer
- ECS (Fargate) に限らず、 S3 や CloudWatch に出力される AWS ネイティブな各種サービスログの集約
- 直感的なクエリ発行操作でログをグルーピングや集計し分析できる
- 調査用のクエリをベースに検知条件として設定しモニター通知設定も可能
- APM
- 複数言語に対応するモジュールの追加によってリアルタイム性の高い性能モニタリングが可能
- 外形監視とは異なり、サーバサイドとしての純粋なアプリケーションの処理性能を観測できる
- アプリケーションログのみでは深堀り困難なトラブルシューティングの材料にもなる
- 詳細な処理状況と Fargate コンテナのリソース状況を照らし合わせた調査が可能
- Synthetic Test
- 柔軟な条件設定が可能な外形監視機能
- 実行結果単位でレスポンスタイムの内訳(DNS,Connection,SSL...)を確認できる
- 拡張機能を用いてブラウザテストのシナリオ構築も容易に可能(弊社未利用)
ツールの良い点
- 多種多様な監視メニューの豊富さ
- 各機能の導入の容易さ
- 利用ユーザ数に依存しない課金体系
- ログ管理の柔軟性
ツールの課題点
- 多機能ゆえ習熟のハードルが高い
- 料金体系が複雑なため見積もりが困難
- オンコール機能の不在(プライベートベータの予定あり)
ツールを検討されている方へ
多数の機能を容易に導入可能な反面、無邪気に監視対象を広げてしまうとコストバランスが崩れてしまうリスクがあると捉えています。トライアルの期間にフルに活用してみて、機能の網羅性に限らずリソースをどの程度モニタリングするとどの程度のコスト感が生じるのかを早めに掴むことが肝要と考えます。
今後の展望
現在はアカウント発行の対象がエンジニアに限定されていますが、サービスレベルの指標となる情報を網羅的に可視化できるようになった際には、カスタマーサクセスチーム等のビジネスサイドのメンバーにも触れていただく機会を広げることで、システムのオブザーバビリティがいかに重要かの認知を広げる嚆矢としたいです。
また今後はプロダクト提供基盤である AWS 環境に限らず、弊社の情報システムの文脈で利用している各 SaaS ツールの監査ログをモニタリングできる CloudSIEM 機能も積極利用予定です。
株式会社バニッシュ・スタンダード / ヴィエス・オカモッティ
チームリーダー / インフラエンジニア / 従業員規模: 11名〜50名 / エンジニア組織: 11名〜50名
よく見られているレビュー
株式会社バニッシュ・スタンダード / ヴィエス・オカモッティ
チームリーダー / インフラエンジニア / 従業員規模: 11名〜50名 / エンジニア組織: 11名〜50名
レビューしているツール
目次
- アーキテクチャ
- 導入の背景・解決したかった問題
- 活用方法