Datadog Notebooks活用事例
株式会社アンドパッド / 池田希
メンバー / DevOpsエンジニア / 従業員規模: 501名〜1,000名
利用機能 | ツールの利用開始時期 | 事業形態 |
---|---|---|
Datadog Notebooks | 2024年 | B to B |
利用機能 | Datadog Notebooks |
---|---|
ツールの利用開始時期 | 2024年 |
事業形態 | B to B |
アーキテクチャ
導入の背景・解決したかった問題
導入背景
このレビューでは、アンドパッドのCREチームによるDatadog Notebooksの活用事例をご紹介します。
なお、Datadogの導入部分については、SREチームへのヒアリングをもとにまとめました。
アンドパッドにおけるDatadogの歴史
アンドパッドでは、2018年頃からDatadogを導入しています。
導入当初は、インフラに関心がある人だけがダッシュボード・Monitor・Syntheticsを利用し、インフラ全体の負荷状況を監視してサーバやスケールの設定をチューニングするのが主な用途でした。
しかし、アンドパッドのサービス拡大に伴いリクエスト量やユーザーが増えて、アプリケーションのパフォーマンス改善が重要な課題となり、Datadog APMを利用し始めました。
これによりアプリケーションの動作状況が可視化され、非効率なDBのクエリやロジックを改善しやすくなりました。
この頃から、開発チーム向けにDatadogのアカウントを発行するようになり、ダッシュボードやMonitorの設定を任せ、Datadogの利用が広がっていきました。
現在では各チームがDatadogを積極的に利用しており、より高度な計測や設定、新しいサービスを活用して、アンドパッドの運用に役立てています。
その流れの中で、リリース後の監視用途にDatadog Notebooksを活用するチームが現れ、社内共有会でその利便性が発表されたことで、CREチームもNotebooksの利用を検討することになりました。
Notebooks 利用前の課題
CREでは、Datadogで規定値を超えるDurationで検知されたリクエストを調査し、必要に応じてPdMへリクエスト改善を提案しています。
従来の運用では、以下のような課題がありました。
- リクエストに対する調査観点が属人化している
- リクエストの調査に工数がかかる
- PdMへの提案資料が視覚的ではない
比較検討したサービス
Jira
Notebooks利用前は、Jira (Atlassian社が提供している課題管理ツール) を使って以下のように運用しており、前述の課題を感じていました。
- Jiraでチケットを起票
- Datadog でリクエストを調査
- 主にクライアント/ユーザー別リクエスト数などを調査
- この時点で調査観点が属人化
- 主にクライアント/ユーザー別リクエスト数などを調査
- チケットに調査結果の数値を記入
- CRE内でチケットの内容を基に、PdM連携が必要か判断
- 必要と判断した場合、PdMにチケットを共有
- 不要と判断した場合、監視を続けるか議論
導入の成果
- カスタムテンプレートにより、controllerとactionを指定するだけで、定型化されたグラフやデータがそろったNotebooksを作成できるため、調査観点が平準化し、誰でも調査対応が可能になった
- Notebooksだけで調査から共有まで一貫して対応できるようになり、工数が劇的に削減された
- リクエストの時系列・要因・過去との比較をグラフで視覚的に示すことが可能になり、問題の原因や傾向を誰でも直感的に把握できるようになった
導入に向けた社内への説明
上長・チームへの説明
CRE内で、リクエスト調査の課題を整理し、他チームのNotebooks活用事例を参考にすることで、解決できそうだと考えました。
導入を決めるために、Notebooksの使用感を把握する目的でインプット会を実施し、実際にいくつかのグラフや表を作成しながら操作性を確認した結果、非常に使いやすかった為、導入を決定しました。
上長には、現在の課題と実際に使ってみた際の利便性を共有し、CREの業務で取り入れることへの賛成を得られました。
活用方法
現在CREでは、リクエスト改善の調査/共有以外にも、ユーザー問合せで発覚した不具合の修正対応後、モニタリング用にNotebooksを利用することがあります。
先述のテンプレート機能により、誰でもすぐに調査観点が網羅されたNotebooksを作成できるため、今後も活用の場が増えそうです。
よく使う機能
Notebooksに利用しているセルのコンテンツ
- Markdown
- 状況サマリ、リクエストの導線、PdMへの連携判断の結果を記載
- Query Value
- 直近1ヶ月のリクエスト時間のPc95を表示
- Timeseries
- リクエスト全体の中で、N秒以上かかったリクエスト数の比較
- リクエスト時間の1週間前と現在の比較
- Top List
- クライアント・ユーザー・URLpath別のN秒以上のリクエストを表示
- Table
- 全コントローラー/アクションごとの1日のリクエスト数を多い順に表示
カスタムテンプレート
上記のコンテンツをテンプレートに登録し、テンプレート変数として、各ログのコントローラーを $controller、アクションを $action のように指定している為、新しくノートブックを作成する際は、ページのフッターでコントローラーとアクションを設定すれば、全てのコンテンツに一括で反映されます。
※より詳細な使い方は、こちらをご参考ください。
ツールの良い点
- 直感的に使える
- Markdownにより、グラフの説明や注釈を追加可能で、分りやすいレポートを作成できる
- リアルタイムでデータの変化を追跡可能
- カスタムテンプレートにより調査観点を平準化できる
ツールの課題点
- 高度なグラフを作るには学習コストがかかる
- 定期的なメンテナンスや整理をしないとNotebookが乱立し、管理が難しくなる
ツールを検討されている方へ
Notebooksは分析やレポート作成の効率化におすすめです。
またDatadogそのものについても、統合監視プラットフォームとして、多くのクラウドサービスやツールと連携できるため、複雑なインフラ環境でも一貫した監視や分析が可能です。
アンドパッドのDatadog活用方法については、ぜひ以下の記事も参考にしてみてください。
株式会社アンドパッド / 池田希
メンバー / DevOpsエンジニア / 従業員規模: 501名〜1,000名
よく見られているレビュー
株式会社アンドパッド / 池田希
メンバー / DevOpsエンジニア / 従業員規模: 501名〜1,000名
レビューしているツール
目次
- アーキテクチャ
- 導入の背景・解決したかった問題
- 活用方法