AWS x Grafana で始める可視化基盤構築
株式会社テックオーシャン / 岩瀬元
メンバー / SRE / 従業員規模: 51名〜100名 / エンジニア組織: 11名〜50名
利用機能 | ツールの利用規模 | ツールの利用開始時期 | 事業形態 |
---|---|---|---|
ダッシュボード, アラート | 10名以下 | 2025年2月 | B to B B to C |
利用機能 | ダッシュボード, アラート |
---|---|
ツールの利用規模 | 10名以下 |
ツールの利用開始時期 | 2025年2月 |
事業形態 | B to B B to C |
アーキテクチャ
アーキテクチャの意図・工夫
TECH OFFERのサービスに関して監視・分析する構成になります。初期の導入コストを下げるため、AWS Managed Grafanaを利用しています。
導入の背景・解決したかった問題
導入背景
システムのリプレースとSREチームの結成に伴い、モニタリング環境の整備が必要となりました。当初は、KPI(重要業績評価指標)やSLO/SLI(サービスレベル目標/指標)を可視化する仕組みが存在していませんでした。また、当社サービスはAWS上で構築・運用しており、主にLambda、SQS、Auroraなどのマネージドサービスを利用しています。ログ分析はCloudWatchおよびX-Rayで実施していましたが、システム全体を俯瞰できない課題がありました。
これらの課題解決とモニタリング体制の強化を目的に、環境整備を進めました。
比較検討したサービス
- Amazon CloudWatch(ダッシュボード機能)
- Grafana
- Datadog
比較した軸
主にダッシュボード機能に着目し、以下のような観点を重視し選定しました。
- 導入・運用コストが妥当であること
- ダッシュボードの表現力が十分であること
- AWS からのデータ取得が容易であること
- 必要に応じて AWS 外のデータも扱えること
選定理由
CloudWatch は AWS リソースの可視化やアラート設定が容易ですが、外部データソースとの連携やカスタマイズ性に制限があります。Grafana(Amazon Managed Grafana)は AWS サービスとの統合に加え、GitHub やコスト管理など AWS 外のデータも可視化でき、ダッシュボードのカスタマイズ性も高い点がポイントでした。Datadog は多機能ですが、今回の用途では不要な機能が多く、コスト増につながるため選定から外しました。Amazon Managed Grafana はユーザーごとに課金され、利用人数に応じて見積もりやすい点も選定理由のひとつです。
導入の成果
改善したかった課題はどれくらい解決されたか
KPIやSLO/SLIを可視化する仕組みが存在していなかった課題については、ダッシュボードを整備することで可視化を実現できました。これにより、サービス全体の稼働状況や重要指標を定量的に把握できるようになりました。 また、従来はCloudWatchやX-Rayを用いた個別のログ分析のみで全体像を把握できないという課題がありましたが、システム全体を俯瞰できるモニタリング環境を構築することで解決できました。AWSマネージドサービス群(Lambda、SQS、Auroraなど)の状態を横断的に把握できるようになり、モニタリング体制の強化につなげることができました。
どのような成果が得られたか
KPIやSLO/SLIの可視化を実現できたことで、サービス運用における重要指標を日常的に確認し、異常検知や稼働状況の分析を定量的に実施できるようになりました。また、システム全体を俯瞰できるダッシュボードを整備したことで、従来の部分的なログ分析だけでなく、全体の状態を可視化できるようになりました。モニタリング体制の強化により、具体的な数値に基づいた議論や意思決定が可能になり、改善提案の精度向上や課題への早期対応につなげることができるようになりました。
導入時の苦労・悩み
Amazon Managed Grafanaを利用する場合、Grafana側でユーザーを発行するのではなく、IAM Identity Center経由でアカウントを発行する必要があります。当初、この点を把握しておらず、権限を持つ担当者への依頼などで手間取る場面がありました。事前にこの仕様を理解しておけば、よりスムーズな導入が可能になると思います。
導入に向けた社内への説明
上長・チームへの説明
モニタリングツール導入の必要性に関して上長も理解している状態だったので、選択の根拠を明確化する点に配慮し説明しました。特にコスト面では候補となるツール全てに対して具体的な数値を提示し選択しました。
活用方法
チーム内で、次のような場面で利用しています。
- 定期的に各種運用目標が達成できているか確認します
- アラートが飛んできた時にシステムの状態を確認します
よく使う機能
- ダッシュボード機能
- アラート機能
ツールの良い点
- ダッシュボードの機能が十分に揃っており、ウィジェットの種類やレイアウトの自由度が高いです
- AWS との連携がスムーズで、細かい設定をせずにデータ取得が可能でした
- GitHub や Google スプレッドシートなど多様な外部データソースとも連携できるため、他の目的にも活用可能です
ツールの課題点
- 設定できる項目やカスタマイズの幅が広いため、インターフェースや各種機能に慣れるまでにやや時間がかかります。
- 最初は操作方法に迷う場面もありましたが、テンプレートや公式ドキュメントを参考に進めることで徐々に使いこなせるようになりました。
ツールを検討されている方へ
可視化に特化していて余分な機能が少なく導入や運用がスムーズに行えるため、AWS を利用している場合、Amazon Managed Grafana はモニタリングを始めるのに手軽でちょうど良いツールだと感じています。類似ツールも多くあるので、必要な機能を明確にした上で選定するのが良いと考えています。
今後の展望
引き続き可視化を進めていきたいと考えています。ユーザが増えコストも増えた場合OSS版の利用も検討したいと思っています。
株式会社テックオーシャン / 岩瀬元
メンバー / SRE / 従業員規模: 51名〜100名 / エンジニア組織: 11名〜50名
株式会社テックオーシャン / 岩瀬元
メンバー / SRE / 従業員規模: 51名〜100名 / エンジニア組織: 11名〜50名
目次
- アーキテクチャ
- 導入の背景・解決したかった問題
- 活用方法