New Relic 導入レビュー：監視基盤の統合とAIエージェントの活用

参考になった

レビュー投稿日の情報になります

KINTOテクノロジーズ株式会社 / ryusuke.tesaki

メンバー / SRE / 従業員規模: 301名〜500名 / エンジニア組織: 301名〜500名

最終更新日2026/06/16投稿日2026/06/19

利用プラン

利用機能

ツールの利用規模

ツールの利用開始時期

事業形態

Enterprise

APM, Logs, Browser, Alerts & AI, その他全般機能

301名〜500名

2024年6月

B to B

B to C

D to C

利用プラン	Enterprise
利用機能	APM, Logs, Browser, Alerts & AI, その他全般機能
ツールの利用規模	301名〜500名
ツールの利用開始時期	2024年6月
事業形態	B to B B to C D to C

アーキテクチャ

アーキテクチャの意図・工夫

インシデント対応時、運用者が普段触っているチャネルから観測データへ到達できるよう、Slack・AI エージェントを起点とした構成を採用しています。New Relic特有の課題であるNRQLの学習コストの壁をAIエージェントで軽減しています。

Slack を入力起点に AI エージェントから New Relic を呼び出す構成
運用者が普段触っているチャネルから観測データへ直接アクセスできる
アカウント設計はプロダクト・環境はタグと app name で論理分離し要望に応じて個別アカウントへ分割可能な運用ルールを構築
ログはアプリケーションログ / ALB / WAF / CloudFront / Lambda / RDS などを New Relic に集約
アラート / ダッシュボードは Terraform でモジュール化し、複数プロダクト・複数環境に横展開
New Relicのログは一定期間後削除しているため、ログを配信する際にS3へも同時配信しバックアップを取得

導入の背景・解決したかった問題

導入背景

当時はアプリケーションメトリクスをGrafana、トレースをX-Ray、ログをOpenSearch / CloudWatch、AWSインフラをCloudWatchと、4つの基盤に分散して利用しており、システム障害時の調査経路が複雑化していました。それを解消するために複数のモニタリングツールが分散している状況の見直しを開始しました。
比較対象の製品を実プロダクトで検証し、最終的にプラットフォーム共通の選択肢としてNew Relicの採用を決定。プロダクトに対しては「Grafana + α」か New Relic を選択できる形式でスタートし、オブザーバビリティを積極活用したいプロダクトからミニマムスタートを進めています。

ツール導入前の課題

監視ツールの分散と学習コストの高さが、運用上のボトルネックになっていました。

監視ダッシュボードが活用されておらず、ツールの種類が多く学習コストが高かった
監視の際に見る場所が分散していた
アプリケーションメトリクスは Grafana、トレースは X-Ray、ログは OpenSearch / CloudWatch、AWS インフラは CloudWatch
情報が分散しているため、システム障害時の調査が困難で必要な情報にすぐたどり着けなかった
学習コストの高さから担当者が使えるようになるまでの時間が長く、有効活用できていないプロダクトが多かった

どのような状態を目指していたか

「まずここを見ればシステムの状況が分かる」という単一のエントリポイントを用意することをゴールに、以下の状態を目指しました。

見る場所を 1 か所に集約する
学習コストを削減し、担当者が素早く使いこなせるようにする
情報到達速度を上げ、システム障害からの復旧時間を短縮する
全てのプロダクトで監視ダッシュボードが有効活用されている状態を実現する

比較検討したサービス

Datadog
Grafana（+Prometheus / OpenSearch / Site24x7）
New Relic

比較した軸

機能だけでなく、チームで継続して使えるかを重視しました。

ダッシュボードを統合できるか（情報到達速度が向上するか）
既存機能（APM / ログ検索 / インフラメトリクスの確認 / アラート設定）を損なわず、かつプラスアルファの機能があるか
コストに見合うか（利用費・運用コスト・移行コストを含む費用対効果）
使用感（UI/UX の快適さ・動作のスムーズさ）
権限管理（参照範囲の制御・ログのマスキング処理）

選定理由

最終的には、障害調査のしやすさと運用コストのバランスでNew Relicを選びました。

APM・ログ・トレース・インフラを 1 プラットフォームに統合でき、障害時に情報をたどる場所が 1 か所に集約できると判断した
他製品と比較して、フルユーザを絞りつつ無料ユーザを活用することで費用対効果が高いと試算できた
Agent をサイドカーとして追加するだけで既存アプリへの改修が最小限で済む（実装コストが低い）
コストが都度見直し（3 か月ごと）の課金モデルのため、突発的なコスト増への対応がしやすい
New Relic エンジニアによる定期的な勉強会・オンボーディングサポートの存在

導入の成果

改善したかった課題はどれくらい解決されたか

監視データをNew Relicに集約したことで、障害調査の動線が大きく改善しました。

監視データがNew Relicに集約され、障害時の調査経路が APM → ログ → ブラウザで1画面内に収まるようになった
アラート・ダッシュボードをTerraform管理に移行し、PRレビュー上で差分追跡できるようになった
Change Trackingの導入により、デプロイ前後のメトリクス変化を即座に確認できるようになった

どのような成果が得られたか

導入後は、障害調査だけでなく、アラートやログ調査の運用も見直しやすくなりました。

アラート条件やダッシュボードを継続的に見直すサイクルを作りやすくなった
業務例外とシステム起因のエラーを分けて扱えるようになり、不要な通知を減らせた
ログとトレースを同じ流れで確認でき、原因調査の手順をチーム内でそろえやすくなった
UI だけでは難しい集計や過去ログ取得は、NRQLやNerdGraph APIを使って補完できるようになった
New Relic MCP ServerをAIエージェントに接続し、日次ログレポートの自動投稿にも取り組み始めた

導入時の苦労・悩み

アカウント設計・権限・セキュリティ

1AWSアカウントに複数プロダクト・複数環境が同居している場合、New Relicの「1NRアカウント=1AWSアカウント」を前提とした思想と噛み合わず、設計面で時間を要しました。

単一アカウントへ統一するか、プロダクト別に新規アカウントを切るか判断に時間がかかった
子アカウントの分け方（システム単位 / グループ単位 / プロダクト集合単位）にそれぞれトレードオフがあった
横断的な可視化とセキュリティ境界の両立が難しかった

AWS インテグレーション

AWS連携では、ログ取得方式とサーバレスサービスの扱いに検討時間が必要でした。

AWSログの取得方法（logstash 経由 / Lambda 経由 / Firehose 経由）の選定が必要だった
OpenSearch をなくすためには、AWSログの取り込み方針を先に決める必要があった
API GatewayなどLambda以外のサーバレスサービスのトレースをどう追うかが課題だった
New Relicを採用しても、既存共通基盤のAWSコスト按分は別問題として残った

アプリケーション・コンテナ実装

ECS Sidecarの管理と、既存ロギング実装との接続も論点になりました。

ECS Sidecarをどこで管理するか（ECR 登録運用の検討）を決める必要があった
Spring Bootのlogback実装見直しが必要だった
New Relic Agent経由のログ送信で、logbackで付与した情報を取得できるか確認が必要だった

導入に向けた社内への説明

上長・チームへの説明

導入推進時の説明内容

監視ツール分散による調査時間の長さと管理コストの増大を課題として提示し、New Relicに統合することで得られる効果と段階的な進め方を説明しました。

APM (Grafana) / トレース (X-Ray) / ログ (OpenSearch・CloudWatch) / インフラ (CloudWatch) と監視ツールが分散しており、障害時の調査に時間がかかっている課題を提示
New Relicに統合することで見る場所を 1 か所に集約でき、学習コストと障害調査コストを削減できると説明
プラットフォーム側・アプリチーム双方の管理コスト削減効果を資料で提示
まずは「選択肢として提供」から始め、オブザーバビリティを積極活用したいプロダクトへの限定導入でミニマムスタートを提案しました

フィードバック・懸念点

ユーザ課金モデルとAWSアカウント設計の前提に関する懸念が中心に寄せられました。

ユーザ数課金のため、利用者全員にフルユーザを付与すると費用が高額になるためBasicユーザーで確認できる範囲も活用した
Basic ユーザーでもダッシュボード・ログ・アラートの確認は可能で、既存の確認シナリオは簡易的には実施できた
New Relicを採用しても既存共通基盤のコストは按分されてプロダクトに加算される（AWS 費用按分）
既存Grafanaを使い続けているプロダクトとの共存期間中の二重運用コスト

費用対効果についての説明

表面コストだけでなく、運用コスト・APM 実装コスト・学習コストを含めた総合費用対効果で説明しました。

既存のGrafana + Prometheus + OpenSearch + Site24x7の合計金額に対し、将来的なユーザ・データ量を想定したNew Relicの月額コストは高くなる
ただし運用コスト・APMの実装コスト・学習コストまで含めた費用対効果ではNew Relicが優位と試算
OpenSearch を単独のシステムとして運用するとインフラコストがNew Relic以上になるケースもあり、ログ基盤リプレースだけでもコスト削減効果がある

その他、必要要件や条件

強制移行ではなく、プロダクトが自分達に合うツールを選べるようにする方針としました。

プロダクトが「Grafana + α」かNew Relicかを選択できる形式でスタート
「使いたい」ではなく「使うべきところ」に導入する方針。プロダクト単体ではなく関連プロダクトを含めた選択を推奨
New Relicはライセンス費用が発生する一方、Agent のインストールのみで導入でき、実装にかける稼働を抑えられる
自由にカスタマイズしたい・コストを最小限に抑えたいプロダクトは、引き続き Grafana + Prometheus / OpenSearch / X-Ray を選択肢として残す

活用方法

障害調査・デプロイ前後の確認・AI エージェントによるレポート取得で活用しています。

障害発生時の調査：APM → ログ → ブラウザを横断して trace.id で追跡
デプロイ前後のメトリクス変化の確認
AI エージェントから Slack 経由で日次のログサマリを自動取得
アラート発報後、AI が状況を自動分析し影響範囲と対応方針を自動整理することで初動対応時間を 30〜60分→1分に短縮しました

よく使う機能

APM
Logs
Browser
Alerts
Dashboards
Infrastructure
Synthetic Monitoring
Change Tracking
Errors Inbox
Workflow Automation
Service Levels
Serverless Functions
AI Monitoring
Trace

ツールの良い点

統合的な観測の網羅性と、IaC・APIによるカスタマイズ性を特に評価しています。

NerdGraph APIやTerraform プロバイダにより、アラート・ダッシュボードの操作をUIに限定されずに管理できる
1アカウントで複数プロダクト・複数環境を論理分離でき、横断クエリが組める
MCP Serverが公式に提供されており、AI エージェント連携の道筋が明確
自動生成されるダッシュボードを活用でき、初期導入のコストが低い
SaaSのためインフラ環境のメンテナンス（バージョンアップ対応・EOL 対応）が不要
サポート窓口・Slack 窓口があり、エンジニアへ直接連絡できる
マルチクラウド対応が可能
NRQLで複合データの組み合わせクエリが可能
生成AIを活用した分析機能が提供されている
アラート・ダッシュボード・ログなどの設定変更がNew Relic上で完結する

ツールの課題点

導入・運用を進める中で、設計時点で気を付けるべきポイントがいくつかあります。

New RelicアカウントとAWSアカウントの紐付けが1:1のため、マルチアカウント環境ではメトリクス取得方式に追加設計が必要になる
CloudWatch Metric Streams方式は網羅性が高い反面、検証時点で月額相当のコストが発生する。取得対象を絞らないとデータ取り込みコストが膨らむ
Agentのメジャー更新時に、フレームワーク側との組合せ次第でtrace属性が欠落することがある
DashboardをTerraformで管理する際に差分が見づらく、レビュー性が落ちる
NRQLやNerdGraph APIの学習コストがかかる

ツールを検討されている方へ

これからNew Relicを導入される方は、以下の観点を初期設計の段階で押さえておくと、運用に乗せやすくなります。現代のソフトウェアではオブザーバービリティツールの導入は必須と考えられます。

アカウント設計（統一 / プロダクト別）の方針を最初に決めておく。後からアカウントを跨いだデータ集約は手間が大きい
ログのマスキング/ドロップルールは導入時に設計する。PII を含む生ログを取り込んでしまうと後追いの整備が困難
CloudWatchメトリクス取得方式（Pull / Metric Streams）は事前にコスト試算する。取得対象を絞り込まないと想定外の料金になる
最初からTerraformでIaC化することを推奨。後からIaC化するコストは高い
環境別のapp分離をローカル開発含めて初期に設計しておく
業務エラーと不具合を分けて通知設計する。Errors Inbox の信頼性は初期設計で決まる

今後の展望

監視データを集約した次のフェーズとして、AI エージェントによる運用自動化とSREプラクティスの充実化を見据えています。

AIエージェントによる運用自動化の拡大（自律的なトリアージ・修正提案）
SLOベースの監視への移行とエラー予算管理の運用化
ビジネスメトリクスと技術メトリクスを1ダッシュボードで相関できる体制の構築
Service Architecture Intelligence（Catalog / Maps / Teams / Scorecards）の活用：チーム・サービス単位の可視化と健全性スコアリング

KINTOテクノロジーズ株式会社 / ryusuke.tesaki

メンバー / SRE / 従業員規模: 301名〜500名 / エンジニア組織: 301名〜500名