TROCCO/COMETAのモニタリングに適材適所で活用するNew Relic
株式会社primeNumber / tk3fftk
EM / EM / 従業員規模: 101名〜300名 / エンジニア組織: 11名〜50名
利用プラン | 利用機能 | ツールの利用規模 | ツールの利用開始時期 | 事業形態 |
---|---|---|---|---|
Standard | APM, Synthetic Monitoring, Alerts, Dashboard, Service Levels | 11名〜50名 | 2017年 | B to B |
利用プラン | Standard |
---|---|
利用機能 | APM, Synthetic Monitoring, Alerts, Dashboard, Service Levels |
ツールの利用規模 | 11名〜50名 |
ツールの利用開始時期 | 2017年 |
事業形態 | B to B |
アーキテクチャ
アーキテクチャの意図・工夫
この図にはありませんが、他にもRollbar, Redash, CloudWatchをモニタリングツールとして利用しています。それぞれのツールで監視するのがベターな項目を監視しているつもりですが、管理が分散してしまっている課題もあります。
導入の背景・解決したかった問題
導入背景
現CTO含め入社前のため不明
導入に向けた社内への説明
上長・チームへの説明
現CTO含め入社前のため不明
活用方法
- (一部の) SLO計測
- Service Levels 機能を使ってSLOを作成
- 定期的に目に触れるようにしたいので、Dashboardに移行してLambdaでAPIを実行しSlackに毎日グラフを投稿
- 詳しくは troccoとNew Relicを利用してtroccoのSLI/SLOを計測する を参照してください
- 週1のエンジニアの定例ミーティングでDashboardの確認
- 過去1週間のAPMのTransactionのうち特に遅いものをリストアップするクエリを用意し、エンジニアみんなで眺める
- 必要があればissue化しどこかのチームにアサインして調査・解消
- 過去1週間のAPMのTransactionのうち特に遅いものをリストアップするクエリを用意し、エンジニアみんなで眺める
- Kubernetes関連のAlerts、モニタリング
- Podリソース、EventsなどCloudWatchでは見にくいものをNew Relicでアラーティング
- リソースについては必要に応じてDashboard, NRQLを用いて過去分を確認してトラブルシュート
- OOM Eventを定期的に取得して、必要に応じてアプリケーション側に情報を追加
- Synthetic Monitoringによるサービスの外形監視
- NRQLが初見では難解なため、調べたい事象からNRQLを探せる「逆引きリスト」のようなものを用意しています
- UserとAlerts周りに関しては、Terraform の New Relic Provider を利用してコード管理しています
よく使う機能
APM, Alerts, Dashboard
使い方は前の項目の通りです。
ツールの良い点
- APMの取得がとてもかんたん
- 公式ドキュメントのClient, Agentのリリースノートが充実している
- 多機能なので、New Relicだけで色々なことができる
ツールの課題点
- コスト面
- Basic User 以外の料金が高額
- AWSのメトリクス等も含めすべてを集約しようとするとコスト的に厳しい (ので行っていません)
- デフォルトのデータ保持期間の短さ
- 長くしようとすればするだけお金がかかる
- NRQLの学習コストの高さ・クセ
ツールを検討されている方へ
多機能ゆえにその分コストが上乗せされていたり、気付かないうちにデータ転送量が膨らんでいたりすることがある印象です。使いたい用途や組織的、機能的な利用のスケールまで考えてコスパよく利用できるかどうかを検討するといいかもしれません。
今後の展望
New Relicをフル活用する方向に倒すか、引き続き適材適所でモニタリングツールを利用していくかの検討をしたい。
株式会社primeNumber / tk3fftk
EM / EM / 従業員規模: 101名〜300名 / エンジニア組織: 11名〜50名
2016年にヤフー株式会社に新卒入社し、社内のエンジニア向けプラットフォームの開発と運用を行うチームのエンジニア・スクラムマスター、CI/CD プラットフォームの SRE チームのエンジニアリングマネージャーなどのロールで経験を積んできました。その後、2022年7月にprimeNumberへ入社。現在はSRE Groupのマネージャーとして、TROCCO®️の信頼性を高めるための改善を推進しています。
よく見られているレビュー
株式会社primeNumber / tk3fftk
EM / EM / 従業員規模: 101名〜300名 / エンジニア組織: 11名〜50名
2016年にヤフー株式会社に新卒入社し、...
レビューしているツール
目次
- アーキテクチャ
- 導入の背景・解決したかった問題
- 活用方法