New Relicの導入効果をレビューでご紹介(牛尾 哲朗-弥生株式会社)
弥生株式会社 / 牛尾 哲朗
テックリード / テックリード / 従業員規模: 501名〜1,000名 / エンジニア組織: 101名〜300名
利用プラン | ツールの利用規模 | ツールの利用開始時期 |
---|---|---|
Pro プラン | 101名〜300名 | 2016年 |
利用プラン | Pro プラン |
---|---|
ツールの利用規模 | 101名〜300名 |
ツールの利用開始時期 | 2016年 |
導入の背景・解決したかった問題
導入背景
複数の開発チームがそれぞれ異なるWebサービスを開発し、そのサービスを別の保守チームが保守・運用している状態でした。オブザーバビリティへの取り組みも行っておらず、単なるサービス監視の用途でZabbixやMackerelを導入しておりました。
当時の課題としては以下の2つが挙げられます。
- 単なる監視しか行っていないため、システム内部の状態を推測・把握する能力が乏しく、問題への対応が後手になっていた
- サービス開発を行うチームと運用を行うチームが分かれており、障害発生時の情報連携にラグとコストが生じていた
ツールを知ったきっかけは開発チームメンバーからの提案であり、上記の課題を解消するために是非New Relicを使ってみたいという話になりました。
【トライアルについて(実施有無、トライアルの結果)】
当時(2016年)はNew Relicの日本法人がなかったため自分たちで調査して、まずはYAYOI SMART CONNECTというサービスに無償版のNew Relicを導入してPoCを行いました。(ライセンス周りは導入当時と現在とは大きく異なるので注意が必要です。)利用してみた結果、特にAPMでのAPIトレーシング可視化機能に大きな魅力を感じて継続利用を決めました。
比較検討したサービス
Datadog
選定理由
- 必要としていたのはAPM(アプリケーションパフォーマンス監視)の機能であり、New Relicの方がよりAPMに特化しているサービスであると判断したため
- 有償版を視野に入れた際にNew Relicの方が低コストで運用が可能であったため
※(比較当初の話であり、また運用方法によって変わる可能性があります。)
導入時の苦労・悩み
【導入推進時の苦労について】
導入当初はNew Relicの日本法人がまだ設立されておらず、意図した通りに動かない際の問題解決や最適な運用方法についても正解が見えない中、自分たちで試行錯誤するしかなかった点です。
【どのように乗り越えたか】
我々が実現したいこと(APM)を明確にしつつ、その設定や運用について都度調査・トライアンドエラーをひたすら繰り返しました。
今現在においてはNew Relic(日本法人)と連携することが出来ているので、当初と比べて無駄な手間は大分少なくなりました。
導入に向けた社内への説明
上長・チームへの説明
最初は無償版で運用していたため、マネージャー層への説得や費用対効果の説明は不要でした。
今まで開発と運用チームが分かれてしまっていたところから、New RelicによってDevOpsの体制を推進できるようになり、問題が顕在化する前にプロアクティブに対応できるようになるという一番解決したい課題にアプローチすることができることを伝えました。
また、有償化を行う際も、費用対効果より理想としている運用が実現可能であるかというポイントを中心にディスカッションしました。
- 複数チームがそれぞれ異なるアカウントで運用することは可能であるか
- ログやトレーシング情報については、自チームの情報だけでなく全てのサービスを横断的に閲覧することが可能であるか
最終的に、YAYOI SMART CONNECTでの運用実績と効果が認められたことやNew Relicの日本法人が設立され、全面的なバックアップ体制を構築していただけることになった等の理由から、有償版のNew Relicの全社的な利用が決定されました。
活用方法
よく使う機能
デプロイ前後でのエラー発生率、各APIのパフォーマンスなどを比較し、想定通りであるかを確認しています。想定通りでない場合はトレーシング情報などからその原因個所の特定と対応を行います。 (本番環境のみでなく、テスト環境でも同様の比較確認を行います。)
- APM&Services
- サービスやAPIの統計情報
- 個別処理のトレーシング情報
- Browser
- サービスやページの統計情報
- 個別のセッショントレース情報
- Alerts&AI
- 静的な閾値やAIによる状況変化によるアラート発砲設定を行い、発砲されたアラートをトリガーとしてシステムの状態の確認や対応を行っています。なお、発砲設定はお客さまへの影響が出る前、もしくは影響の初期段階で発砲されるようにしています。
- アラートに関する統計情報
- 個別のアラート情報
ツールの良い点
- オブザーバビリティを高めるのに十分な機能が備わっている
- システム内部の状態が可視化できるようになりました。サービスの統計情報はもちろん、サービスを跨ったトレーシング情報を確認することで運用・保守の効率を飛躍的に向上させることができます。
- ドキュメントの充実と手軽な導入
- ドキュメントが充実しており、一般的な環境であれば導入に手間取ることはないはずです。
- ストレスなく利用できる
- サービスの応答時間も優れており、操作中にストレスを感じることもありません。また、New Relicの機能追加・改善も短いスパンで行われています。
ツールの課題点
- 大人数で利用する場合にライセンス料が高額になる
- 全員に有償ライセンス(Full Platform User)を与えるのが難しいと、どうしても俗人化が起きてしまいます。
- 必ずしも機能面で最前線を走っている訳ではなさそう
- 厳密に比較していないので分かりませんが、New Relicの新機能がリリースされた際に検索をしてみると既にDatadogなどで類似機能が実現されていたりすることが少なからずあります。そのため、機能面で常に最前線を走っている訳ではなさそうです。
ツールを検討されている方へ
自身のサービスにおいてオブザーバビリティをどのように高めていけばよいか、またその具体的な方法論に唯一無二の方法はないので、オブザーバビリティに関するサービスやツールを開発・運用している企業、もしくはそれらの支援を行っている企業や団体に協力していただくのがより妥当で効率的な運用を行う上での近道になるかと思っています。
また、一気に導入を進めていこうとするとうまくいかないケースがあるので、何を一番課題と考えているのかを検討した上で、方法として何が最適かを見極めて一歩ずつ拡張していく進め方が良いかと思います。
弥生株式会社 / 牛尾 哲朗
テックリード / テックリード / 従業員規模: 501名〜1,000名 / エンジニア組織: 101名〜300名
ソフトウェアベンダーにてアプリケーション開発を経験したのち、2016年に弥生株式会社へ入社。 ML系のテックリードをしばらく担い、現在は弥生Nextの全体アーキテクチャ検討チームのテックリードやYAYOI SMART CONNECT後継サービスのエンジニアを兼任。
よく見られているレビュー
弥生株式会社 / 牛尾 哲朗
テックリード / テックリード / 従業員規模: 501名〜1,000名 / エンジニア組織: 101名〜300名
ソフトウェアベンダーにてアプリケーション...
レビューしているツール
目次
- 導入の背景・解決したかった問題
- 活用方法