PLAY CLOUD における New Relic の活用
株式会社PLAY / Kenichi Maruyama
テックリード / テックリード / 従業員規模: 101名〜300名 / エンジニア組織: 101名〜300名
| ツールの利用規模 | ツールの利用開始時期 | 事業形態 |
|---|---|---|
| 11名〜50名 | 2024年11月 | B to B |
| ツールの利用規模 | 11名〜50名 |
|---|---|
| ツールの利用開始時期 | 2024年11月 |
| 事業形態 | B to B |
導入の背景・解決したかった問題
導入背景
ツール導入前の課題
弊社が提供するクラウドプラットフォーム「PLAY CLOUD」は、コンテンツホルダーと配信サービスをつなぐメディアサプライチェーンプラットフォームとして、安定かつ高品質な映像配信はもちろんのこと、配信素材の管理や外部共有、簡易編集や外部サービスへの入稿など、その提供機能は多岐にわたります。システムの観点では、動画のトランスコード処理や外部サービスとの通信などを含む、数多くの非同期処理が存在しており、これらはシステムの複雑性を増す要因となっていました。
こういった状況から、何らかのイレギュラーが発生した際の調査時間が増加したり、その調査対応の負荷が一部のベテランエンジニアに集中したり、といった影響が次第に顕在化するようになりました。手遅れになる前に、システムの可観測性を改善することが急務であると考え、オブザーバビリティツールの導入検討を開始しました。
どのような状態を目指していたか
トラブルが発生した際に、どこで何が起きているのかをベテランエンジニアがログなどを調査しなくてもすぐに把握できる状態をつくり、トラブル対応の負荷や解決までの時間を減らすことを初期の目標としました。また、APM を導入してパフォーマンスのボトルネックを特定し、チューニングを施すことでインフラコストを削減するという定量的な目標(数値目標)も設定しました。
比較検討したサービス
- New Relic
- Datadog
- Sentry
比較した軸
当時は社内でオブザーバビリティの導入事例がなく、私自身もオブザーバビリティに対する理解がほとんどない状態でしたので、専属のエンジニアがアサインされるなど、しっかりとしたサポート体制のあるサービスの中から選びたいと考えていました。
選定理由
New Relic は、投入したデータ量とユーザー数に基づく課金モデルがシンプルで分かりやすく、かつ合理的であると感じました(現在はユーザー数の代わりに、実際に使用したコンピューティングリソース (CCU) の量で課金されるプランもあります)。加えて、メディア・エンターテインメント業界では New Relic の採用例が比較的多く、実際に弊社とつながりのある複数の企業様でも導入事例がありましたし、Video Agent など動画配信に特化した機能が New Relic で提供されていたことも決め手になりました。
導入の成果
どのような成果が得られたか
New Relic の APM エージェントをアプリケーションに組み込むだけで、API ごとの CPU 時間や、特に時間のかかっている処理セグメント(データベースクエリ、外部システムとの通信など)が明らかになるため、効率的にパフォーマンス改善に取り組むことができました。その結果、データベースの呼び出し回数を減らしたり SQL 自体を最適化したりしたことでデータベースのインスタンスサイズを落とし、AWS の原価を年間で数百万円削減することができました。
また、STG 環境においても各種モニタリングの設定を行うことにより、これまでは見落としていたアプリケーションエラーも拾うことができるようになりました。その結果、本番環境にデプロイする前により多くの不具合を発見して修正できており、プロダクトの品質改善につながっていると考えています。
導入に向けた社内への説明
上長・チームへの説明
オブザーバビリティに対する社内の理解があまりない状態でしたので、提案の際はなるべく具体的なコストメリットについて言及するようにしました。例えば、APM を導入することでアプリケーションのボトルネックが可視化され、CPU 使用率を 20% 削減できる見込みなので、AWS の原価に換算すると XXX 円のコスト削減となり、New Relic 導入に伴うコストを十分にペイできる、といった文脈で提案を行いました。New Relic は無料でも一定量までは利用できますし、担当者に連絡すれば条件付きで上限を開放していただける場合もありますので、それらも活用しつつ、どれだけ原価削減を達成できそうか見積もるのがよいと思います。
活用方法
毎週 New Relic のダッシュボードを確認する会を設けており、直近 1〜2 週間のエラー発生状況やコストの状況、パフォーマンスのメトリクスについて、意図しない変化がないかを確認しています。こうした取り組みにより、チームメンバーがオブザーバビリティに対して関心を持ってもらうようにしています。
よく使う機能
- APM (Application Performance Monitoring)
- Browser Monitoring
- Distributed Tracing
ツールの良い点
- エージェントを導入するだけでさまざまな情報を簡単に収集できる
- ブラウザからバックエンド、インフラまでをひとつのツールで監視できる
- ユーザーコミュニティも活発であり、さまざまな最新活用事例が得られる
ツールの課題点
- 機能を完全に使いこなすにはそれなりの学習コストが必要
- 大規模に利用する場合は利用料金もそれ相応にかかってくる
今後の展望
New Relic は AI を活用したさまざまな機能を最近リリースしています。例えば、アプリケーションに発生した問題を自動的に検出、エージェントが自律的に根本原因の調査を行い改善案を提示するといった機能も登場してきています。改善案の提示だけでなく、実際の修正やリリースまでが完全に自動化されるのも、そう遠くない未来かもしれません。もちろん、すべて自動でうまく行くケースはまだ稀であるとは思いますが、システム運用のトイル削減のため、こういった AIOps の機能も積極的に活用していきたいと考えています。
株式会社PLAY / Kenichi Maruyama
テックリード / テックリード / 従業員規模: 101名〜300名 / エンジニア組織: 101名〜300名
よく見られているレビュー
株式会社PLAY / Kenichi Maruyama
テックリード / テックリード / 従業員規模: 101名〜300名 / エンジニア組織: 101名〜300名
レビューしているツール
目次
- 導入の背景・解決したかった問題
- 活用方法

