データ分析基盤リニューアルの要
株式会社キュービック / yuta-ozakii2111
テックリード / テックリード / 従業員規模: 301名〜500名 / エンジニア組織: 51名〜100名
ツールの利用開始時期 |
---|
2022年2月 |
ツールの利用開始時期 | 2022年2月 |
---|
アーキテクチャ
アーキテクチャの意図・工夫
広告/成果レポートのインポートに一定のコストが掛かっており、自動化をしたかったため上記のような構成図にしています。
また、データマート機能によりRedshiftに蓄積したローデータの加工ができるようになったため、trocco APIを活用して整形/集計ロジックの実行トリガーとしても活用しています。
導入の背景・解決したかった問題
導入背景
DX戦略の一環として中長期計画でデータ活用基盤の構築(DWH化)を進めようとしていました。その過程で、自社メディアの広告/成果集計を行う事業基幹システムであるCUEBiC Analytics(以降CBA)の老朽化が技術的負債となっておりビジネス要求に対して答えられなくなってきており、DWHのR&DとCBAのリニューアルを並行して推進することになりました。
また、CBAにおけるメインの開発メンバーの離脱等により開発チームのリビルドが必要な状態でした。
そこで既存の機能を最小限に縮小してローコード/ノーコード化を進めることで、特定の人員の属人化を防ぎつつ、開発スキルを軟化させ、開発速度の高速化を図ろうとしました。
比較検討したサービス
Databeat
比較した軸
- 既存の運用業務を自動化あるいは半自動化できるか
・データのインポートに関しては自動で収集できる範囲が限定的であったためこちらを拡張しつつローコード/ノーコード化可能か - 収集データの既存取得項目の担保
・既存で収集しているデータが過不足なく取得できるか - 収集データの取得可能タイミングの制約
・1日前のデータが取得できるか - 収集データをRDBなどに連携できるか
・新たなビジネスドメインのデータを扱うポテンシャルがあるか
選定理由
広告コネクタが豊富でAWSアプリケーションとも親和性のあった点
導入時の苦労・悩み
検討時期はCBAのキャッチアップとDWHを含むリニューアルのR&Dを並列で実施しなければならず、
既存の技術的負債の整理と実現可能性の検証が大変でした。
導入時期においては、実際にtroccoやDWH化により得られる成果とコストの試算をしつつ、導入計画を立てなければいけなかったのですが、事前に予算枠を確保していなかったため、3ヶ月おきにゲートウェイを設けて最小限のコストで検証を行いつつスケールさせていく必要がありました。
導入に向けた社内への説明
上長・チームへの説明
社内・チームにおける展開・活用推進
既存のCBAでは、広告とASP(アフィリエイトサービス・プロバイダー)からのレポートを手動で取り込み、データを加工してAWSのRDSに保存し、BIツールのTableauで参照する形をとっていました。
そこで、手動でインポートしている部分をtroccoでローコード化できないか検討することにしました。検討段階では2週間のトライアル期間を設け、主要な広告媒体とASPについてデータ連携が可能かを確認しました。
別軸で、DWH選定を行いRedshiftとの連携も見据え、2022年当初は最小プランのLightプランで契約し、段階的にスケールさせていく方針で進めました。
複数回の試行錯誤を重ねた結果、troccoでのデータ収集のイメージが固まったため、Standardプランに移行し、収集だけでなくデータマート機能を使ってRedshiftのストアドプロシージャを呼び出すことで、データの整形と集計も行うシンプルな構成に変更しました。
活用方法
新規ビジネスにおけるドメインデータの疎通確認として活用しています。
よく使う機能
- ワークフロー機能
- trocco API
- データマート機能
ツールの良い点
- API連携が初見なサービスに関してtroccoですでにコネクタがあれば開発前に試すことで広告と成果以外のデータに関して取得可能な項目と制約事項などを早期にキャッチすることができた。(GA4など)
2. trocco自体でtrocco APIを提供しており、設定した転送設定やワークフロー定義を外部からキックすることができ負荷テストなどが容易に行うことができた。
3. RDS→Redshift連携などが可能で少量のデータであればタイムリーに移行ができた。(データ型のCASTもAWS Glueより優秀だった)
ツールの課題点
- troccoでは、収集したデータをtrocco内に保持できず、どこかしらに出力する必要があった。
- troccoはALL OR NOTHINGの思想で設計されており、ワークフロー機能で問題のあったものはresponseを戻り値として通知しつつ、処理を動的にリトライするというようなことができなかった。(コンソール上で目視確認しリトライは可能)
ツールを検討されている方へ
trocco®️は、豊富なコネクタだけでなく、データ連携に強みを持っていると思います。
コネクタ×スプレッドシート等の収集→出力といった小規模なデータ連携による課題解決から、BigQuery⇔Redshiftなどマルチプラットフォーム間の連携なども対応しており、扱うビジネスドメインのデータが増えた場合でも対応が可能なポテンシャルを秘めています。
また、trocco自体の機能だけでなく、CSのサポートが手厚く日々のトラブルシューティングだけでなくアーキテクチャのディスカッションなどもしていただけたので伴走型で支援をいただきながら0→1を進めることができました。社内に有識者が不在の際に社外の心強いメンターとなるかと思います。(契約プランによりサポート内容は変動)
2024年4月のプラン改定によりフリープランからでも4時間までならコネクタ制限なしで利用が可能になったため2年前に検討した時よりもさらに検証がしやすくなっていると思います。
株式会社キュービック / yuta-ozakii2111
テックリード / テックリード / 従業員規模: 301名〜500名 / エンジニア組織: 51名〜100名
日本コンピュータシステム株式会社、株式会社ヒトメディアにてアプリケーションエンジニアとして管理業務を中心に従事。 株式会社SHIFTにてQAエンジニアとして従事した後、株式会社キュービックにテックリードとしてジョイン。 新規プロダクト開発や横串での組織課題の解決を推進しつつ、データエンジニアとしてデータ分析基盤のリニューアルとDWH化を担当。直近では、データ活用のメイン推進担当としてデータ戦略の策定をしつつ課題抽出から機械学習モデルのビジネス適用に至るまでを一気通貫で実施
よく見られているレビュー
株式会社キュービック / yuta-ozakii2111
テックリード / テックリード / 従業員規模: 301名〜500名 / エンジニア組織: 51名〜100名
日本コンピュータシステム株式会社、株式会...
レビューしているツール
目次
- アーキテクチャ
- 導入の背景・解決したかった問題
- 活用方法