株式会社IVRy: プロダクトへのデータ転送パイプラインでの dbt Core 導入事例
会員限定コンテンツです。無料登録すると制限なしでお読みいただけます。
レビュー投稿日の情報になります
株式会社IVRy / wxy-zzz
メンバー / データアナリスト
最終更新日投稿日
ツールの利用規模 | ツールの利用開始時期 | 事業形態 |
---|---|---|
10名以下 | 2024年10月 | B to B |
ツールの利用規模 | 10名以下 |
---|---|
ツールの利用開始時期 | 2024年10月 |
事業形態 | B to B |
アーキテクチャ
会員限定コンテンツ無料登録してアーキテクチャを見る
導入の背景・解決したかった問題
導入背景
ツール導入前の課題
- バッチで実行されるプロダクトへのデータ転送のためのデータパイプラインを TROCCO にクエリを直接登録する形で実現していたが、クエリを更新する際にエラーのないクエリを正しく登録するプロセスが整備されていなかった
より詳細な背景はこちらをご確認ください。
どのような状態を目指していたか
- GUI 操作によるヒューマンエラーを低減し、お客様に影響のあるデータ転送処理の品質を担保できる状態
- stg/prd の環境別のクエリが正しく設定されているか
- クエリの結果が意図したものであるか
選定理由
- dbt はエコシステムが充実しており、TROCCO の機能に依存した構成にするよりも、データ加工部分を dbt に寄せておくことで今後アーキテクチャ変更があっても柔軟に対応可能だと判断した
導入の成果
改善したかった課題はどれくらい解決されたか
- 【解決】stg/prd の環境別のモデルを一元的に GitHub で管理し、それぞれの環境にデプロイできるようになった
- 【半分くらい解決】データ転送前にデータテストが行われ、問題がある場合に処理を停止できるようになった(テスト項目の整理がまだ完璧ではない)
導入に向けた社内への説明
上長・チームへの説明
メリット・デメリットをそれぞれ説明
- メリット
- 社内に既に導入事例(分析用データパイプラインでの dbt 利用)があり、導入に対するハードルが低い
- プロダクトへのデータ転送前に、データの加工結果をテストできる仕組みになる
- stg/prd などの環境別のモデルを一元的に管理できるようになる
- デメリット
- dbt というツールに加えて、モデル管理を GitHub で行うことになるので、一部メンバーにはラーニングコストが発生
活用方法
よく使う機能
- データ処理の実行 (dbt run)
- 実行自体は TROCCO からキックできるため、既存のアーキテクチャほぼそのままで dbt の実行だけを追加している
- データテスト (dbt test)
- プロダクトにデータを転送する前に最低限の品質をチェックできるため、意図しないデータが転送されてお客様影響が出てしまうことを防げる
ツールの良い点
- SQL だけでデータパイプラインが構築できるので、PdM でも加工処理を調整したりできる
- CI や dbt test で、クエリや加工結果のデータのエラーチェックができる
ツールの課題点
- dbt そのものよりも、クエリを管理する GitHub など周辺のツールに対して、慣れていない人への負荷(ラーニングコスト)が少しあるように思う
株式会社IVRy / wxy-zzz
メンバー / データアナリスト
よく見られているレビュー
株式会社IVRy / wxy-zzz
メンバー / データアナリスト