Belong における dbt-core の活用例
会員限定コンテンツです。無料登録すると制限なしでお読みいただけます。
レビュー投稿日の情報になります
株式会社Belong / tomoyukik
メンバー / データエンジニア
最終更新日投稿日
利用プラン | 利用機能 | ツールの利用規模 | ツールの利用開始時期 | 事業形態 |
---|---|---|---|---|
dbt-core | データパイプライン構築機能 | 10名以下 | 2022年12月 | B to C |
利用プラン | dbt-core |
---|---|
利用機能 | データパイプライン構築機能 |
ツールの利用規模 | 10名以下 |
ツールの利用開始時期 | 2022年12月 |
事業形態 | B to C |
アーキテクチャ
会員限定コンテンツ無料登録してアーキテクチャを見る
アーキテクチャの意図・工夫
- 現時点では、SQL によるデータ処理により必要なデータ加工が十分に行えることと、スケーリングに関する考慮事項を BigQuery の仕組みに任せることができる
- Cloud SQL や Google Drive、Cloud Storage などの複数のデータソースを BigQuery に集約し、一元的に処理することで簡単化している
導入の背景・解決したかった問題
導入背景
ツール導入前の課題
- 経営陣や事業責任者が Google Spreadsheet や Looker Studio を使ってデータ活用を行っていた
- データの集計が属人化しており、データ連携にも課題を抱えていた
どのような状態を目指していたか
- 属人性が廃され、共通の指標を全社的に確認できる状態
比較検討したサービス
- DataProc Serverless for Spark
比較した軸
- スケーリングのしやすさ
- データ加工のしやすさ
- 運用コストの低さ
選定理由
- BigQuery をプラットフォームとして利用できることによるスケーリング
- 運用負荷や開発コストが低く、素早くビジネスインパクトを出せる点
導入の成果
改善したかった課題はどれくらい解決されたか
- DWH を全社的に利用できるようになったことで、共通の指標を社内で利用できるようになった
- モデルがコード管理できることにより、属人性を廃したデータ集計が行えるようになった
どのような成果が得られたか
- 社内で要求されるデータを素早く提供できるようになった
導入に向けた社内への説明
上長・チームへの説明
- BigQuery を利用しつつ SQL のみでパイプラインの構築ができるため、課題に対して素早い対応が可能
- シンプルな構成のため運用負荷が低く、小さい規模のチームでも運用がしやすい
活用方法
よく使う機能
- dbt test
- CI での test と日時での test によるデータモニタリングを実施している
- dbt docs
- dbt-osmisis の extension を導入し、データカタログの自動生成を行っている
- docs により生成される lineage 図を開発時に参照している
ツールの良い点
- SQL だけでパイプラインが構築できるため、運用保守のコストが小さい
- test 機能によりデータ監視が行える
- lineage 図が生成されるため、パイプラインの全体像が把握できる
ツールの課題点
- column-level-lineage が使用できない
- データカタログがデータセットごとにまとめられており、dbt や BQ 上の構成を把握している前提になっている点が使いづらい
- 開発者と利用者で、データカタログ上で確認できるモデルを制御したい
- lineage 図のオプションを保存したり、デフォルトのオプションを指定できない
- lineage 図上に Cloud SQL をソースとして表示できない
株式会社Belong / tomoyukik
メンバー / データエンジニア
よく見られているレビュー
株式会社Belong / tomoyukik
メンバー / データエンジニア
レビューしているツール
目次
- アーキテクチャ
- 導入の背景・解決したかった問題
- 活用方法