atama plusのDataformの導入事例紹介
atama plus株式会社 / kumewata
メンバー / バックエンドエンジニア / 従業員規模: 101名〜300名 / エンジニア組織: 11名〜50名
利用プラン | 利用機能 | ツールの利用規模 | ツールの利用開始時期 | 事業形態 |
---|---|---|---|---|
プランはなし | ETL | 11名〜50名 | 2023年5月 | B to B B to C |
利用プラン | プランはなし |
---|---|
利用機能 | ETL |
ツールの利用規模 | 11名〜50名 |
ツールの利用開始時期 | 2023年5月 |
事業形態 | B to B B to C |
アーキテクチャ
アーキテクチャの意図・工夫
現在はデータ変換をほぼ全てDataformで実行しています。Datastream からミラー層を挟んだ後、データレイク/ウェアハウス/マート層への変換を行ないます。
本番データはミラー層と移行の層でGoogleプロジェクトを分けています。BigQueryの承認されたデータセット機能を使い、個人情報に該当するデータへのアクセスを制御しています。
またオーケストレーションツールとしてCloud Composerで一連のワークフロー管理を集約しています。Dataformの導入後に構成を整理して、ジョブのキック時にパラメータを変えるだけで別環境向けのワークフローを実行できるようにしました。
導入の背景・解決したかった問題
導入背景
ツール導入前の課題
- データ変換処理をTROCCOのデータマート機能で管理していたが、規模が大きくなるにつれてGUIのみでは管理が難しくレビュープロセスも回しづらかった。
- 複数プロダクトでデータ基盤を使い始めたため、スケールを容易にするためコード管理したくなった。
※ 2024年にTerraform Providerがリリースされ、TROCCOでもコード管理できるようになりました。弊社のDataform移行は2023年のため、選択肢がありませんでした。
どのような状態を目指していたか
ETL処理がコード管理されていて、プロダクトが増えたり環境が増えた場合でも運用コストが跳ね上がらないこと
比較検討したサービス
- dbt
比較した軸
- DWHとして使っていたBigQueryとの親和性が高いこと
- 当時専任のデータエンジニアがいなかったため、運用コストを最小限に抑えられること
選定理由
検討タイミングでリリース&ワークフロー機能もGAされ(2023年5月)、Google Cloud上で一貫してワークフロー管理までできるようになったこと。
導入の成果
改善したかった課題はどれくらい解決されたか
クエリをコード管理できるようになり、レビュープロセス改善や、複数プロダクト・環境への対応が楽になりました。
どのような成果が得られたか
GitHubのPRベースでクエリ変更が進むようになり、変更の透明性が上がりました。 また、DWHが主要プロダクトの本番データ分析のみ可能だった状態から、リバースETLや開発環境向けパイプラインを追加する際に最小工数で進めることができました。
導入時の苦労・悩み
- クエリの移行にマンパワーが必要だったので、データに関心の強い開発メンバーを募って一気に移行を進めました。
- 当時メタデータ管理をTROCCO上で管理していましたが、データ活用のために合わせて移行する必要がありました。のちのちDataplex等に移行することを見越して、まずはスプレッドシートで簡易的なメタデータ管理をすることにしました。
導入に向けた社内への説明
上長・チームへの説明
ツールの選定はチームに委ねられていたため、特に求められた要件はありませんでした。
活用方法
よく使う機能
- ワークスペース、GitHub連携
Dataform用のリポジトリをGitHub連携できるので、コンソール上のワークスペースからクエリ結果を確認しながらウェアハウス/マートを更新できます。まだプレビューですが(2024/11/11時点)、Geminiアシスタントも出てきて、非エンジニアでも徐々に扱いやすくなってきています。
- ジョブ実行周りのAPI
前述したCloud ComposerからのAPI利用で、環境ごとに一連のワークフロー管理をしています。
ツールの良い点
- BigQueryを採用しているなら、工数もコストも抑えて導入できる
- ツールの使い方がシンプルなので、クエリを書けるなら利用ハードルが低い
ツールの課題点
- 周辺ツールの開発やコミュニティなどは対抗のdbtの方が盛んである
- 特にカラムリネージ関係の機能は、他ツールの方が充実している(2024 11/11時点プライベートプレビュー)
- コンパイル実行時のログを確認できない
ツールを検討されている方へ
すでにDWHとしてBigQueryを利用されている場合、導入ハードルが低いのでおすすめです。
atama plus株式会社 / kumewata
メンバー / バックエンドエンジニア / 従業員規模: 101名〜300名 / エンジニア組織: 11名〜50名
サーバーサイドエンジニアを数年経験したのち、2023年秋からデータエンジニアをしています。普段の業務ではデータ基盤構築やデータ利活用のサポートをしています。
よく見られているレビュー
atama plus株式会社 / kumewata
メンバー / バックエンドエンジニア / 従業員規模: 101名〜300名 / エンジニア組織: 11名〜50名
サーバーサイドエンジニアを数年経験したの...
レビューしているツール
目次
- アーキテクチャ
- 導入の背景・解決したかった問題
- 活用方法