【ツール利用料ゼロ!】Dataform導入によるデータ基盤の運用改善事例
株式会社マイベスト / Yuto Shinahara
メンバー / データエンジニア / 従業員規模: 101名〜300名 / エンジニア組織: 11名〜50名
ツールの利用開始時期 | 事業形態 |
---|---|
2024年1月 | B to C |
ツールの利用開始時期 | 2024年1月 |
---|---|
事業形態 | B to C |
アーキテクチャ
導入の背景・解決したかった問題
導入背景
ツール導入前の課題
BigQueryでデータ分析基盤を構築。従来はTROCCOのデータマート生成機能でデータのTransformationを担っていたが、以下のような課題があった。
- GitHubベースでコード(クエリ)を管理できない → コードレビューのフローが構築しづらい
- エディタ機能の不足(実行するまでクエリのエラーに気付けない、クエリスキャン量がわからない、プレビューの表示件数制限 etc.)
- 共通のGoogleアカウントを使い回して実行する運用 → BigQueryの実行ログからは誰によるクエリ実行かが追えない
どのような状態を目指していたか
少人数のデータ人材 + 他部署のコミッターで、データ分析基盤の開発運用を回せる状態。
比較検討したサービス
dbt
比較した軸
- コードレビューのフローが作れる
- 開発者の数が増えてもコストが大きく増えない
- クエリの再利用やテーブルのアサーションが容易
選定理由
比較する際に最重要視していた点をすべて満たしており、TROCCOからの移行コストも低かった点。
導入の成果
改善したかった課題はどれくらい解決されたか
すべて解決された
どのような成果が得られたか
- レビュープロセス導入によるデータの品質向上
- TROCCO側のコスト削減
- BigQuery × Dataformの技術スタック経験のあるデータエンジニア採用に成功
導入時の苦労・悩み
移行対象テーブルの精査(野良テーブルの洗い出し)
導入に向けた社内への説明
上長・チームへの説明
ツール自体の利用料がゼロのため、費用対効果についての説明は不要だった。 ツールのメリットや移行スケジュールのみ社内で共有。
活用方法
- データ組織3名 + 他部署のコミッター数名で開発運用
- クラウド版とCLI版を用途に応じて使い分けている
- クラウド版: ワークフローの管理(スケジューラー)、基本的な開発
- CLI版: 高度な開発(AIエージェント活用、任意のエディタでの開発、複雑なブランチ運用etc.)
よく使う機能
全部(ベースがそこまで多機能なわけではないので)
ツールの良い点
- 無償で、データのTransformationに求められる大半のことが実現できる
- OSSである
ツールの課題点
- デフォルトで通知機能が備わっていない
- 不具合の改修や新機能リリースの頻度はあまり多くない
- 開発者コミュニティや開発エコシステムがdbtと比べて弱い
- .sqlx ファイルの中にクエリとメタデータを両方埋め込むため、カラム数が多いテーブルなどでコードの視認性が低下する
こちらのZenn記事にもまとめております: 2025年にDataformを使うことへの葛藤などなど
ツールを検討されている方へ
ツール利用料が無償(BigQuery側のクエリ実行に関わるコストは当然かかりますが)のため、気軽にトライアル可能です。一方で、ツールの扱いに慣れが必要なので、使い勝手の良し悪しを掴むまでに多少時間がかかると思います。数時間触るだけではなく、数週間程度、部分的に運用したうえで導入判断することを推奨いたします。
CLIベースで開発する際には vscode-dataform-tools というVSCodeの拡張機能を使うと、クラウド版と遜色ない使い勝手が実現できます。
今後の展望
- AIエージェントによる開発効率化
- 上記に向けたテーブルごとのメタデータ整備および、メタデータの記入漏れを起こさない仕組みづくり
株式会社マイベスト / Yuto Shinahara
メンバー / データエンジニア / 従業員規模: 101名〜300名 / エンジニア組織: 11名〜50名
よく見られているレビュー
株式会社マイベスト / Yuto Shinahara
メンバー / データエンジニア / 従業員規模: 101名〜300名 / エンジニア組織: 11名〜50名
レビューしているツール
目次
- アーキテクチャ
- 導入の背景・解決したかった問題
- 活用方法