Dataformとは?機能や特徴・製品の概要まとめ
Dataform
Google
Dataformのプロダクト概要
Dataformとは
SQL を使用して BigQuery でスケーラブルなデータ変換パイプラインを開発、運用します。
- BigQuery で、キュレートされた最新の信頼できる文書化されたテーブルを開発する
- データ アナリストとデータ エンジニアが同じリポジトリでコラボレーションできるようにする
- SQL を使用して BigQuery でスケーラブルなデータ パイプラインを構築する
- GitHub および GitLab と統合する
- インフラストラクチャの管理を必要とせずにテーブルを最新の状態に保つ
Dataformの特徴
1. データ変換を管理するためのオープンソースの SQL ベースの言語
Dataform Core を使用すると、データ エンジニアやデータ アナリストは、テーブル定義の一元的な作成、依存関係の構成、列の説明の追加、データ品質アサーションの構成を SQL のみを使用して単一のリポジトリで行うことができます。
Dataform Core 関数は、既存のコードを変更することなく、段階的に追加して導入できます。
Dataform Core はオープンソースで、ローカルで使用できるため、特定のベンダーに依存することがなく、より高度なユースケースにも柔軟に対応できます。
2. データ パイプラインのフルマネージド サーバーレス オーケストレーション
Dataform は、テーブル間の依存関係に従って、最新バージョンのコードを使用してテーブルを更新する運用インフラストラクチャを処理します。Dataform が統合されたことで、リネージとデータ情報をシームレスに追跡できるようになります。SQL ワークフローを手動でトリガーすることも、Cloud Composer、Workflows、サードパーティのサービスを介してスケジュールすることもできます。
3. SQL で開発を行うための多機能のクラウド開発環境
ウェブブラウザから離れることなく、単一のインターフェースからテーブルの定義、リアルタイムのエラー メッセージに関する問題の修正、依存関係の可視化、Git への変更の commit を行い、数分でパイプラインをスケジュールします。リポジトリを GitHub や GitLab などのサードパーティ プロバイダに接続します。変更を commit して、IDE から push または pull リクエストを行います。