データパイプラインのツール - 製品一覧から機能の違いや活用事例を紹介
データパイプラインの活用事例

スマートなストリーミングデータパイプラインを作成・管理するためのプラットフォーム。ハイブリッドおよびマルチクラウド環境でのシームレスなデータ統合を可能にする。

Google CloudサービスとAPIを組み合わせて、信頼性の高いアプリケーション、プロセス自動化、データ/MLパイプラインを構築するためのオーケストレーションサービス。

セルフサービスのデータ管理プラットフォーム。既存のアプリ、ワークフロー、データソースを単一の管理環境に統合し、データアプリの構築とデプロイを迅速化。

データパイプラインとAIプラットフォーム構築のためのモダンなデータオーケストレーター。Pythonコードによるパイプライン定義、dbt連携、豊富なメタデータと可観測性を提供。

Pythonベースのワークフローオーケストレーションツール。動的で依存関係のあるワークフローの構築、実行、監視を容易にする。OSS版とクラウド版(Prefect Cloud)がある。

バッチおよびストリーミングデータ処理のための統合プログラミングモデル。多様な実行環境(Runner)でパイプラインを実行可能。Java, Python, Go, TypeScriptなど複数の言語をサポート。

Pythonでプログラム的にワークフローを作成、スケジュール、監視するためのプラットフォーム。動的なパイプライン生成、スケーラビリティ、豊富な連携機能を持つ。Web UIによる監視・管理も可能。

SQL を使用して BigQuery でスケーラブルなデータ変換パイプラインを開発、運用します。
- BigQuery で、キュレートされた最新の信頼できる文書化されたテーブルを開発する
- データ アナリストとデータ エンジニアが同じリポジトリでコラボレーションできるようにする
- SQL を使用して BigQuery でスケーラブルなデータ パイプラインを構築する
- GitHub および GitLab と統合する
- インフラストラクチャの管理を必要とせずにテーブルを最新の状態に保つ

SFTP, FTPS, FTPプロトコルを使用して、Amazon S3やAmazon EFSとの間でファイルを直接転送できるフルマネージドサービス。

エクサバイト規模のデータをAWSクラウドとの間で移動できるデータ転送サービス。最大100PBのデータを格納できる45フィートの堅牢な輸送コンテナを使用。

AWS Snowファミリーの最小メンバーで、ポータブルで堅牢、安全なエッジコンピューティング、エッジストレージ、データ転送デバイス。

AWSへの移行プロジェクトの計画と追跡を一元的に行うためのサービス。アプリケーションポートフォリオの検出と評価、移行状況の監視を支援。

(MWAA) オープンソースのワークフローオーケストレーションツールであるApache AirflowをAWS上で簡単に実行できるマネージドサービス。

オンプレミスアプリケーションをAWSクラウドストレージ(S3, EBS, Glacier)にシームレスに接続するためのハイブリッドクラウドストレージサービス。

ペタバイト規模のデータをAWSとの間で物理的に転送するためのエッジコンピューティング、データ移行、エッジストレージデバイス群。Snowball EdgeとSnowconeを含む。

大量のIoTデータを簡単に分析するためのフルマネージドサービス。データのフィルタリング、変換、エンリッチ、保存、分析、可視化機能を提供。

データの抽出、変換、ロード (ETL) を簡単に行うためのフルマネージドなETLサービス。データカタログ機能も提供。

(Elastic MapReduce) Apache Spark, Hadoop, HBase, Flink, PrestoなどのビッグデータフレームワークをAWS上で簡単かつコスト効率よく実行できるクラウドビッグデータプラットフォーム。

(DMS) リレーショナルデータベース、データウェアハウス、NoSQLデータベースなどをAWSへ簡単かつ安全に移行するためのサービス。

オンプレミスストレージシステムとAWSストレージサービス間、またはAWSストレージサービス間で、大規模なデータセットの移動を簡素化、自動化、高速化するオンラインデータ転送サービス。

異なるAWSコンピューティングおよびストレージサービス間、ならびにオンプレミスデータソース間で、データの移動と変換を確実に行うためのウェブサービス。

(MGN) オンプレミス、プライベートクラウド、他のパブリッククラウドからAWSへアプリケーションをリホスト(リフトアンドシフト)するための主要な移行サービス。

SaaSアプリケーション (Salesforce, Slack, Zendeskなど) とAWSサービス (S3, Redshiftなど) 間で双方向のデータフローを自動化するフルマネージド統合サービス。

Apache Spark, Apache Hadoop, Apache Flink, Prestoなどのオープンソースデータ処理フレームワークをGoogle Cloud上で迅速かつ容易に実行できるフルマネージドサービス。

MySQL, PostgreSQL, SQL Server, Oracleなどのデータベースを最小限のダウンタイムでGoogle CloudのCloud SQLやAlloyDB, BigQueryに移行するためのサーバーレスサービス。

dbt (data build tool)は、データ変換と分析ワークフローの自動化を支援するオープンソースツールです。SQLを使用してデータトランスフォーメーションを定義し、データモデルの開発、テスト、ドキュメント化を簡素化します。データエンジニアやアナリストが、データパイプラインの効率を高めるために利用しています。