スモールスタートで導入できるクラウド型ETL
株式会社M&Aクラウド / つざき
メンバー / フルスタックエンジニア / 従業員規模: 51名〜100名 / エンジニア組織: 10名以下
利用プラン | ツールの利用規模 | ツールの利用開始時期 | 事業形態 |
---|---|---|---|
Light | 10名以下 | 2022年10月 | B to B |
利用プラン | Light |
---|---|
ツールの利用規模 | 10名以下 |
ツールの利用開始時期 | 2022年10月 |
事業形態 | B to B |
アーキテクチャ
アーキテクチャの意図・工夫
データ基盤のDWHとして採用したBigQueryに対して、troccoを用いてデータソースであるMySQL、 Salesforceからデータ転送を行っています。
BigQueryでの転送では、個人情報カラムの削除や一部カラムのハッシュ化といった加工を行っています。
また、当初想定していた使い方ではありませんが、MySQLのデータをSalesforceへ転送するETLとしても活用しています。
弊社のWebプラットフォームに蓄積された企業情報やユーザー情報、買収ニーズといった各種データをtrocco上で加工してSalesforceに連携しています。
導入の背景・解決したかった問題
導入背景
データ基盤の構築以前はRedashというBIツールでデータ分析を行っており、データの転送を担うETLツールは不要でした。
そこからデータ基盤の新規構築を行い、複数のデータソース(MySQL、Salesforce、スプレッドシートなど)からデータをDWH(BigQuery)に転送できる状況を目指していたのですが、業務委託のデータエンジニア一名とデータエンジニアリング未経験のバックエンドエンジニアという少人数だったので、構築やメンテナンスにおける人的コストが限られていました。
限られたリソースでも導入・運用できるデータ転送ツールとして、troccoを検討しました。
比較検討したサービス
- CData Connect Server
- Amazon AppFlow
- Amazon Managed Workflows for Apache Airflow
- Cloud Composer
- BigQuery Data Transfer Service
比較した軸
- 素早く導入できること
- 限られた人的リソースの中で導入・運用できること
選定理由
- 日本での事例が多いこと
- 日本語でのサポートが手厚いこと
導入の成果
導入から1年半経っていますが、データ基盤のETLツールとして安定的に稼働してくれています。日々のメンテナンスもWEBからGUIで簡単に実施できているので十分に機能していると思います。
導入時の苦労・悩み
troccoに限らず、顧客情報や個人情報といった機密情報を外部のサーバに送る際には、法務面での契約書の確認や調整が必要となります。このため、導入にはやや時間を要しました。
機密情報を含むデータの取り扱いについては、troccoのコンテナ上で行われ、コンテナが破棄される際にはデータも同時に破棄されること、また個人情報がtroccoのサーバーに記録されないよう設定する方法などを確認し、懸念事項を解消しました。
導入に向けた社内への説明
上長・チームへの説明
以下のように、特殊なデータ転送のユースケースの場合、自前でETLの環境を構築したほうがよいですが、特殊なデータ転送のユースケースではない場合SaaSを選んだ方が導入や運用の工数が低いことを説明しました。
- データ量が非常に多い場合
- 凝った変換が必要な場合
- ストリーム処理(リアルタイム処理)が必要な場合
また、Troccoは日本での事例が多く、Slackでの日本語でのサポートもあることから、限られた人的リソースの中で導入・運用しやすい点をアピールしました。
その他、導入の調査として、質問票のやり取りや、トライアル利用で実際に接続を試すなどして、懸念点を潰しました。
活用方法
よく使う機能
1. 転送設定
どのテーブルのどのカラムをどこに転送するか という設定を行っています。
2. ワークフロー
いつどの順番でデータ転送を行うというフローを設定しています。現在は毎時実行のフローと、日時実行のフローを作成して運用しています。
3. dbt連携
ワークフロー内にdbtのビルドを組み込むことができるので、データ転送が終わったらdbtでデータ加工を行うというシームレスな連携ができてます。
ツールの良い点
- インフラ面のメンテナンスが不要でGUIで直感的に設定できる点
yamlやコードを書かなくていいためツール導入のための学習コストが低く抑えられました。またインフラについても気にしなくて良いため、データ転送の設計や実装について注力することができました。
2. dbtとの連携機能
dbtビルドの実行ができるため、実行のためのサーバを別途手配する工数を抑えられました。また、ワークフロー内で実行できるため、データ転送が完了したらdbtのビルドを実行をするといったシームレスな連携ができて便利です。
3. サポートが手厚い
troccoのサポートメンバーとのSlackチャンネルがあり、使い方についての疑問や、不具合についてすぐにサポートしてくれます。
ツールの課題点
- 転送時間により課金される点
データ量の増加に伴って料金が上がるため、データ量が多いテーブルは差分転送にするなど工夫が必要でした。
2. 価格面ではAWSやGCPのデータ転送サービスの方が安く抑えられる可能性がある
価格面での検証は細かくしてないのですが、troccoのようなSaaSよりもクラウドベンダーが提供しているETLサービスの方が料金的には安くなるかと思います。扱うデータが非常に多かったり、高い転送頻度が求められるようなケースでは、troccoの料金が高くなりすぎてしまう可能性があります。
3. 転送コネクタの種類によって料金が変わる(現在はプラン体系変更に伴い解消)
どのようなコネクタを何個使っているかによって料金が変わるため、新しいコネクタが必要なデータ連携を計画するときの懸念点となりました。
ツールを検討されている方へ
troccoは、GUIによる設定により比較的簡単にETLを実現することができます。様々な機能が搭載されており、よほど変わったユースケースでなければ大抵のETL処理を実現することができると思います。
また、日本語でのサポートが充実していて、困ったらすぐチャットでサポートいただけるのも心強いポイントです。
2024年4月から料金体系が変わり、転送コネクタによる課金がなくなったので、色々な場所からのデータ転送も追加課金なくできるようになったので、より気軽に色々なデータを転送できるようになるかと思います。
データ基盤のクイックな立ち上げや少人数でETLを構築したい場合にtroccoはとてもおすすめです。
株式会社M&Aクラウド / つざき
メンバー / フルスタックエンジニア / 従業員規模: 51名〜100名 / エンジニア組織: 10名以下
SIer, WEB系受託開発会社を経て、2019年6月に株式会社M&Aクラウドに3人目のエンジニアとしてJOIN。M&AクラウドではアプリケーションエンジニアとしてM&Aプラットフォームの開発に従事。現在はデータエンジニアリング部でデータ基盤の構築、データ分析を行っている。
よく見られているレビュー
株式会社M&Aクラウド / つざき
メンバー / フルスタックエンジニア / 従業員規模: 51名〜100名 / エンジニア組織: 10名以下
SIer, WEB系受託開発会社を経て、...
レビューしているツール
目次
- アーキテクチャ
- 導入の背景・解決したかった問題
- 活用方法