Lakehouse Federation によるプロダクト DB 連携の運用負荷ゼロ化
株式会社IVRy / 松田健司
メンバー / データエンジニア / 従業員規模: 101名〜300名
| 利用プラン | ツールの利用規模 | ツールの利用開始時期 | 事業形態 |
|---|---|---|---|
Enterprise Plan | 101名〜300名 | 2025年7月 | B to B |
| 利用プラン | Enterprise Plan |
|---|---|
| ツールの利用規模 | 101名〜300名 |
| ツールの利用開始時期 | 2025年7月 |
| 事業形態 | B to B |
アーキテクチャ

アーキテクチャの意図・工夫
テーブルのデータ量で二層に分けて運用しています。Federation 層では中小規模で最新性重視のデータをクエリ時に直接参照し、ETL 同期層では大規模なデータを Databricks にコピーして高速化しています。
導入の背景・解決したかった問題
導入背景
ツール導入前の課題
IVRy は電話自動応答サービスを中心とした対話型音声 AI SaaS で、飲食・医療・不動産など幅広い業種の店舗・企業に導入いただいています。社内分析基盤としては Databricks を利用しており、プロダクト DB(PostgreSQL)から分析基盤への取り込みは当初 dltHub によるバッチ同期 で運用していました。テーブルが増えるたびに「追加申請 → エンジニア対応 → ジョブ追加」の3段階の手作業が発生し、データ鮮度も日次バッチに律速され、ストレージとジョブのコストも線形に増えていく状態でした。
どのような状態を目指していたか
テーブル追加・削除に対する手作業がゼロで、最新のプロダクト DB をそのまま分析・LLM 用途で参照できる状態を目指しました。
比較検討したサービス
- Databricks Lakehouse Federation
- dltHub(既存運用)
比較した軸
既存の Databricks 基盤と一体運用できること、同期ジョブを書かずに済むこと、Unity Catalog でガバナンスを一元化できることを重視しました。
選定理由
Lakehouse Federation はデータをコピーせず Unity Catalog 経由で外部 DB を直接クエリできるため、ETL を組まずに連携できるのが決定打でした。同期ジョブとコピー先ストレージのコストが構造的に消えます。
導入の成果
改善したかった課題はどれくらい解決されたか
テーブル追加の手作業はほぼゼロになり、データ鮮度は日次バッチからクエリ時参照に変わりました。
どのような成果が得られたか
テーブル追加の運用作業が減り、データをリアルタイムで参照できるようになり、コストも抑えられました。
導入時の苦労・悩み
主に以下の3点で詰まりました。
- ネットワーク構成: NLB の PrivateLink 設定、NCC のバインド制約、Serverless / Classic の接続ルート統一
- 差分更新の扱い: Federation はクエリ時参照のため大規模テーブルへの全件スキャンが現実的でなく、どこを Federation に寄せてどこを ETL 同期で差分更新するかの切り分け設計が必要でした
- PII 情報の扱い: 個人情報を含むテーブルを Federation View としてそのまま露出させないため、メタデータテーブル側で
skip判定をかけ、対象を明示的に除外する運用にしました
詳細は Zenn 記事 を参照してください。
導入に向けた社内への説明
上長・チームへの説明
SQL Warehouse のクエリコストが30%程度増える代わりに、同期ジョブ・ストレージ・エンジニア工数の3点が減るため、トータルでは投資回収できる試算を示しました。あわせて「Federation を中小規模テーブル、ETL 同期を大規模テーブル」で使い分ける二層構造の方針も提示しました。
活用方法
データエンジニアはデータ取り込みを担い、アナリストは dbt でデータマートを整備しています。社内の利用者はそのデータマートを社内データ分析の用途で活用しているほか、Data Hub プロダクトでもデータ基盤のデータを利用しています。
よく使う機能
- Unity Catalog: テーブル単位の権限を内製ジョブ・BI・LLM ツールで横断管理
- Lakehouse Federation: プロダクト DB をコピーせず直接クエリ
- Lakeflow: 大規模テーブルの差分同期と Federation View の自動生成
- SQL Warehouse: 分析・BI・LLM ツールのクエリエンドポイント
- ダッシュボード: 社内 KPI モニタリングと事業部向けの定型レポート
- Genie: 自然言語からのアドホックなデータ探索
- MLflow: モデル管理と実験トラッキング
ツールの良い点
- Lakehouse Federation により「ETL を組まずに済む」選択肢が手に入る
- Terraform プロバイダが整備されており IaC で管理しやすい
ツールの課題点
- ワークスペースが単一の NCC にしかバインドできないなど制約がある
- ネットワーク構成(NLB / NCC / PrivateLink)の仕様が細かく初期構築でハマりやすい
- Federation はリモート DB に直接負荷をかけるため、ユースケースの切り分け設計が必須
ツールを検討されている方へ
「すべてを Federation に置き換える」のではなく、Federation と ETL 同期の二層構造を最初から設計に入れるのがおすすめです。あわせて、テーブル追加・削除を自動化する仕組みを最初から組んでおくと、運用負荷が構造的にゼロに近づきます。
今後の展望
大規模テーブル側に残しているdltHubは、Lakeflow Connect の CDC 機能への移行の検討を進めていきます。
株式会社IVRy / 松田健司
メンバー / データエンジニア / 従業員規模: 101名〜300名
よく見られているレビュー
株式会社IVRy / 松田健司
メンバー / データエンジニア / 従業員規模: 101名〜300名
レビューしているツール
目次
- アーキテクチャ
- 導入の背景・解決したかった問題
- 活用方法

