GENDAデータ基盤へのDatabricks導入時の状況と現在
レビュー投稿日の情報になります
株式会社GENDA / i9wa4
メンバー / 機械学習エンジニア / 従業員規模: 5,001名以上 / エンジニア組織: 51名〜100名
最終更新日投稿日
| ツールの利用規模 | ツールの利用開始時期 | 事業形態 |
|---|---|---|
| 101名〜300名 | 2024年 | B to C |
| ツールの利用規模 | 101名〜300名 |
|---|---|
| ツールの利用開始時期 | 2024年 |
| 事業形態 | B to C |
アーキテクチャ
.png?disposition=inline)
アーキテクチャの意図・工夫
- 導入当時、グループ企業各社でツールやサービスが乱立しており、役割の重複や管理の手間が課題になっていました。統合プラットフォームとしてDatabricksを採用することで、BI・ML・ETLを単一基盤に集約し、管理コストの削減を目指しました。
- 複数のDWHとグループ企業の多様化により、各基盤ごとの権限設計・管理が複雑化していました。DatabricksのUnity Catalogを活用した権限設計の標準化により、グループ企業全体のアクセス管理を一元的にコントロールできるようにしています。
- 機械学習環境をAWSからDatabricksに移行し、実験管理からモデルデプロイまでを一貫して管理できる点を、選定理由のひとつとしました。
- 既存のSnowflake環境を活かしつつ、DatabricksのBI・ML機能を活用するため、Lakehouse Federationを採用しました。
- 各社ごとにカタログ・クラスターの権限を分離する設計を採用しています。
導入の背景・解決したかった問題
導入背景
ツール導入前の課題
MLOpsにあたるものがまだ構築できていないという課題がありました。また、グループ企業の増加に対応できるデータ基盤を模索したい思いもありPoCに進むことになりました。
どのような状態を目指していたか
- MLOps基盤の構築(実験管理からモデルサービングまで一貫して行える環境、Model Servingの活用、MLflowによる実験管理)
- BIツールの改善(Redashの代替、ダッシュボードのSlack通知、細かい権限管理)
- 費用面(dbt platformのユーザー数課金の代替、ユーザー数に応じた課金体系、グループ企業への展開しやすさ)
比較検討したサービス
- Snowflake
- dbt platform (旧 dbt Cloud)
- Redash
- Amazon MWAA
- Amazon SageMaker
比較した軸
- 統合基盤としての強み(BI、ML、ETLを単一基盤で実現)
- Lakehouse Federation(Snowflake既存データへのシームレスなアクセス)
- コスト面での優位性(閲覧ユーザーを増やしても費用が増えない、Databricks Jobsでdbt運用可能)
- アナリスト業務との適合度
選定理由
統合基盤としての強み
- BI、ML、ETLを単一基盤で実現できる点が大きな決め手となりました。
Lakehouse Federation
- Lakehouse FederationによりSnowflake既存データへのシームレスなアクセスが可能だったため共存しつつ導入ができると判断しました。
コスト面での優位性
- 閲覧ユーザーを増やしても費用が増えない課金体系でした。
- dbtジョブ実行基盤についてDatabricks Jobsで運用可能と判断しました。
アナリスト業務との適合度
- PoCに参加したアナリストからもBIツールとしての機能は十分とフィードバックを受けました。
導入の成果
- グループインする企業の状況に応じて柔軟なデータパイプライン構築を行えるようになりました。
- 各社の業務に合わせたダッシュボードを整備し、Excelを用いた手作業のKPI集計・社内配信を自動化しました。
- 機械学習環境をAWSからDatabricksに移行し、実験管理からモデルデプロイまで一貫して管理できる体制を整えました。
導入時の苦労・悩み
- PoCが終わった後、フリートライアル期間後に自動的に料金が発生しないようにする必要がありました。
- Databricks on AWSであることとSnowflakeへの接続の兼ね合いでAWSやSnowflake側で権限変更など調整が必要でした。
導入に向けた社内への説明
上長・チームへの説明
BIツール機能の感想、導入メリット、工数、運用方法などをヒアリングしDatabricksへの移行をできる状態にしました。また、グループ企業向けにはユーザー数課金ではないため広めやすいことも含めて費用面での説明を重点的に行いました。
活用方法
よく使う機能
- ダッシュボード作成
- Databricks Jobs によるデータ変換ジョブ・通知系ジョブの実行
- Databricks 内外でのデータパイプライン構築・データ連携
- 機械学習モデルの実験・デプロイ・本番運用
アーキテクチャの詳細について: https://findy-tools.io/companies/genda/26/80
ツールの良い点
- 統合プラットフォームとしてBI・ML・ETLを一元的に扱える
- Snowflake とのシームレスな連携 (Lakehouse Federation)
- 閲覧ユーザーを増やしても費用が増えない課金体系
- Unity Catalog による細かい権限管理が可能
- 併せてダッシュボードも必要に応じた権限管理が可能
ツールの課題点
- クラスター起動が遅い (Serverless クラスタの利用で改善可能)
- 機械学習開発基盤としては Spark への順応が少し難しい
- Databricks on AWS の場合 AWS 起因の不具合が起きる場合などがあり管理側の技術力がある程度必要となる
ツールを検討されている方へ
- PoCでは実際に利用するユースケースを明確にして検証することが重要です。
- Snowflake既存環境がある場合、Lakehouse Federationによる連携が有効です。
- 費用面では、閲覧ユーザーを増やしても費用が増えない課金体系が訴求ポイントとなりそうです。
- PoCでは「誰が何を検証するか」の役割分担を明確にして進めることをお勧めします。当社ではBI機能・ML機能・dbt/ETL機能・全体統括をメンバーごとに分担し、並行して検証を進めました。
- フリートライアルの終了タイミングと課金開始条件は事前に必ず確認してください。PoC期間終了後に社内承認を取る際、フリートライアル期間終了後に自動で課金が始まらないか確認する手続きが必要でした。
- dbt platformはユーザー数に応じた課金体系のため、開発者数が増えると利用規模によってはコストが高くなります。Databricks Jobsで代替することで、ユーザー数に依存しないパイプライン実行環境を構築できました。
株式会社GENDA / i9wa4
メンバー / 機械学習エンジニア / 従業員規模: 5,001名以上 / エンジニア組織: 51名〜100名
よく見られているレビュー
株式会社GENDA / i9wa4
メンバー / 機械学習エンジニア / 従業員規模: 5,001名以上 / エンジニア組織: 51名〜100名
レビューしているツール
目次
- アーキテクチャ
- 導入の背景・解決したかった問題
- 活用方法

