金融分野でのDatabricksを利用したクラウドネイティブデータ基盤の構築と運用について
Japan Digital Design株式会社 / saga1
テックリード / テックリード / 従業員規模: 51名〜100名 / エンジニア組織: 11名〜50名
利用プラン | 利用機能 | ツールの利用規模 | ツールの利用開始時期 | 事業形態 |
---|---|---|---|---|
エンタープライズ | SQL, Delta Live Table, MLflowなど | 11名〜50名 | 2018年 | B to B |
利用プラン | エンタープライズ |
---|---|
利用機能 | SQL, Delta Live Table, MLflowなど |
ツールの利用規模 | 11名〜50名 |
ツールの利用開始時期 | 2018年 |
事業形態 | B to B |
アーキテクチャ
導入の背景・解決したかった問題
導入背景
私たちJapan Digital Design株式会社(JDD)は、三菱UFJフィナンシャル・グループ(MUFG)向けの新しいサービス創出支援やDX推進、R&D活動に注力しています。弊社には、AIやMLを金融に活用したソリューションの研究・開発などを行っている「MUFG AI Studio」(M-AIS)という部門があり、そこで利用しているデータ基盤がDatabricks となります。
導入に向けた社内への説明
上長・チームへの説明
私は直接経験していないのですが、弊社は実験的なことをやることも求められている組織なので、上長・チームへの説明で苦労したという話は聞いていません。導入の経緯については、弊社小野がAWS Summit Tokyo 2019にて、「金融ビッグデータのためのクラウドネイティブAI分析プラットフォーム構築のすべて」で発表し、動画公開されておりますので、そちらをご覧ください。
活用方法
Databricksを以下のような用途で利用しています。
- 銀行やMUFGグループ各社から受領したデータを仮説検証などでアドホック解析する。
- グループ向けのソリューションとしてAIなどの機械学習モデルの開発、提供を行う。
- ETLパイプライン処理を行うためのバッチ実行。
- ETLパイプラインやサービスのためのジョブやデータの監視。
よく使う機能
全般的に処理時間が比較的長めということもあり、アドホック実行より、ジョブ実行を意識的に多く利用しているのが弊社の特徴となります(ちなみにジョブ実行は実行あたりの利用単価も安めです)。Delta Live Table (DLT) は、データパイプラインを宣言的に記述でき、バリデーション処理や複雑な依存関係のジョブ処理を自動化できる便利な機能で重宝しています。
- ジョブ
- Delta Live Table
- ダッシュボード
- SQL
- MLflow
ツールの良い点
- データに関するソリューションを個別に導入しなくても、オールインワンで一通り提供されている上、プロダクト個々の完成度も高い。
- k8sなどの高度な専門知識がなくても、データ分散環境を簡単に作成、利用できる。また、(構成次第ではあるが)構築にほとんど時間がかからない上、クラウドなのでメンテナンスなどの運用維持のための要員がいらない。
- コントロールプレーンはDatabricks、データプレーンは自社のみなどのSaaS事業者が直接データを管理せずに環境分離ができ、厳しめのセキュリティ要件に対応できる。
ツールの課題点
- Apache SparkをはじめとするOSSをベースとしているため、仕様の深い部分を理解しようとするとDatabricksが提供しているドキュメントだけでは足りないことがほとんど。
- 課金がDatabricksと、その環境を動かすためのプラットフォームの代金と二重体系になっており、かなり気をつけないと予算の予実管理が難しい。また、環境保持のためだけに定額で出ていく金銭コストがある。
- 一部のプラットフォームではサーバレスなどコアな機能実装がかなり遅れている。
ツールを検討されている方へ
Databricksと比較されがちなのが、Snowflakeだと思いますが、SnowflakeはSnowparkなどの分析環境を充実させており、一方、DatabricksはDelta TableのDWHとしての性能改善をアピールするなど、両者ともに従前の弱点といわれていた部分を改善し、エコシステムを構築しており、選定する時にかなり悩む要素かなと思います。現時点で両者ともに露骨な差はでないのが実情ではないでしょうか。試用などを利用して、実際に環境を利用するデータサイエンティストやデータエンジニアの利用満足度から選ぶというのも方法かなと思います。私見ですが、機械学習メインでの運用はDatabricks、BIツールメインでの運用ならSnowflakeにそれぞれ一日の長があるのかなと感じています。
今後の展望
- セキュリティ要件上、サーバレスやAI機能の利用が厳しく制限されているため、要件を壊さない形でのそれらの段階的な解放。
- Databricks Asset BundlesなどのMLOps向け機能の利用検討。
- ETLパイプラインのDelta Live Tableへの完全移行。
Japan Digital Design株式会社 / saga1
テックリード / テックリード / 従業員規模: 51名〜100名 / エンジニア組織: 11名〜50名
よく見られているレビュー
Japan Digital Design株式会社 / saga1
テックリード / テックリード / 従業員規模: 51名〜100名 / エンジニア組織: 11名〜50名
レビューしているツール
目次
- アーキテクチャ
- 導入の背景・解決したかった問題
- 活用方法