データアナリストが行うDatabricksを活用したETLの自動化事例
株式会社BuySell Technologies / Shinoa-Nishikawa
利用プラン | ツールの利用規模 | ツールの利用開始時期 |
---|---|---|
All-Purpose Compute Photon | 10名以下 | 2023年6月 |
利用プラン | All-Purpose Compute Photon |
---|---|
ツールの利用規模 | 10名以下 |
ツールの利用開始時期 | 2023年6月 |
導入の背景・解決したかった問題
導入背景
まず前提として、各プロダクトのRDBはBigQueryに同期されていました。ただ課題として、エクセルだったりCSV、あとはスプレッドシートだったり外部ツールのデータが、RDBにもBigQueryにも格納されていないという状態でした。
具体的には、事業部の方々が手元で集計してるデータだったり、マスタだったり、あとは外部サービスのデータだったりとパブリックデータというものが存在している状態です。
そういった状態の影響として、事業部サイドでデータ分析がなかなか進めにくいという状況でRDBのデータと独自で集めたデータを組み合わせてデータ分析を行える環境を整備することが必要でした。
導入に向けた社内への説明
上長・チームへの説明
すでに使っているサービスのためありませんでした。
活用方法
よく使う機能
Databricksを活用した扱いやすいデータ基盤の構築についてですが、RDBに入っていないデータも基本的に全てDatabricksを使ってインポートをしております。
その際にメダリオンアーキテクチャに基づいて扱いやすいデータレイクを構築しております。
扱うデータの性質に応じてBronzeからGoldまでを扱い分けており、分析に使いやすい状態でデータレイクに保存をしています。
Databricksは使用することによってデータ分析に使えるデータを増やすということが可能であり、また業務の効率化だったり、あとはガバナンスの強化といったメリットもあると考えております。
具体的には以下に記載します。
①Google Search Console APIを利用した各サイトデータの自動取得
従来は手動でCSVをエクスポートし、データ比較分析を行っていましたが、Databricks導入後はGoogle Search Console APIを活用し、自動でデータを取得・成形し、BigQueryに格納するように改善しました。この変更により、データ処理が効率化され、エラー発生時はSlackを通じて通知される体制が整いました。
②RDBやBigQueryに連携できないツールからエクスポートしたCSVの自動取込
弊社ではお客様からのお問い合わせ対応にCTIツールを使用しています。そこから得たCSVデータが手動でしか処理されていなかった問題をDatabricksを使って自動化しました。※CTIツール自体がAPIを公開していない場合もあるため、エクスポートと格納は手動です。
まず各担当が指定のGoogleドライブに格納していただいて、DatabricksからそちらのCSVデータを取得をするというような流れになります。
活用のコツ①
BigQueryに格納されたCSVを処理中にアーカイブフォルダに移動させています。理由としては、視覚的にどのCSVが処理されているのか、されてないのかが誰でもわかるという状態になるからです。
活用のコツ②
未格納のCSVがあるかどうかを検知する処理定期を実行して、CSVデータの格納漏れがあれば、関係者にSlack上で通知するという処理を行っております。
③確定データの自動取得
データを取得するタイミングによって値が異なっていたり、事業部ごとに欲しいデータの粒度が違っており、それに基づいたSQLのロジックがバラバラになっておりました。結果として事業部間によって正しい数値の認識にズレが生じていたためDatabricksを使用し確定データの自動取得を行うことにしました。
活用のコツ①
外部ストレージに格納されたCSVデータと、BigQueryに格納したデータに欠損がないかチェックする処理を追加します。
活用のコツ②
BigQueryに格納されたデータをデータソースとしてLooker Studio上でダッシュボードを作成することで、各事業部の方々が複雑なSQLを構築する必要がなくなります。
ツールの良い点
<データ利用者の声より>
①各事業部が独占していたデータというものが自由に取れるようになったので、他部署の業務理解が非常に進みました。
②主導で行っていた集計の工数というのが削減されて、本来やりたかった分析業務に集中できるようになりました。
③使用してるツールの仕様上、閲覧できる期間だったり表示件数に制限があったのが、必要なデータが全てBigQueryに取り込まれてるため、データ分析そのものが捗るようになりました。
ツールの課題点
特にありませんでした。
ツールを検討されている方へ
Databricksは柔軟性が高くて、エンジニアではない私のようなアナリストでも簡単にデータを集めることができます。データを集める中で業務効率化であったり、データガバナンス強化も実現可能でした。きっと事業部が独占していたデータが民主化され、全社でのデータ活用が促進されます。
株式会社BuySell Technologies / Shinoa-Nishikawa
よく見られているレビュー
株式会社BuySell Technologies / Shinoa-Nishikawa
レビューしているツール
目次
- 導入の背景・解決したかった問題
- 活用方法