レバレジーズ株式会社のBigQuery導入事例
レビュー投稿日の情報になります
レバレジーズ株式会社 / 森下研人
チームリーダー / データエンジニア
最終更新日投稿日
利用プラン | ツールの利用規模 | ツールの利用開始時期 | 事業形態 |
---|---|---|---|
オンデマンドプラン | 501名〜1,000名 | 2020年8月 | B to B B to C |
利用プラン | オンデマンドプラン |
---|---|
ツールの利用規模 | 501名〜1,000名 |
ツールの利用開始時期 | 2020年8月 |
事業形態 | B to B B to C |
アーキテクチャ
導入の背景・解決したかった問題
導入背景
ツール導入前の課題
- 既存のデータ活用環境としてTreasureDataが導入されていたが、以下の課題があった
- ジョブの同時実行数上限
- 当時契約していたTreasureDataのプランでは、同時実行可能なジョブ数が255に制限
- それ以上のジョブはエラーで失敗する。夜間バッチがエラーで失敗することもあった。
- クエリ実行速度の低下
- データ量とジョブ数の増加に伴い、クエリ実行時間が長くなっていき、クエリ実行ジョブがキューに詰まるようになった。
- 権限管理の煩雑
- アクセス権限をデータベース単位でしか設定できなかった。
- 誰がいつどのデータにアクセスしたかのログは残るが調査が非常にしにくい。
- ジョブの同時実行数上限
どのような状態を目指していたか
- TreasureData運用時代の課題解決に加えて、以下を実現できること
- スナップショットデータの蓄積が可能であること
- クエリ実行ログの検索が容易であること
- クエリ実行ログから、どのテーブルデータにアクセスしたかを容易に調査できること
比較検討したサービス
- AWS Redshift
- Snowflake
比較した軸
- ユーザーに対してデータ活用基盤の運用人数が少ないため、エンジニアの運用負荷が低いこと
- 現場で多く活用されているGoogleスプレッドシートへの出力が容易であること
- 導入されていたBIツールのTableauへのデータ連携が容易であること
選定理由
- Google Workspaceの機能で、BigQueryからスプレッドシートへの出力が容易であること
- 技術選定をしていた2020年ごろに、導入事例が多く見つかったこと
導入の成果
改善したかった課題はどれくらい解決されたか
- 以下が全て解決した
- ジョブの同時実行数上限
- クエリ実行速度の低下
- 権限管理の煩雑
どのような成果が得られたか
- クエリ実行の速度が2倍〜10倍ほどになった。
- 同時実行ジョブ上限がなくなったことにより、以下の恩恵が受けられるようになった
- クエリ実行時のジョブ詰まりがなくなり、計算が始まるまでの待ち時間がなくなった
- 夜間のジョブ詰まりがなくなり、ジョブ詰まりによる夜間バッチの失敗がなくなった
- ストレージに保管できるデータ量の上限がなくなり、スナップショットデータの保管が可能になった
- アクセス権限をDB単位だけでなくテーブル単位で付与できるようになったため、細かな権限管理が可能になり、セキュリティ向上につながった
- 誰が、いつ、どのデータにアクセスしたかのログ追跡がTreasureDataより簡単に実現できるようになった
- BigQuery内で作成したテーブルについて、どのテーブルから作成されたかといったテーブル間の依存関係を可視化できるようになった
導入時の苦労・悩み
- TreasureDataで業務利用されていたクエリの要否確認
- TreasureDataで業務利用されていたクエリを全てBigQueryで動くように移管したこと
- Prestoから標準SQLへの変換
- TreasureData独自関数の実装
導入に向けた社内への説明
上長・チームへの説明
- クエリが遅かったり、キューに詰まったり、障害発生時の影響範囲が大きかったりと、すでに業務影響が出ていること
- 移管を考え始めた時は、クリティカルな問題ではないかもしれなかったが会社拡大の足枷になることは明確だった
- 最終的に移管完了まで数年かかる予定かつ複数事業部で利用していたため、1つの事業部から移管をスモールスタートで進めていくこと
活用方法
よく使う機能
- クエリを実行してEDAを行う
- Dataformにワークフローを実装してDWH・データマートの実装を行う
ツールの良い点
- 速い
- スキャン量に応じての従量課金なので、新規の事業でデータがほとんどない場合はほぼ課金がかからない
- GoogleAnalyticsやGoogleAdsの連携が非常に楽
- Geminiと連携したソリューションが多く実装される
ツールの課題点
- 1TBを超えるデータ量でも数GBスキャンとほぼ変わらない使用感なので、重課金が発生していることに気がつきにくい
- 適切にパーティションやシャーディングの設定をした上で、ユーザーの実行ログを常に監視し、重課金ユーザーと定期的にコミュニケーションを取る必要がある
レバレジーズ株式会社 / 森下研人
チームリーダー / データエンジニア
よく見られているレビュー
レバレジーズ株式会社 / 森下研人
チームリーダー / データエンジニア
レビューしているツール
目次
- アーキテクチャ
- 導入の背景・解決したかった問題
- 活用方法