株式会社オープンロジの BigQuery 導入事例
会員限定コンテンツです。無料登録すると制限なしでお読みいただけます。
レビュー投稿日の情報になります
株式会社オープンロジ / Masato Igarashi
CTO・VPoE / EM / 従業員規模: 101名〜300名 / エンジニア組織: 51名〜100名
最終更新日投稿日
ツールの利用開始時期 | 事業形態 |
---|---|
2019年6月 | B to B |
ツールの利用開始時期 | 2019年6月 |
---|---|
事業形態 | B to B |
アーキテクチャ
会員限定コンテンツ無料登録してアーキテクチャを見る
アーキテクチャの意図・工夫
- 変更履歴の管理
- embluk を利用してデータベースの変更差分を流し込み、分析関数を利用して最新データを参照できるようにした
- 過去データも全て残るので、同一レコードの変更履歴も確認できるようなった
- リアルタイム同期
- Datastream for BigQuery を導入することでニアリアルタイムなデータを参照できるようにした
導入の背景・解決したかった問題
導入背景
ツール導入前の課題
- 過去データの調査コストが高かった
- データベースの変更前の値を調査
- データ量増加に伴いアーカイブされた過去データの調査
- 集計・分析などに膨大な時間がかかるものが増えてきた
- Redash 経由でデータベースのデータ活用していたが、何時間もかかったり、いつまで経っても返ってこなかったり、他のクエリーの影響で実行できなかったりと困るケースが多くなっていた
- 社内データの分散化により業務運用負荷も高まっていた
- データベース以外のCRMなどの業務データがそれぞれ独立して存在しているため業務分析に手間がかかっていた
どのような状態を目指していたか
- データベースのデータ量は必要最小限にしつつ、必要になった際にはすぐにアクセスできる手段を用意したかった
- 社内のデータを集約する場所を用意したかった
- 柔軟かつ高速なデータ分析を実現したかった
- スケーラビリティーを確保し、性能面で悩まされたくなかった
- データベース変更履歴の追跡と分析ができるようにしたかった
比較検討したサービス
- Amazon Athena
- 現在はシステムログの分析用として併用中
- Amazon Redshift
- Amazon Redshift Spectrum
比較した軸
- メンテナンス性(いかに楽に運用できるか)
- スケーラビリティ(クエリ速度・データ量)
- コスト面
- 他社実績
選定理由
- 特に自分たちよりも多くのデータを扱っている企業での運用実績が豊富にあり、利用しているエンジニアの話を聞いても評判が良かった
- コスト面でも固定費がかからず使った分だけの請求だったので評価・導入しやすかった
- 従量課金のコスト設定もかなり低く、実際の運用を想定してもほぼ影響のない範囲だった
- Google Workspace や Data Studio (現 Looker Studio) との親和性の高さ
導入の成果
- Data Studio (現 Looker Studio) を活用した業務分析がビジネスメンバー主導で進められるようになった
- 過去データの調査効率が高まった
導入時の苦労・悩み
- データの信頼性をどこまで担保するかを決め、利用者とコンセンサスとること
導入に向けた社内への説明
上長・チームへの説明
- Slack で BigQuery チャンネル開設して、評価過程やナレッジを随時共有
- Redash では実現が難しかった分析軸でのレポート作成などを進めることで有効性が認識された
活用方法
よく使う機能
- Dataform によるクエリ管理
- SQLのコード管理ができて再利用性も向上
- 使い捨てになりがちなクエリだが、コード管理するだけで資産価値がぐんと高まる
- Google スプレッドシートと相互連携したデータ利活用
- スプレッドシートをテーブル化させたり、クエリ結果をスプレッドシートに反映させるなど双方向でシームレスな連携が実現できるのでデータの利活用が進めやすい
- Datastream for BigQuery によるリアルタイムレプリケーション
- データベースが得意としない集計・分析系のクエリを扱える
- Looker Studio で業務データを直接扱うことができる
ツールの良い点
- データ突っ込み放題
- ストレージ料金は発生するが、圧縮後のストレージが対象となるので大変割安
- オンデマンドなクエリ料金
- ざっくり 1GB あたり 1円 の計算でOK
- フルマネージドでメンテナンスコストがほぼかからない
- Google スプレッドシートとの親和性の高さ
ツールの課題点
- クエリ実行には一定のリテラシーが必要
- 処理データ量がコストとなることを理解して利用しないと、想定外にコスト増となる場合がある
- クエリの実行前に処理データ量の見積もりが出るので、円に換算してみると良い
- クエリデータの上限設定やカスタムクォータの設定も必須
ツールを検討されている方へ
今なら Snowflake も検討すべき有力な選択肢かと思いますが、BigQuery は依然強力なサービスであることには変わりないので、データ基盤作ろうとしている方は気軽に試してみることをお勧めします。
今後の展望
変更履歴について ORM のメタフィールド基準での差分更新だと、イレギュラーオペレーションなどで更新されないケースがあることがわかり信頼性が低いデータとなっているため、今後は Datastream のメタフィールド基準に移行していきたいと思っています。
株式会社オープンロジ / Masato Igarashi
CTO・VPoE / EM / 従業員規模: 101名〜300名 / エンジニア組織: 51名〜100名
よく見られているレビュー
株式会社オープンロジ / Masato Igarashi
CTO・VPoE / EM / 従業員規模: 101名〜300名 / エンジニア組織: 51名〜100名
レビューしているツール
目次
- アーキテクチャ
- 導入の背景・解決したかった問題
- 活用方法