レアジョブグループ データ基盤としてのBigQuery導入事例
株式会社レアジョブテクノロジーズ / hirai
メンバー / データエンジニア / 従業員規模: 11名〜50名 / エンジニア組織: 11名〜50名
利用プラン | ツールの利用規模 | ツールの利用開始時期 | 事業形態 |
---|---|---|---|
オンデマンド | 10名以下 | 2022年4月 | B to C |
利用プラン | オンデマンド |
---|---|
ツールの利用規模 | 10名以下 |
ツールの利用開始時期 | 2022年4月 |
事業形態 | B to C |
アーキテクチャ
アーキテクチャの意図・工夫
なるべくマネージドサービスを利用して管理コストを減らしています。
- Aurora MySQLからDBクラスターのS3エクスポート機能を利用しデータ抽出
- Storage Transfer Serviceを利用してS3とGCS間のデータ転送
- データ加工はBigQueryのScheduled Queryを利用
データ抽出/データ転送/データ取込はECS上に構築したAirflowから実行しています。 AWSのマネージドAirflowサービス(MWAA)はコストの面から利用していません。
導入の背景・解決したかった問題
導入背景
ツール導入前の課題
クラウド上のサーバ内に構築されたDWHがあったのですが、DWHを管理・運用する社員がおらずメンテナンスしづらい状態になっていました。
そのためデータ量の増加によるストレージの圧迫や、データ抽出に時間がかかるなどの問題が発生していました。
どのような状態を目指していたか
なるべくメンテナンスコストを低くしつつ、既存のDWHに変わるデータ基盤を目指していました。
導入の成果
改善したかった課題はどれくらい解決されたか
メンテナンスコストが減少したのはもちろん、パフォーマンスも向上したのでデータ加工にかかる時間が削減されました。 またツールからデータを利用する際もデータ抽出にかかる時間が減り、扱いやすくなりました。
どのような成果が得られたか
データパイプラインのメンテナンスもしやすくなり、新しいDWHからのデータ提供が実現しました。
導入に向けた社内への説明
上長・チームへの説明
データ基盤としてではありませんが、一部試験的なレポートを提供する際にBigQueryが使われたことがあったので、導入に際して特別な説明は不要でした。
活用方法
レポートやスプレッドシートなどにデータを日々連携し、利用しています。
- 全社に公開されているKPIレポート
- 営業の案件管理に使われるデータ
- オンライン英会話の講師実績を管理するレポート
よく使う機能
- BigQuery Studioからのクエリ実行
- Scheduled Queryを利用したクエリ実行
- Googleスプレッドシートと連携してデータ取得
- Looker Studioからデータ取得
ツールの良い点
- メンテナンスコストが低い
- オンデマンドで料金が発生するので、初期コストを抑えられる
- Google Workspaceとの連携が容易
- 事例やドキュメントが多いので、ハマった時も解決策を探しやすい
ツールの課題点
- 初めてBigQueryを使う人には、大きいデータにクエリをかけて高額請求されるのではと恐れられることがある
ツールを検討されている方へ
データ基盤を作成するにあたり、小さく始めやすいサービスだと思います。
マネージドサービスをうまく利用すれば考慮する点も少なく、人手が多くない場合でもデータ基盤を作りやすいです。 エコシステムも充実しているので、データ基盤に関する多くのことをGoogle Cloud内で完結させることも出来ます。
注意点としてはプロダクトがGoogle Cloud外に構築されていると、データを転送する必要があるのでその分コストがかかってしまいます。
今後の展望
- データ品質のモニタリング強化
- Scheduled Query脱却
- DWHのデータ拡充
- DWHへクエリを実行できるメンバーを増やしていく
株式会社レアジョブテクノロジーズ / hirai
メンバー / データエンジニア / 従業員規模: 11名〜50名 / エンジニア組織: 11名〜50名
よく見られているレビュー
株式会社レアジョブテクノロジーズ / hirai
メンバー / データエンジニア / 従業員規模: 11名〜50名 / エンジニア組織: 11名〜50名
レビューしているツール
目次
- アーキテクチャ
- 導入の背景・解決したかった問題
- 活用方法