株式会社イノベーションにおけるEmbulkの導入事例
レビュー投稿日の情報になります
株式会社イノベーション / muroshima
メンバー / データエンジニア / 従業員規模: 11名〜50名 / エンジニア組織: 51名〜100名
最終更新日投稿日
ツールの利用規模 | ツールの利用開始時期 | 事業形態 |
---|---|---|
10名以下 | 2017年10月 | B to B |
ツールの利用規模 | 10名以下 |
---|---|
ツールの利用開始時期 | 2017年10月 |
事業形態 | B to B |
アーキテクチャ

アーキテクチャの意図・工夫
実行環境にAWS CodeBuildを採用
- サーバーレス実行でインフラの管理が不要
- buildspec.yml でジョブ定義でき、GitHubと連携しやすい
- 複数のEmbulkジョブを共通フォーマットで管理できる
データの流れ
- RDS → Embulk(CodeBuild) → GCS → BigQuery
- GCSをバッファとして挟むことで、BigQueryロード処理を非同期化&安定化
背景として意識したこと
- GCP・AWSをまたぐ構成でも、シンプルで保守しやすい設計にすること
- 分析基盤に合わせたデータ形式への整形を柔軟に対応できること
- 今後の拡張にもつなげやすい構成にしたい
導入の背景・解決したかった問題
導入背景
ツール導入前の課題
- スクリプトが属人化しており、引き継ぎや保守が困難
- 同様の処理でも毎回書き直す必要があり、開発効率が悪かった
- 失敗時の検知や再実行が手作業で、運用負荷が高かった
どのような状態を目指していたか
- 処理フローをコード化・共通化し、Gitで管理可能な体制にしたい
- クラウドへの出力を簡易かつ安定的に実現したい
- スケジューラやCI/CDと連携し、再現性・自動化されたジョブ運用がしたい
比較した軸
- コードによるジョブ定義
- 導入・運用の手軽さ
選定理由
- OSSで実績があり、導入事例も多かった
- 軽量でシンプルな構成
- 開発者が直接メンテしやすい
導入の成果
改善したかった課題はどれくらい解決されたか
- 概ね改善できました!
どのような成果が得られたか
- データをBigQueryに集約したことで、誰でもSQLさえ書ければ自分で分析できる環境が整った
導入に向けた社内への説明
上長・チームへの説明
- OSSであるためライセンス費不要
- ジョブをコードで管理できるため属人化防止とGitによるバージョン管理が可能
- 導入事例の多さ
活用方法
よく使う機能
- データベース(RDS)からの定期的なデータ取得
- 取得したデータの整形(カラム名の調整や不要列の削除など)
- データをCSV形式でクラウドストレージ(GCS)へ転送
ツールの良い点
- 設定ファイルがYAML形式で見やすい
- 拡張性が高い
- オープンソース
ツールの課題点
- 一部のプラグインはアップデートが止まっており注意が必要
- 複数ジョブを順序付きで実行したい場合は、外部の制御が必要
ツールを検討されている方へ
Embulk本体は大きな更新は少なく、進化を前提とした選択ではなく、“枯れて安定している”ツールとして割り切って使う方がいいと思います。
今後の展望
より柔軟な依存関係の制御やジョブの可視化が求められるケースも増えてきているため、将来的にはdigdagなど、ジョブ全体を管理できる仕組みとの組み合わせを検討していきたいと考えています。
株式会社イノベーション / muroshima
メンバー / データエンジニア / 従業員規模: 11名〜50名 / エンジニア組織: 51名〜100名
よく見られているレビュー
株式会社イノベーション / muroshima
メンバー / データエンジニア / 従業員規模: 11名〜50名 / エンジニア組織: 51名〜100名
レビューしているツール
目次
- アーキテクチャ
- 導入の背景・解決したかった問題
- 活用方法