Findy株式会社のEL PipelineにおけるDuckDBの活用事例
ファインディ株式会社 / shunsock
メンバー / データエンジニア / 従業員規模: 101名〜300名 / エンジニア組織: 51名〜100名
| 利用プラン | 利用機能 | ツールの利用規模 | ツールの利用開始時期 | 事業形態 |
|---|---|---|---|---|
特になし | OLAP機能 | 301名〜500名 | 2024年9月 | B to B |
| 利用プラン | 特になし |
|---|---|
| 利用機能 | OLAP機能 |
| ツールの利用規模 | 301名〜500名 |
| ツールの利用開始時期 | 2024年9月 |
| 事業形態 | B to B |
アーキテクチャ

アーキテクチャの意図・工夫
Findyは新規事業を立ちあげる頻度が多いため、データソースの追加に耐えられる設計が求められます。今回のDuckDB採用の裏では、ELリポジトリのモノリポジトリ化も行いました。詳細を下記の記事に記載しましたので、興味のある方はご一読ください。 https://tech.findy.co.jp/entry/2025/12/24/080000
導入の背景・解決したかった問題
導入背景
ツール導入前の課題
弊社では従来、OSSのEL(Extract Load) ツール Embulk をAmazon ECSに載せて長期間運用していました。弊社で利用しているRDBMSやデータウェアハウスに対応している他、社内に知見を持った方が在籍しているためです。
しかし、近年では、Embulkのエコシステムのレガシー化や長期的なメンテナが不足が課題となっています。特に、 将来のメンテナンスが不透明な点は、セキュリティインシデントに繋がりかねないため危惧していました。
また、 Embulkの起動の遅さも課題でした。我々はBigQueryプラグインなどを利用していたため、JVM上でさらにJRuby VMを立ちあげます。このような構成は テーブル同期の遅さに繋がり、ECSの課金額を増やす要因 となっていました。
どのような状態を目指していたか
システムを堅牢にすることと処理スピード向上による料金のコストダウンが今回のプロジェクトの主な目的でした。
比較検討したサービス
- Datastream
- TROCCO Self Hosted Runner
- Fivetran
比較した軸
- データ量が小さいため、なるべく軽量な実装が可能なこと
- ニアリアルタイム処理は不要であること
- 料金を抑えられること
選定理由
- 実装の容易さ
- 拡張性の高さ
- 費用の安さ
導入の成果
改善したかった課題はどれくらい解決されたか
全て解決できました。
どのような成果が得られたか
メンテナンスがされているソフトウェアに移行したことで、セキュリティリスクの低減ができました。
また、テーブル同期を直列から並列に変更したため、単純比較はできないものの、3倍程度の高速化を達成しました。
導入時の苦労・悩み
検証(PoC)で苦労しました。DuckDBのプラグイン側のアーキテクチャの制約で起動失敗したり、バグを踏んだりしました。ドキュメントの精読やメンテナへの質問で一つ一つ解決しました。
導入に向けた社内への説明
上長・チームへの説明
リプレースにあたり、セキュリティ問題の解消と実行コスト削減、メンテナンスコスト低減を説明しました。その際に、星取り表や各手法での費用の概算表を作成しました。
なお、ECSのコスト削減についてはPoCの結果を提示しました。
活用方法
Findy ToolsやFindy Conference, 事業部横断ID基盤のAmazon RDS-BigQuery間の同期に利用しています。1日1回起動しています。
よく使う機能
- MySQLからデータをダウンロードする機能
- BigQueryにデータをアップロードする機能
ツールの良い点
非常に高速です。直列から並列にしたため単純比較はできませんが、3倍ぐらい高速化に成功しています。
また、コネクターが非常に多いのも魅力の一つでしょう。MySQL, PostgreSQLなどの主要なRDBMSの他にAmazon S3やSpreadSheetなどにも対応しています。
他にも、SQLで記述するため、エンジニア以外の方でも触りやすい点も魅力かと思われます。
ツールの課題点
DuckDBは新興のソフトウェアということもあり、普通にバグに遭遇します。
また、拡張によっては、サポートしているOSが限られていることがあります。
問題発生時にIssueやPRを出せる人が必要です。安価だからという理由で採用するのは避けた方が良いでしょう。
ツールを検討されている方へ
DuckDBは実装が簡単で、様々なデータソースと接続できるため、データコネクタとして十分活用できます。
一方で、日本語文献は少なく、新興ソフトウェア特有の課題もあるため、一定のエンジニアリング力が要求されることに注意すると良いでしょう。
今後の展望
新規事業が次々と誕生しているため、活用事例は増えると想定しています。現状は、RDS to BigQueryのみの実装ですが、コネクタを増やす案も出ており、活用の幅が広がる可能性があります。
ファインディ株式会社 / shunsock
メンバー / データエンジニア / 従業員規模: 101名〜300名 / エンジニア組織: 51名〜100名
ファインディ株式会社 2024.08-now, 株式会社PR TIMES 2022.02-2024.08
よく見られているレビュー
ファインディ株式会社 / shunsock
メンバー / データエンジニア / 従業員規模: 101名〜300名 / エンジニア組織: 51名〜100名
ファインディ株式会社 2024.08-n...
レビューしているツール
目次
- アーキテクチャ
- 導入の背景・解決したかった問題
- 活用方法


