大規模データを扱う現場でどんな変化が? Snowflake導入5社のデータ基盤アーキテクチャと設計意図
スケーラビリティやデータ活用までのリードタイム、価格面での懸念に応える製品として注目を集めるSnowflake。特に大規模なデータを取り扱う現場では、Snowflake導入によってどんな変化があるのでしょうか。
本記事では、前回の第一弾でご紹介したChatworkさん、delyさん、GENDAさん、スターフェスティバルさんに引き続き、第二弾として大規模データを取り扱う5社に、データ基盤の設計思想やデータチームの方針にも触れながら、Snowflake導入の背景や効果を伺いました。
株式会社Algoage
事業概要
株式会社Algoageは、東京大学で機械学習の研究をしていたメンバーで2018年に創業したスタートアップです。AIを活用したサービス開発、研究開発を行っており、2020年に合同会社DMM.comと資本業務提携を締結いたしました。
「誰もが簡単に、最良の意思決定ができる世界」をミッションに、顧客インサイトを掴むマーケティング×AI開発の知見を活用して、ユーザーの購買を支援するチャットサービス「DMMチャットブーストCV」をメイン事業として展開。医療・人材・美容・金融・不動産領域をはじめとした様々な業界において、LP離脱の際にユーザーに価値ある情報をポップアップで提供し、LINEへと誘導し、一人一人に合わせて悩みや不安などの通常では回収することの難しい情報を引き出しながら、個々に最適な情報を提供し、意思決定までのサポートを行っています。
日々の業務上の意思決定に必要なデータも収集しており、Snowflake上に蓄積されたデータの総量は40TB近くになります。
データ基盤アーキテクチャ
データ基盤アーキテクチャ構築・改善の工夫ポイント
以下の2点を重視して設計をしています。
1. 運用を楽にすること
- 管理コストの低いマネージドなツールを利用することで管理コストを下げている。
- そのうちの一つとしてSnowflakeを採用した
- 他にも、AWS LambdaやFivetranなど、管理にかかる労力の低いツールを積極的に採用している
- そのうちの一つとしてSnowflakeを採用した
- 浮いた分の労力をユーザーからのデータに対するニーズの発掘や新機能の提供に費やし、付加価値を高める方針を取っている
2. 開発者体験を高めること
- 大前提として、データを取り巻く環境やユーザーからのニーズは常に変化し、開発者側の想定通りに行くことはまずない。また、価値を素早く届けることは重要である。
- そのため、素早く変更を加えられるアーキテクチャを構築する必要がある
- 素早く変更を加えられるアーキテクチャを構築するためには、開発者体験の向上が不可欠
- Snowflakeは、クエリに利用するコンピューティングリソース(ウェアハウス)のスケールアウト/イン、アップ/ダウンが柔軟に行える
- 柔軟なコンピュートリソースのアロケーションは開発者体験の向上に寄与すると考えた
- Snowflakeは、クエリに利用するコンピューティングリソース(ウェアハウス)のスケールアウト/イン、アップ/ダウンが柔軟に行える
Snowflake導入によって得られた成果、解決できた課題
Athena + S3 + Glueの基盤からSnowflakeに移行した結果として、以下のような成果が得られた。
1. 開発者体験の向上
- 頻繁にHive関連のエラーを起こすAthenaから移行したことで、クエリのスキャン量が多すぎて落ちる現象が無くなった
- 同時にGlue JobやGlue Crawlerなどの時間のかかる処理を削除し、すべてをSnowflake内部のSQLで統一したことにより、データパイプラインの実行時間は約30倍高速になった。実行自体が高速になったことにより、開発のイテレーションを回す速度が上がった。
2. 運用の労力削減
- 異常なレコードがあった場合の削除ができるようになった
- Snowflakeではめったにエラーが起こらないため、移行前にはよく発生していた「なぜ起こったのかよくわからないエラー」はゼロになった
Algoageのデータ基盤の今後の展望
1. Data Applicationの構築
- 現在、データ基盤は社内分析用に閉じた用途のみでしか利用されていない状況です
- データ基盤内に蓄積されたデータをアプリケーションに直接還元し、プロダクトの競争優位性を高めていく方法を模索しています
2. データ利用者の裾野を広げる
- 現在、データ基盤のユースケースは限定的であり、社内の利用者全てのニーズに応えきれている状況ではありません
- 社内の利用者の潜在的なニーズを掘り起こし、ユースケースを定義し、データ基盤の機能として落とし込んでいく、プロダクトマネジメントのような動きを今後は強めていくつもりです
執筆
Algoage Ops-dataチーム 上村 空知(@contradiction29)
株式会社GROWTH VERSE
※2024年1月1日より、社名を「スプリームシステム株式会社」から「株式会社GROWTH VERSE」に変更しました
事業概要
GROWTH VERSEは、データとAIの掛け合わせでクライアントのグロースを実現するテックカンパニーです。企業における顧客のLTV最大化を実現するCDP・MA・AIのオールインワンプロダクト「AIMSTAR」を開発・運営しています。
「AIMSTAR」は日本を代表する大手企業様を中心に、累計70社以上に導入頂いており、管理するデータは会員数2,000万件、トランザクションデータは数億件、Webアクセスデータは数十億に上ります。
データ基盤アーキテクチャ構築・改善の工夫ポイント
ユーザーの顧客データを取り入れて集積するCDPとしてSnowflakeを活用しています。 その中でも、バッチ的に取り込むデータとイベント的に取り込むデータの2種類があり、それらを全て定期的・即時的にSnowflakeに入れています。これにより大量のデータの分析や抽出でも高速でサクサクとした動作をユーザーに提供できています。
一方で、分析するための条件や、アプリケーションで使用しているメタデータなど、更新が頻繁に走りうるデータについてはSnowflakeを使わずに別DBへ格納しています。
Snowflake導入によって得られた成果、解決できた課題
弊社では、更なるサービスの拡大・充実を目指す上で、CDPの大量データの集計と抽出に基づくアクションの一層の高速化、DBの管理工数削減という課題がありました。AIMSTARにとって、DBパフォーマンスはプロダクト品質と直結しており、この課題を解決することが急務でした。
そこで2022年11月オンプレミスからSnowflakeへ移行に踏み切りました。
導入によって、1つ目の課題だったレスポンス速度に関しては、エンジニアの体感ベースで1/2~2/3に短縮でき、またエンジニアの管理工数を圧縮したいニーズに対しても、サービス停止など重大なインシデントはもとより、緊急対応を必要とする事態はかなり抑えられ、期待通りの状態で運用が実現できています。
GROWTH VERSEのデータ基盤の今後の展望
今後、AIMSTARのマーケティング分野以外への展開を加速させていきたいと考えています。
膨大なトランザクションデータを迅速に集計し、適切なアクションを行う事が出来るAIMSTARは、例えば、ECサイト・DM販促におけるLTV向上・コスト削減や、導入企業様の全社における社内データ連携・活用など、データ活用に伸びしろがある分野で価値を発揮できるものと考えています。
AIMSTARの成長に伴い加速度的に増す、大量のデータをより高速で安定した処理ができる環境を追求していきたいと考えています。
執筆
VP of Technology 稲田 修也
株式会社マイナビ
事業概要
「一人ひとりの可能性と向き合い、未来が見える世界をつくる。」をパーパスに掲げ、人々の人生に寄り添い、サポートする多様な事業を展開しています。就職、転職、アルバイト等を中心とした人材サービス事業をはじめ、ニュースやウエディング情報等の生活情報を提供するメディア事業など、50以上のサービスを提供しており、Snowflakeをデータレイクやデータマートとして活用しています。
データ基盤アーキテクチャ
会員限定コンテンツ無料登録してアーキテクチャを見るデータ基盤アーキテクチャ構築・改善の工夫ポイント
扱うデータに機密情報が多くあり、許可できる範囲も限定されるためDB単位でロールを作る設計としました。
BIなどで日常的に多くアクセスされるためWHを用途別に細分化しそれぞれに適切なサイズを決め、負荷分散を行えるようにしています。
他システムとの連携・リカバリ方法・データ連携のGUI上での確認などを考慮し、ロードではSnowpipeをあえて使わずAirflowを利用しました。
データ連携速度が非機能要件としてあったので、ステージに配置するファイルを分割しzstd圧縮、並列処理化することで転送速度とロード速度の改善を行いました。
更に、外部ステージのS3の管理がしやすいよう命名規則などルール整備を行いました。
Snowflake導入によって得られた成果、解決できた課題
即時にWHが立ち上がり、メンテナンスフリーで利用できるため、TCOの削減につながり、別の業務に割ける時間が増えました。
WHの細分化、リソースモニターによる異常検知、負荷監視チャートにより、スロークエリの解消に早い段階で動くことができ、ユーザーも追加しやすくなりました。
また、VARCHARなどはサイズがパフォーマンスに影響しないため最大を指定できるようになったなどスケーラビリティの高さを前提とした設計ができるようになり懸念点が少なくなりました。
更に、ストアドプロシージャを実行することで、クローン機能を利用し最新の検証環境を構築することができるようになり開発スピードやオペレーションの精度を上げることができました。
マイナビのデータ基盤の今後の展望
データ活用推進1課では社内のデータ民主化を進めています。
現場レベルではデータのExcel管理の課題等が上がってきています。そのためデータプレパレーションツールと組み合わせシステムでないユーザーでも簡単にSnowflakeに蓄積でき、パフォーマンス高く利用ができる仕組みを作っていきたいと考えています。
また、社内では誰でも使え、非常に有用なのに、使いづらい形で存在してしまっているデータが存在します。それらを社内オープンデータとして蓄積し誰でも分析の補助材料として使える形に整えていきたいです。
更に、SnowflakeではLLM関連機能がプレビュー中なので積極的に取り入れていきたいです。
執筆
デジタルテクノロジー戦略本部 デジタルプラットフォーム統括本部 データソリューション統括部 データ活用推進部 データ活用推進1課
よそじさん
ノバセル株式会社
事業概要
ノバセルは、成長と効率化を同時に実現する運用型テレビCMサービス「ノバセル」を提供しています。これまで不明瞭だったテレビCMの効果を可視化し、デジタル広告のように運用することを可能にするプロダクトです。日々数千万件のデータを分析しています。
データ基盤アーキテクチャ
会員限定コンテンツ無料登録してアーキテクチャを見るデータ基盤アーキテクチャ構築・改善の工夫ポイント
弊社では、データウェアハウスとしてSnowflakeを採用しているため、データ基盤の他のコンポーネントについてはModern Data Stackを採用しております。ETL/リバースETLツールとしてはtroccoを採用しています。UIがわかりやすく、非エンジニアでも慣れると構築が可能になるため、ビジネスサイドのメンバーも利用しています。ウェアハウス内での各種管理を簡易化するため、TerraformやdbtといったOSSツールを活用しながら安全かつ利便性の高いデータパイプラインを整備しています。
BIツールとしては、当初はRedashを採用していましたが、ビジネスサイドのメンバー増に合わせて、Tableauの導入を行いました。利用シーンやユースケースに合わせて使い分けています。
Snowflake導入によって得られた成果、解決できた課題
既存のアプリケーションシステム内で集計処理を実装するより、Snowfalke上での集計処理を実装する方が高速に実装・動作できるようになりました。また、データ分析に関わる周辺ツールとの連携も充実しているため、効率的な開発を進めることが出来るようになりました。
もし、BigQueryやRedShiftを利用して開発をしていたら、Snowflakeほどのシンプルさや統一的なインターフェースが提供されていないため、やや取り回しに困っていただろうと思います。 (Snowflakeの登場により、これらのDWHサービスの革新も進んだ点があり、Snowflakeが与えている影響は非常に大きいです。)
ノバセルのデータ基盤の今後の展望
お客様のマーケティングに活用できるデータを提供するため、データ分析基盤をさらに拡張して参ります。社内外からの様々なリクエストに迅速に対応できる、拡張性と柔軟性に優れた基盤を目指します。Snowflake上にアプリケーションを構築したり、GPUを利用した機械学習を可能にしたりするなど、新しい機能も導入されています。今後もこれらの新機能をうまく活用しながら、顧客価値の向上に貢献していきます。
執筆
データエンジニア yamnaku(@yamnaku_)
株式会社セゾンテクノロジー
※2024年4月1日より、社名を「株式会社セゾン情報システムズ」から「株式会社セゾンテクノロジー」に変更いたしました
事業概要
当社はHULFTファミリーをはじめとするデータ連携ソリューションを強みとし、「世界中のデータをつなぎ、誰もがデータを活用できる社会を作る。」をミッションに掲げて事業を展開しております。
自社のデータ民主化を実現すべく、2年前にSaaS型DWHであるSnowflakeを利用したデータ活用基盤「データドリブンプラットフォーム(DDP)」をリリースしました。現在32システム613テーブルデータを全社員に提供しています。
データ基盤アーキテクチャ
会員限定コンテンツ無料登録してアーキテクチャを見る
データ基盤アーキテクチャ構築・改善の工夫ポイント
データを全社員に公開する場合、利用者がITスキルやデータリテラシーに依存しない仕組みが必要です。
そこで利用開始にあたってのフロー、ルールの整備など運用の標準化を丁寧に進めました。データ基盤を作ることだけを考えればゴールは見えやすいですが、その先の運用である「安全に利用できる基盤運用」が最も重要であると考え、全体の7割を超える工数を運用構築に割きました。
また、データ民主化のトレードオフとしてセキュリティ担保を考慮する必要があり、以下のようなケースに対応する必要があります。
・顧客担当者の個人情報や取引情報など契約上特定の社員のみが取り扱うべき情報をどのように閲覧制御するか
・人事情報など一般社員に開示できないデータをどのように守るか
・データの目的外利用や外部持ち出しなどをどのように牽制するか
・意図しない無限ループクエリなど、コストの急増をリアルに検知・防止するにはどうするか
当社はこれらの課題をSnowflakeとDataSpiderを連携させることで解決しています。
Snowflake導入によって得られた成果、解決できた課題
Snowflakeにデータを集約することで、利用者はこれまで情シスに提供依頼していたデータをいつでも欲しいときに簡単かつ安全に手にすることができるようになりました。
入手までの時間的コストは激減し、「全てのデータはDDPにある」という共通の価値観を持つに至りました。日常業務の生産性向上だけでなく、ふと思いついたアイディアや課題解決策を自ら仮説検証できる環境が整ったことで、日々いくつもの事例が生み出されています。また好事例が共有されることにより、他部門との横連携が生まれ、社内のオープンコラボレーションが加速しつつあることを実感しています。
セゾンテクノロジーのデータ基盤の今後の展望
データは集約しましたが全社員が活用できている状態には至っていません。
SQLスキル、BIツールを使いこなすノウハウなど、アウトプットを得るために必要なスキル習得には一定の学習コストが必要です。このようなスキルの壁が一定層のユーザにとってDDPを利用する障壁になっていることは否めません。
そこで生成AI技術を活用したアプリケーションを開発し、4月にリリースする予定です。これによりユーザはブラウザ上で自然言語をもとにSQLの自動生成やグラフの自動作成を行うことができるため、スキル不要でDDPを利活用できるようになります。
また今後はオープンデータやサードパーティーデータなど外部データの拡充も進め、より高度なデータ活用ができる基盤に成長させていく予定です。
執筆
IT推進部 データドリブン推進課 佐々木 勝