Findy Tools
開発ツールのレビューサイト

ピクシブのデータアーキテクチャ

Xのツイートボタン
このエントリーをはてなブックマークに追加
Xのツイートボタン
このエントリーをはてなブックマークに追加

ピクシブのデータアーキテクチャ

最終更新日 投稿日
pixiv (1).png

アーキテクチャの工夫ポイント

Google Cloudを中心にデータ基盤を構築しています。プロダクト間の親和性が高く相互の運用がしやすい、また、処理データ量が多いにもかかわらず性能面で問題がないというのが理由です。
BigQueryをデータウェアハウスとして、主に下記のデータを格納しています。

  • プロダクトのバックエンドDBのスナップショット
  • Google Analytics(GA)などのログ
  • バックオフィス向けのデータ

BigQueryへのデータ集約は、EmbulkとAirflowを組み合わせて処理しています。実装はテンプレートを用意しエンジニアが容易に実装できるしくみを準備しています。
さらに、整備したデータをdbtを使ってデータマートに変換しています。データの整合性、リネージ、メタデータのドキュメンテーションなど品質の担保ができ運用保守の効率化のためdbtを利用しています。生成したマートはプロダクトの改善やサービス施策の効果測定、経営指標や予実の管理、各種分析向けにLookerで可視化し利活用しています。また、分析以外にも各種プロダクトのレコメンデーションやランキングの計算などの用途にBigQueryを活用しています。

現在の課題と今後の改善予定

ETL/ELTにてSaaSからデータを取り込む実装が保守コスト増につながっており、Fivetranなどの利用を検討しています。
また、Kubernetes上で運用中のAirflowの構成が複雑なため運用に高度なスキルが要求される懸念、データのトランスフォーム過程でdbtでのビルドが効率的に行われていないなどの問題を抱えています。

GAにおいてはデータ量が多く、ストレージやクエリのコストが嵩むため、データを分析に利用しやすいようサマリテーブルを作成し解決しているものの、GAで発生する仕様変更の追従に保守コストがかかる問題があります。

データ可視化ではデータウェアハウスやマートにメタデータが整っておらず「用途や使用状況がわからない」ものが多くそれらの適切な管理ができていないという問題があり、アセット属性をタグテンプレート等で管理する必要があるという課題、また、Lookerに関してはユーザーの認証・認可にGoogle OAuthを使用してクエリを実行するなどよりセキュアな環境の構築、今後Gemini in LookerなどAIを活用していきたいがLooker(origin)を利用しておりそれらが利用できないという問題があり、Looker (Google Cloud core)に移行するといった課題があります。

◆執筆:
CTO室プラットフォーム開発部
 データ基盤チーム エンジニア 新田大樹 @kashira202111
 データ基盤チーム エンジニア 西平翔一
 データ基盤/データ駆動推進チーム マネージャー 佐川重徳

【サービス公式サイト】
https://www.pixiv.net/

アーキテクチャを構成するツール

Looker

データ基盤

Looker

dbt

データ基盤

dbt

BigQuery

データ基盤

BigQuery

Amazon S3

サーバレス

Amazon S3

Firebase

インフラ

Firebase

会社情報

ピクシブ株式会社

ピクシブ株式会社

イラストコミュニケーションサービス「pixiv」を中心に、クリエイターを支援する様々なサービスを提供する企業