Sansanの機械学習アーキテクチャ
アーキテクチャの工夫ポイント
Sansan の R&D では独自の OCR を開発しており、機械学習が利用されています。上記の図は、この開発で利用している MLOps を例にして記載しています。
まず、 MLOps を進める理由です。導入を進めることで機械学習システムの開発から運用までのサイクルが改善・効率化され、ビジネス価値が最大化されることを期待しています。
機械学習システムの開発において避けられないのは、データ収集・前処理・学習です。ここでは AWS の SageMaker Processing と SageMaker Training を利用しています。SageMaker を使用することで、データ収集からモデル学習まで属人的でない再現性のある環境を提供できます。再現性のある環境は、デプロイまで一貫したワークフローの構築を可能にしています。
Sansan では研究員とエンジニアのロールが分かれていますが、ワークフローを標準化することにより連携がスムーズになり、サービスのリリースサイクルが短縮されています。
さらに、実験管理ツールを導入することで、学習の経過が可視化され、意思決定がしやすくなっています。過去のパラメータなども確認できるため、チームのコラボレーションや再現性を高められています。
現在の課題と今後の改善予定
Sansan の R&D はさまざまな事業へシステムを提供しています。各事業で異なるクラウド環境やアカウントで運用しています。機械学習システムが徐々に増えるなか、対象事業それぞれに局所最適化して運用しているのが実情で、 MLOps において標準化は進んでいません。
モデル作成のためのデータ収集、学習、評価のパイプラインを標準化することはもちろん、推論結果が誤っている情報を抽出して再度学習に利用するフローも構築し、機械学習システムが自動で改善されていく仕組みを実現したいと考えています。
◆執筆:技術本部 研究開発部 アーキテクトグループ 鷹箸 孝典
【サービス公式サイト】
https://jp.sansan.com/
アーキテクチャを構成するツール
Amazon SageMaker
会社情報
Sansan株式会社
従業員規模 1,001〜5,000名
エンジニア組織規模 301名〜500名
Sansan株式会社は「出会いからイノベーションを生み出す」をミッションとして掲げ、働き方を変えるDXサービスを提供しています。主なサービスとして、営業DXサービス「Sansan」や名刺アプリ「Eight」、インボイス管理サービス「Bill One」、契約データベース「Contract One」を国内外で提供しています。
Sansan株式会社の利用ツールレビュー
データ基盤
Sansan株式会社でのdbt導入事例
Sansan株式会社 / Ryo Nakamura
メンバー / データエンジニア / 従業員規模: 1,001〜5,000名 / エンジニア組織: 301名〜500名
CDN
サーバレス
Cloudflare導入による、全プロダクトへの高度なセキュリティ機能の展開と運用効率化
Sansan株式会社 / Takeshi Matsuda
チームリーダー / セキュリティエンジニア / 従業員規模: 1,001〜5,000名 / エンジニア組織: 301名〜500名
監視・オブザーバビリティ
Splunkの導入により、本番環境で発生する信頼性の問題を簡単に解決できるように
Sansan株式会社 / kotakato
テックリード / テックリード / 従業員規模: 1,001〜5,000名 / エンジニア組織: 301名〜500名