MiiTel RecPodのインフラアーキテクチャ
アーキテクチャの工夫ポイント
音声コミュニケーションの課題をテクノロジーで解決する SaaS MiiTel を開発・提供しています。ブラックボックス化の解消や会話データの利活用を目的とし、可視化・解析することで、チームの生産性向上や業務改善を支援しています。
MiiTel RecPod は MiiTel のサービスの一つです。対面営業や窓口業務など、オフライン (対面) コミュニケーションを AI で最適化します。
私たちのチームでは MiiTel の各サービスを横断して、社内サービス向けの解析機能を開発しています。
アーキテクチャ設計について
■ 音声生成AIをどのように導入・活用しているか
MiiTel RecPod には基本機能として会議の音声を録音し、文字起こしをする機能があります。一般的な用途として、ユーザーは会議終了後に文字起こしなどの情報を確認し、会議の振り返りを行います。
文字起こしにかかる時間は、録音した音声の長さに依存します。会議にかかる時間は比較的長く、これはそのままユーザーの待ち時間となります。ユーザーは会議終了後に録音した音声をアップロードすることで、文字起こし結果を確認できるようになりますが、この方法ではユーザーが文字起こしを確認できるようになるまでにどうしても時間がかかります。そこで、会議終了直後に文字起こしを確認できる状態を目指し、高精度であると評価されている内製の音声認識モデルを使って、追加開発することになりました。
■ システム設計や運用における工夫・課題とその解決策
会議終了後にアップロードされた音声データを解析する方針では速度改善に限界があります。そこで、クライアントには短い音声データを会議中逐次送ってもらい、会議の進行と並行して文字起こしをする方針を採用しました。この仕組みだと、文字起こしが得られるまでの待ち時間は会議時間に依存しなくなり、長い会議の場合待ち時間が大きく短縮されます。
この機能では音声データを受け取るために Kinesis を利用しています。クライアントから送られてくる音声は数百ミリ秒程度の長さであり、解析サーバーでは文字起こしの前処理として、これらを連結する必要があります。KCL を使うことで、解析サーバーは細切れになった音声データを同じサーバーで受け取り、処理できます。
音声認識のリクエストには SQS を利用した非同期通信を採用しました。HTTP や gRPC のような同期通信では、スパイクした時にリクエストを捌くのが難しくなるという課題があります。間に SQS を挟むことで、リクエストをバッファすることが可能となり、スパイクした時でも音声認識サーバーは安定して処理を続けることができるようになります。他にも、音声認識サーバーの負荷が高まった時の影響を解析サーバーが受けにくくなることや、音声認識サーバーを他のサーバーとは独立にスケールさせられることもメリットとして挙げられます。同様の理由でレスポンスには MemoryDB の Pub/Sub を利用することにしました。
ちなみにサーバーレスを選択しなかったのは起動時のオーバーヘッドを避けるためです。音声認識モデルのサイズは一般に大きく、起動に時間がかかります。そのため、起動と終了を頻繁に繰り返すサーバーレスの仕組みでは、オーバーヘッドの影響を受けやすくなります。一度起動したサーバーが稼働し続ける構成では、オーバーヘッドを避けられることにより、処理の遅延が発生しにくいというメリットがあります。
リアルタイムに文字起こしを提供する機能では、処理の遅延がユーザー体験に大きく影響します。以上のような非同期の仕組みを採用することで、高速かつ安定した音声認識処理を実現しました。
今後の展望や取り組み予定
音声認識の精度に関しては引き続き研究チームと協力して向上させていく計画ですが、ここでは、機能拡張性とコスト最適化の向上に向けた取り組みを紹介します。
本記事では文字起こしを取り上げました。文字起こしの場合は、音声データの一部の区間があれば解析が可能ですが、例えば、話者識別を高い精度で行う場合は、理想的には音声データ全体が必要となります。分割した音声データでも可能な文字起こしの結果と音声データ全体が必要な話者識別の結果をうまく統合できるような構造にして機能拡張性を高くしていく改善を行う予定です。
また、音声解析では GPU インスタンスなど高価なインスタンスが必要になることが多いです。サービスレベルを維持しながら、これらのインスタンスの利用を最適化するために、Kubernetes へデプロイするサービスの単位をなるべく小さく分割していく予定です。現状すでに活用している Karpenter や KEDA といったツールの設定と合わせることで、さらなるコスト最適化を目指します。
◆執筆:髙橋卓杜 AI Div.
アーキテクチャを構成するツール
会社情報

株式会社RevComm
株式会社RevCommは、音声コミュニケーションの課題をテクノロジーで解決するSaaS「MiiTel(ミーテル)」を開発・提供しています。営業・サポートなどのビジネス通話における内容を可視化・解析することで、チームの生産性向上や業務改善を支援しています。