Findy Tools
開発ツールのレビューサイト
検索結果がありません

IVRyの音声生成AI活用のインフラアーキテクチャ

Xのツイートボタン
このエントリーをはてなブックマークに追加
Xのツイートボタン
このエントリーをはてなブックマークに追加

IVRyの音声生成AI活用のインフラアーキテクチャ

会員限定コンテンツです。無料登録すると制限なしでお読みいただけます。
無料登録してアーキテクチャを見る
最終更新日 投稿日

アーキテクチャの工夫ポイント

■ 音声生成AIの導入・活用
当社では、サービス開発の初期段階からプロダクトの中核機能としてAIテクノロジーを位置づけることを戦略的に決定していました。全体的なアーキテクチャは創業当初から大きく変わらず、技術的な基盤を強固にすることができました。

対話システムの実現において、音声合成(TTS)技術による自然な発話生成、音声認識(ASR)による高精度な音声データのテキスト変換、そして対話生成(LLM)による文脈を考慮した応答生成など、会話フローの各段階で必要となるAI技術を統合的に活用しています。これらの技術を組み合わせることで、より自然な対話体験をユーザーに提供することが可能となっています。

現在使用しているAIモデルについては、すべて外部APIを利用する方針を採用しています。この選択は、マネージドサービスとしての拡張性を確保できることに加え、AI技術、特に音声関連モデルの進化速度が非常に速いという現状を考慮したものです。常に最適なモデルを選定するため、複数のプロバイダーのソリューションを並行して評価・検証する継続的なプロセスを確立しています。

■ システム設計や運用における工夫・課題とその解決策
音声データ処理におけるアーキテクチャ上の工夫として、まずハルシネーション(誤った情報生成)を防ぐため、対話処理エンジンを複数のAIコンポーネントに分割しています。これにより各コンポーネント辺りで解くべき問題が明確になり、レスポンス速度が向上するという利点もあります。

また、外部APIは時に不安定なため、LLMのAPIコールにはフォールバックメカニズムを採用しています。これにより、複数のLLMに対して同一形式でリクエストできるようになりました。メインのLLM APIリクエストが失敗したり、応答時間が長すぎたりした場合でも、ユーザー体験を損なわない工夫を実装しています。

今後の展望や取り組み予定

通話の品質をエンドツーエンドで担保する仕組みをすでに導入していますが、今後はサービスの拡大と複雑性の増加に対応しながらも開発効率を維持する取り組みを継続していきたいと考えています。

また、あらゆる対話シナリオにおいてユーザー体験に直結する対話の質を評価する課題にも取り組んでいます。具体的には「話が通じない」「不適切な応答」「文脈の断絶」などの問題を定量的に測定するための指標開発を進めています。これにより対話システムの弱点を特定し、継続的な改善サイクルを確立していきます。

このような客観的な評価値のトラッキングに基づいてユーザーの「目的達成率」をはかれるようにしていきたいと考えています。単なる技術的な精度だけでなく、ユーザーが求めている結果にどれだけ到達できたかという本質的な成功指標を確立することで、より人間中心のAIシステム開発を推進し、長期的にはこれらの指標に基づいた自己改善機能を持つAIシステムの構築を目指しています。

◆執筆:近藤 圭太 Engineering Manager @k0703k

アーキテクチャを構成するツール

会社情報

株式会社IVRy

株式会社IVRy

私たちは、IVR(電話自動応答)を起点として、AI対話システムを開発・運営しています。 目指すのは、AIやソフトウェアを活用し業務を効率化することで人が介在する仕事の価値を最大化し、楽しく・豊かに事業活動を行うことができる世界の実現です。 まずは「アイブリー」という電話にAIを組み込んだプロダクトを中心にサービス展開をすすめることで、日本全国・業種や規模問わず、働く全ての人の生産性を劇的に向上させていきます。 そして未来では、企業や個人があらゆる場所や業務でAIを活用できるよう、ハードウェア/ソフトウェアの両面で価値を提供していきたいと考えています。 私たちは「Work is Fun」を掲げ、それを実現しながら事業も組織も非連続に成長し、世界で使われ、世界から期待されるサービスを創り続けることを目指しています。