LLM品質評価のツール - 製品一覧から機能の違いや活用事例を紹介

LLM品質評価

LLM品質評価のツール一覧

CLIとライブラリでLLMアプリケーションのプロンプト・RAG・エージェントをテスト＆レッドチーミングできるオープンソースツール。YAML構成で評価、脆弱性対策、自動評価をローカルやCI/CDで実施可能。

Pythonベースでパフォーマンス、バイアス、安全性などの問題を自動検出可能なAIテスト＆評価フレームワーク。RAGETによるRAGアプリ向け評価やビジネス向けの評価ダッシュボード機能も提供。

数十以上の学術ベンチマークに対応する、生成系言語モデルの性能評価向けオープンソースフレームワーク。Transformers、GPT-NeoX、API モデルなど多様な環境に対応。

Ragasは、LLMアプリケーションやRAGパイプラインを自動的・データ駆動で評価するオープンソースフレームワークで、評価ワークフロー構築とテストセット生成を支援します。

TruLensは、エージェントやRAG、対話アプリなどのLLMフローに対し、フィードバック関数に基づく精密な評価とトレースを提供し、品質向上を支援する観測ツールです。

Galileo AI は、エンタープライズ向けに設計された Generative AI 向け評価・観測プラットフォームで、リアルタイムモニタリングと評価により信頼性の高いAIアプリの運用を支援します。

Braintrust は、評価、観測、ログ記録機能を備えたエンドツーエンドのAIアプリ開発プラットフォームで、LLMアプリのプロンプトやモデルのパフォーマンス管理を支援します。