LLM品質評価のツール - 製品一覧から機能の違いや活用事例を紹介
LLM品質評価
LLM品質評価の活用事例

Braintrust
Braintrust
Braintrust は、評価、観測、ログ記録機能を備えたエンドツーエンドのAIアプリ開発プラットフォームで、LLMアプリのプロンプトやモデルのパフォーマンス管理を支援します。

Galileo AI
Galileo
Galileo AI は、エンタープライズ向けに設計された Generative AI 向け評価・観測プラットフォームで、リアルタイムモニタリングと評価により信頼性の高いAIアプリの運用を支援します。

TruLens
TruLens
TruLensは、エージェントやRAG、対話アプリなどのLLMフローに対し、フィードバック関数に基づく精密な評価とトレースを提供し、品質向上を支援する観測ツールです。

Ragas
Exploding Gradients
Ragasは、LLMアプリケーションやRAGパイプラインを自動的・データ駆動で評価するオープンソースフレームワークで、評価ワークフロー構築とテストセット生成を支援します。

LM Evaluation Harness
EleutherAI
数十以上の学術ベンチマークに対応する、生成系言語モデルの性能評価向けオープンソースフレームワーク。Transformers、GPT-NeoX、API モデルなど多様な環境に対応。

Giskard
Giskard AI
Pythonベースでパフォーマンス、バイアス、安全性などの問題を自動検出可能なAIテスト&評価フレームワーク。RAGETによるRAGアプリ向け評価やビジネス向けの評価ダッシュボード機能も提供。

Promptfoo
Promptfoo, Inc.
CLIとライブラリでLLMアプリケーションのプロンプト・RAG・エージェントをテスト&レッドチーミングできるオープンソースツール。YAML構成で評価、脆弱性対策、自動評価をローカルやCI/CDで実施可能。