Findy Tools
開発ツールのレビューサイト
検索結果がありません

LLM品質評価のツール - 製品一覧から機能の違いや活用事例を紹介

LLM品質評価

LLM品質評価のツール一覧

Braintrust
Galileo AI
TruLens
Ragas
LM Evaluation Harness
Giskard
Promptfoo

LLM品質評価の活用事例

Braintrust
Braintrust
Braintrust

Braintrust は、評価、観測、ログ記録機能を備えたエンドツーエンドのAIアプリ開発プラットフォームで、LLMアプリのプロンプトやモデルのパフォーマンス管理を支援します。

もっとみる
Galileo AI
Galileo AI
Galileo

Galileo AI は、エンタープライズ向けに設計された Generative AI 向け評価・観測プラットフォームで、リアルタイムモニタリングと評価により信頼性の高いAIアプリの運用を支援します。

もっとみる
TruLens
TruLens
TruLens

TruLensは、エージェントやRAG、対話アプリなどのLLMフローに対し、フィードバック関数に基づく精密な評価とトレースを提供し、品質向上を支援する観測ツールです。

もっとみる
Ragas
Ragas
Exploding Gradients

Ragasは、LLMアプリケーションやRAGパイプラインを自動的・データ駆動で評価するオープンソースフレームワークで、評価ワークフロー構築とテストセット生成を支援します。

もっとみる
LM Evaluation Harness
LM Evaluation Harness
EleutherAI

数十以上の学術ベンチマークに対応する、生成系言語モデルの性能評価向けオープンソースフレームワーク。Transformers、GPT-NeoX、API モデルなど多様な環境に対応。

もっとみる
Giskard
Giskard
Giskard AI

Pythonベースでパフォーマンス、バイアス、安全性などの問題を自動検出可能なAIテスト&評価フレームワーク。RAGETによるRAGアプリ向け評価やビジネス向けの評価ダッシュボード機能も提供。

もっとみる
Promptfoo
Promptfoo
Promptfoo, Inc.

CLIとライブラリでLLMアプリケーションのプロンプト・RAG・エージェントをテスト&レッドチーミングできるオープンソースツール。YAML構成で評価、脆弱性対策、自動評価をローカルやCI/CDで実施可能。

もっとみる