LM Evaluation Harnessとは？機能や特徴・製品の概要まとめ

LLM品質評価

LM Evaluation Harness

EleutherAI

プロダクト情報

アーキテクチャ

LM Evaluation Harness

EleutherAI

プロダクト情報

アーキテクチャ

LM Evaluation Harnessのプロダクト概要

数十以上の学術ベンチマークに対応する、生成系言語モデルの性能評価向けオープンソースフレームワーク。Transformers、GPT-NeoX、API モデルなど多様な環境に対応。

利用企業数	非公開	日本語サポート	なし	無料トライアル	なし
カスタマーサクセス	なし	公式ドキュメント	あり

多数の標準的な学術ベンチマークに対応し、モデルの性能を包括的に評価。様々なタスクや言語での評価が可能。

Hugging Face Transformers、GPT-NeoX、OpenAI APIなど、多様なモデルフォーマットやAPIに対応。統一的なインターフェースで評価可能。

新しいタスクやメトリクスの追加が容易で、特定のユースケースに合わせた評価が可能。分散評価にも対応。