LM Evaluation Harnessとは?機能や特徴・製品の概要まとめ


LM Evaluation Harness
EleutherAI

LM Evaluation Harnessのプロダクト概要
LM Evaluation Harnessとは
数十以上の学術ベンチマークに対応する、生成系言語モデルの性能評価向けオープンソースフレームワーク。Transformers、GPT-NeoX、API モデルなど多様な環境に対応。
利用企業数 | 非公開 | 日本語サポート | なし | 無料トライアル | なし |
---|---|---|---|---|---|
カスタマーサクセス | なし | 公式ドキュメント | あり |
LM Evaluation Harnessの特徴
1. ベンチマーク評価
多数の標準的な学術ベンチマークに対応し、モデルの性能を包括的に評価。様々なタスクや言語での評価が可能。
2. モデル互換性
Hugging Face Transformers、GPT-NeoX、OpenAI APIなど、多様なモデルフォーマットやAPIに対応。統一的なインターフェースで評価可能。
3. カスタマイズ性
新しいタスクやメトリクスの追加が容易で、特定のユースケースに合わせた評価が可能。分散評価にも対応。