Findy Tools
開発ツールのレビューサイト
検索結果がありません

推論最適化のツール - 製品一覧から機能の違いや活用事例を紹介

推論最適化

推論最適化のツール一覧

SambaNova
Cerebras Inference
BentoML
ONNX Runtime
SGLang
TensorRT-LLM
vLLM

推論最適化の活用事例

SambaNova
SambaNova
SambaNova Systems

SambaNovaは、高性能なAIチップおよびインフラを提供するプラットフォームで、Semantic KernelやAutoGenなどとの統合を通じてエージェント開発やモデル統合に対応します。

もっとみる
Cerebras Inference
Cerebras Inference
Cerebras Systems Inc.(アメリカ)

Cerebras Inferenceは、世界最大のウェーハスケールAIチップ(Wafer-Scale Engine)を活用し、極めて高いトークン毎秒(TPS)速度でLLM推論を提供するクラウド/オンプレミス対応のインフェレンスプラットフォームです。

もっとみる
BentoML
BentoML
BentoML

BentoMLは、あらゆるAI/MLモデルをAPI化し、スケーラブルで信頼性の高い推論基盤を構築できるオープンソースの統合型インフェレンスプラットフォームです。インフラの複雑さを排除して開発効率を向上させます。

もっとみる
ONNX Runtime
ONNX Runtime
Microsoft

ONNX Runtimeは、ONNX形式のMLモデルをあらゆるプラットフォームやハードウェアで高速に推論できるクロスプラットフォームランタイムで、LLMも多数サポートしています。

もっとみる
SGLang
SGLang
SGLang

SGLang(Structured Generation Language)は、高速かつ制御性に優れたLLM/VLMサービングを実現するフレームワークで、バックエンドランタイムとフロントエンド言語の共設計により最適化されています。

もっとみる
TensorRT-LLM
TensorRT-LLM
NVIDIA

TensorRT-LLMは、NVIDIA GPU上でLLM推論を高速化するためのオープンソースライブラリです。Python APIでモデル定義とエンジン生成を簡便に行い、最適化されたインフラを提供します。

もっとみる
vLLM
vLLM
Sky Computing Lab at UC Berkeley

vLLMは、高スループットかつメモリ効率の良いLLM推論とサービスを可能にするオープンソースライブラリ/サーバーで、PagedAttentionや連続バッチ処理により性能と効率を最大化します。

もっとみる
推論最適化のツール - 製品一覧から機能の違いや活用事例を紹介