TensorRT-LLMとは？機能や特徴・製品の概要まとめ

推論最適化

TensorRT-LLM

NVIDIA

プロダクト情報

アーキテクチャ

TensorRT-LLM

NVIDIA

プロダクト情報

アーキテクチャ

TensorRT-LLMのプロダクト概要

TensorRT-LLMは、NVIDIA GPU上でLLM推論を高速化するためのオープンソースライブラリです。Python APIでモデル定義とエンジン生成を簡便に行い、最適化されたインフラを提供します。

利用企業数	非公開	日本語サポート	なし	無料トライアル	なし
カスタマーサクセス	あり	公式ドキュメント	あり

カスタム注意カーネル、インフライトバッチング、ページ化されたKVキャッシュ、量子化、推測デコーディングなどで推論性能を最大化します。

PyTorchに自然に統合されたPython APIを通じて、シングル／マルチGPU・マルチノード設定に対応可能です。

バックエンドはモジュール化されており、開発者による拡張やカスタマイズが容易です。