TensorRT-LLMとは?機能や特徴・製品の概要まとめ


TensorRT-LLM
NVIDIA

TensorRT-LLMのプロダクト概要
TensorRT-LLMとは
TensorRT-LLMは、NVIDIA GPU上でLLM推論を高速化するためのオープンソースライブラリです。Python APIでモデル定義とエンジン生成を簡便に行い、最適化されたインフラを提供します。
利用企業数 | 非公開 | 日本語サポート | なし | 無料トライアル | なし |
---|---|---|---|---|---|
カスタマーサクセス | あり | 公式ドキュメント | あり |
TensorRT-LLMの特徴
1. Custom Attention & Inference Optimizations
カスタム注意カーネル、インフライトバッチング、ページ化されたKVキャッシュ、量子化、推測デコーディングなどで推論性能を最大化します。
2. PyTorch-Native Python API
PyTorchに自然に統合されたPython APIを通じて、シングル/マルチGPU・マルチノード設定に対応可能です。
3. Modular, Extensible Architecture
バックエンドはモジュール化されており、開発者による拡張やカスタマイズが容易です。