Findy Tools
開発ツールのレビューサイト
検索結果がありません

TensorRT-LLMとは?機能や特徴・製品の概要まとめ

TensorRT-LLM

TensorRT-LLM

NVIDIA

プロダクト情報
アーキテクチャ
0
TensorRT-LLM
TensorRT-LLM
NVIDIA
TensorRT-LLM
プロダクト情報
アーキテクチャ
0

TensorRT-LLMのプロダクト概要

TensorRT-LLMとは

TensorRT-LLMは、NVIDIA GPU上でLLM推論を高速化するためのオープンソースライブラリです。Python APIでモデル定義とエンジン生成を簡便に行い、最適化されたインフラを提供します。

利用企業数非公開日本語サポートなし無料トライアルなし
カスタマーサクセスあり公式ドキュメントあり

TensorRT-LLMの特徴

1. Custom Attention & Inference Optimizations

カスタム注意カーネル、インフライトバッチング、ページ化されたKVキャッシュ、量子化、推測デコーディングなどで推論性能を最大化します。

2. PyTorch-Native Python API

PyTorchに自然に統合されたPython APIを通じて、シングル/マルチGPU・マルチノード設定に対応可能です。

3. Modular, Extensible Architecture

バックエンドはモジュール化されており、開発者による拡張やカスタマイズが容易です。