NVIDIA 最近宣布, NVIDIA TensorRT-LLM 現可加速編碼器 – 解碼器模型架構 。TensorRT-LLM 是一個開源庫,可針對各種模型架構優化推理,包括:
編碼器-解碼器模型支持的添加進一步擴展了 TensorRT-LLM 功能,為 NVIDIA GPUs 上更廣泛的生成式 AI 應用提供高度優化的推理。
TensorRT-LLM 使用 NVIDIA TensorRT 深度學習編譯器。它包含經過最新優化的內核,可在前沿實現用于 LLM 模型執行的不同注意力機制。它還在一個簡單的開源 API 中包含預處理和后處理步驟以及多 GPU/多節點通信基元,可在 GPU 上實現突破性的 LLM 推理性能。
TensorRT-LLM 可處理編碼器 – 解碼器模型系列 (例如 T5 、 mT5 、Flan-T5、 BART 、 mBART 、FairSeq NMT、UL2 和 Flan-UL2) 中的細微差別,抽象出常見組件和衍生組件,并為編碼器 – 解碼器模型提供通用支持。它還通過全張量并行 (TP)、管道并行 (PP) 以及這兩種模型的混合,支持多 GPU/多節點推理。
有關不同模型、不同優化和多 GPU 執行的更多信息,請參閱 編碼器 – 解碼器模型支持 。
PyTorch 和 pandas 在編碼器 – 解碼器架構中的動態批處理
編碼器 – 解碼器模型 與多模態模型類似,其運行時模式與僅解碼器的模型不同。它們有多個引擎 (通常是兩個引擎),其中第一個引擎的輸入/輸出緩沖區更簡單,每次請求僅執行一次。第二個引擎以自動回歸方式執行,具有更復雜的處理邏輯,用于 鍵值 (KV) 緩存管理 和 批量管理 ,可在低延遲的情況下提供高吞吐量。
有多個關鍵擴展,可為編碼器 – 解碼器架構啟用動態批處理 (In-flight batching, IFB) (也稱為連續批處理) 和 KV 緩存管理:
- 對編碼器模型(文本、音頻或其他模式)的 Runtime 支持,包括輸入/輸出緩沖區設置和模型執行。
- 雙頁面 KV 緩存管理,用于解碼器的自注意力緩存以及根據編碼器輸出計算的解碼器交叉注意力緩存。
- 數據在 LLM 請求級別從編碼器傳輸到解碼器控制。在動態中對解碼器請求進行批量處理時,每個請求的編碼器階段輸出也應在動態中進行收集和批量處理。
- 編碼器和解碼器的去批處理策略。由于編碼器和解碼器可能具有不同的大小和計算屬性,因此每個階段的請求都應獨立異步地進行批量處理。
NVIDIA Triton TensorRT-LLM 后端還支持 TensorRT-LLM encoder-decoder 模型,以實現生產就緒型部署 。 NVIDIA Triton Inference Server 是一款開源推理服務軟件,可簡化 AI 推理 。
借助 Triton TensorRT-LLM 后端,您可以利用所有不同的功能來增強編碼器 – 解碼器模型的性能和功能:
低級別的適應支持?
低級自適應 (LoRA) 是一種功能強大的參數高效微調 (PEFT) 技術,可在保持出色性能和盡可能減少資源占用的同時自定義大型語言模型 (LLM)。LoRA 不會在微調期間更新所有模型參數,而是向模型添加小型可訓練秩分解矩陣,從而顯著降低內存需求和計算成本。
這些 LoRA 適配器專門針對特定的下游應用進行了調優,可用于提高特定任務的模型準確性。
TensorRT-LLM BART LoRA 支持使用優化功能來高效處理構成 LoRA 適應特征的低級矩陣 。這將帶來以下優勢:
- 在單個批量內高效提供多個 LoRA 適配器
- 通過動態加載 LoRA 適配器減少內存占用
- 與現有 BART 模型部署無縫集成
總結?
NVIDIA TensorRT-LLM 繼續擴展其功能,以便在不同架構中優化和高效運行 LLM。編碼器 – 解碼器模型即將推出的增強功能包括 FP8 量化,從而進一步改善延遲和吞吐量。對于生產部署,NVIDIA Triton 推理服務器提供了服務于這些模型的理想平臺。
尋求快速實現價值的企業可以使用 NVIDIA NIM ,這是 NVIDIA AI Enterprise 軟件平臺的一部分,可針對 NVIDIA 及其合作伙伴生態系統中的熱門模型提供優化推理。