Bethann Noble – NVIDIA 技術博客

借助統一的 NVIDIA NIM 工作流簡化 LLM 部署和 AI 推理

Wed, 11 Jun 2025 08:41:14 +0000

將大語言模型 (LLM) 集成到真實用戶與之大規模交互的生產環境中，是任何 AI 工作流中最重要的部分。這不僅僅是讓模型運行，而是讓它們變得快速、易于管理和足夠靈活，以支持不同的用例和生產需求。隨著 LLM 數量的不斷增加，每個 LLM 都有自己的架構、量化格式和首選部署框架，管理推理后端很快就變得繁瑣。NVIDIA TensorRT-LLM、vLLM 和 SGLang 等推理后端提供針對特定需求定制的獨特功能，例如提高吞吐量、降低延遲或模型支持。雖然每個推理后端在其域中都表現出色，但決定與模型一起使用哪個后端或在不同的后端之間切換可能既復雜又耗時。 NVIDIA NIM 通過簡化模型加載、后端選擇、服務和優化的復雜性來簡化 LLM 部署，以便您專注于構建。它提供了一種通過單個容器部署各種模型的簡單、統一的方法，只需使用幾個簡單的命令即可將這些模型快速部署到任何地方。

Source

]]>

利用 NVIDIA NIM 實現 AI 模型微調部署

Thu, 21 Nov 2024 06:46:49 +0000

對于使用特定領域數據調整 AI 基礎模型的組織而言，快速創建和部署微調模型的能力是高效地通過企業生成式 AI 應用提供價值的關鍵。 NVIDIA NIM 為最新的 AI 基礎模型提供預構建、性能優化的推理微服務，包括使用參數高效微調 (PEFT) 自定義的模型的無縫部署。在某些情況下，理想的做法是使用持續預訓練、DPO、監督微調（SFT）或模型合并等方法，這些方法直接在訓練或自定義過程中調整基礎模型權重，這與使用低階適應（LoRA）的 PEFT 不同。在這些情況下，必須更新模型的推理軟件配置，以便在給定新權重時獲得最佳性能。 NIM 可以自動構建針對本地環境中調整后的模型和 GPU 優化的 TensorRT-LLM 推理引擎性能，然后加載該引擎，以便在單步模型部署流程中運行推理，而無需承擔這一通常漫長的過程。在本文中，

Source

]]>

NVIDIA NIM 1.4 現已部署可用，推理速度提升 2.4 倍

Fri, 15 Nov 2024 07:01:07 +0000

隨著生成式 AI 重塑各行各業，對可立即部署的高性能推理的需求也在不斷增長。 NVIDIA NIM 為 AI 模型推理提供生產就緒型微服務容器，不斷提高企業級生成式 AI 性能。即將推出的 NIM 版本 1.4 定于 12 月初發布，開箱即用的請求性能可提升高達 2.4 倍，并提供相同的單命令部署體驗。 NIM 的核心是多個 LLM 推理引擎，包括 NVIDIA TensorRT-LLM ，可實現光速推理性能。在每個版本中，NIM 都整合了來自這些引擎的內核優化、內存管理和調度方面的最新進展，以提高性能。在 NIM 1.4 中，內核效率、運行時啟發式算法和內存分配有了顯著改進，推理速度提高了 2.4 倍。這些進步對于依賴快速響應和高吞吐量的生成式 AI 應用的企業至關重要。 NIM 還受益于全棧加速計算的持續更新，可提升計算堆棧各個級別的性能和效率。

Source

]]>

NVIDIA NIM 現為開發者計劃成員免費開放

Mon, 29 Jul 2024 06:10:29 +0000

使用簡單的 API 將預訓練的 AI 基礎模型集成到產品和體驗的能力顯著提高了開發者對 LLM 端點和應用開發框架的使用率。NVIDIA NIM 使開發者和工程團隊能夠快速部署自己的 AI 模型端點，以便使用熱門開發工具和框架安全開發加速生成式 AI 應用程序。開發者表示，出于開發目的，他們希望更輕松地訪問 NVIDIA Inference Microservices (NIM)，因此我們很高興為超過 500 萬 NVIDIA Developer Program 成員提供用于開發、測試和研究的可下載 NIM 微服務的免費訪問權限。該計劃的成員可以獲得全面的資源、培訓、工具和專家社區，幫助構建加速應用程序和解決方案。在本文中，我們簡要介紹了 NIM 微服務的技術概述，重點介紹了一些可供下載和自托管部署的微服務，并提供了入門所需的手冊資源以開始使用。 NIM 提供用于跨云、

Source

]]>