NVIDIA NIM 微服務助力大規模 LLM 推理效率優化

隨著大型語言模型 (LLMs) 繼續以前所未有的速度發展，企業希望構建生成式 AI 驅動的應用程序，以最大限度地提高吞吐量，降低運營成本，并盡可能減少延遲，從而提供卓越的用戶體驗。

本文將討論 LLM 的吞吐量和延遲的關鍵性能指標，探索其重要性以及兩者之間的權衡。本文還將探討吞吐量和延遲如何影響 AI 應用程序的效率和用戶體驗，以及如何使用 NVIDIA NIM 微服務對其進行優化。

用于衡量成本效率的關鍵指標

當用戶向LLM發送請求時，系統會處理該請求，并通過輸出一系列令牌開始生成響應。通常會有多個請求發送到系統，系統會嘗試同時處理這些請求，以盡可能縮短每個請求的等待時間。

吞吐量用于衡量單位時間內的成功操作數。吞吐量是企業確定其同時處理用戶請求的能力的重要衡量指標。對于 LLM，吞吐量由令牌每秒來衡量。由于令牌是新貨幣，更高的吞吐量可以降低成本并為企業帶來收入。

此外，提高吞吐量可在提供借助 Kubernetes 等軟件進行擴展的高性能應用程序方面提供競爭優勢，從而降低服務器成本并能夠處理更多用戶。

延遲是指數據傳輸之前或之間的延遲，通過第一個令牌的時間（TTFT）和令牌間延遲（ITL）來衡量。延遲對于確保用戶體驗的流暢性至關重要，同時也能最大限度地提高整體系統的效率。

圖 1 顯示了在一段時間內 (T_start – T_end) 接收多個并發請求 (L1 – Ln) 的模型，其中每行都表示每個請求的延遲。每行中更多的短行等于提高吞吐量和降低整體延遲。

Diagram showing the timeline of request processing from T_start to T_end, with each shorter line segment L1-Ln? representing the latency of individual requests. Higher throughput is depicted by more line segments, indicating more tokens produced. — *圖 1. 從 T_start 到 T_end 的服務器請求處理時間軸，每個較短的線段 L1-Ln? 表示單個請求的延遲時間*

TTFT 用于測量模型在收到請求后生成第一個令牌所需的時間，表明最終用戶需要等待多長時間才能看到第一個令牌。這對于從客戶支持到電子商務機器人的快速初始響應至關重要。大多數情況下，TTFT 應在幾秒鐘內完成；越短越好，但這對整體系統吞吐量造成了限制（下一節將詳細介紹）。

ITL 指生成連續令牌之間的時間間隔，對于需要流暢和持續文本生成的應用程序至關重要。為了確保流暢的閱讀體驗，ITL 應該低于人類的閱讀速度。

圖 2 顯示了這些延遲基準測試與用戶和推理服務交互的組合。從查詢到第一個生成的 TTFT 時間，每個令牌之間的時間為 ITL。

The image illustrates the token generation process in an inference service, highlighting TTFT and ITL. A user's query is sent to the inference service, which then generates and delivers tokens sequentially. TTFT represents the time from query submission to the delivery of the first token, while ITL indicates the time intervals between subsequent tokens. The entire process, from the first token to the last token, is referred to as the "generation time." — *圖 2. 推理服務中的令牌生成過程，突出了 TTFT 和 ITL 的作用*

企業的目標是盡可能減少 ITL 和 TTFT，在保持高吞吐量的同時降低延遲，從而確保整個系統高效運行，個人用戶體驗流暢。

平衡吞吐量和延遲

吞吐量和延遲之間的權衡由并發請求的數量和延遲預算決定，兩者均由應用程序的用例所決定。通過并發處理大量用戶請求，企業可以提高吞吐量；然而，這通常會導致每個單獨請求的延遲增加。

另一方面，在設定的延遲預算（即最終用戶可以接受的延遲量）下，可以通過增加并發請求的數量來最大限度地提高吞吐量。延遲預算可能會限制TTFT或端到端延遲。

圖 3 說明了吞吐量和延遲之間的權衡。y 軸是吞吐量，x 軸是延遲（在本例中為 TTFT），每個標記點上的曲線都標記了相應的并發度。這可以用于根據特定用例，在指定的延遲預算內確定最大限度提高吞吐量的點。

Graph showing throughput versus TTFT with concurrency labeled on the markers. The x-axis represents "Single User: time to first token(s)" on a logarithmic scale, ranging from 0.1 to 100 seconds. The y-axis represents "Total System: tokens/s," ranging from 0 to over 1000 tokens per second. The graph shows a series of blue markers connected by a dotted line, illustrating the relationship between throughput and time to first token (TTFT) at different concurrency levels, with concurrencies printed over each marker. As TTFT increases, throughput rises and then plateaus, indicating a saturation point. — *圖 3.TTFT 與每秒吞吐量令牌之間的關系*

隨著并發請求數量的增加，可以通過建立模型服務的多個實例來添加更多 GPU。這將保持所需的吞吐量和用戶體驗水平。例如，在黑色星期五處理購物請求的聊天機器人需要使用多個 GPU 來保持這種峰值并發下的吞吐量和延遲。

通過關注吞吐量和延遲如何隨并發用戶數量的變化而變化，企業可以根據用例做出明智的決策，以提高其 AI 解決方案的效率。這意味著在吞吐量和延遲之間實現完美平衡，從而避免資源浪費并最大限度地降低服務器成本。

NVIDIA NIM 如何優化吞吐量和延遲

NVIDIA 為企業提供經過優化的解決方案，以保持高吞吐量和低延遲。NVIDIA NIM 是一組微服務，用于優化性能，同時提供安全性、易用性和靈活性，以便在任何地方部署模型。NVIDIA NIM 提供低延遲和高吞吐量的 AI 推理，并利用基礎設施資源高效擴展，從而降低總擁有成本（TCO）。

借助 NIM，企業可以通過關鍵技術（包括運行時優化、智能模型表示以及定制的吞吐量和延遲配置文件）來優化模型性能。NVIDIA TensorRT-LLM 通過利用 GPU 數量和批量大小等參數來優化模型性能。借助 NIM，企業可以自動調整這些參數，以最適合其用例，從而實現最佳的延遲和吞吐量。

作為 NVIDIA AI Enterprise 軟件套件的一部分，NIM 經過徹底的調優，以確保每個模型的高性能配置。此外，Tensor Parallelism (圖 4) 和動態批處理 (IFB) 等技術通過并行處理多個請求和最大限度地提高 GPU 利用率，從而進一步提高吞吐量和降低延遲。

這些強大的優化技術可以廣泛應用于提高人工智能應用程序的性能。此外，隨著 NVIDIA 不斷優化每個新版本的 NIM，NIM 的性能將隨著時間的推移而提升。

Diagram illustrating tensor parallelism (TP) in LLMs. The diagram shows a neural network graph, with the top and bottom half split into two different colors, or sections, demonstrating how Tensor Parallelism optimizes inference across multiple GPUs. — 圖 4.Tensor Parallelism 展示了如何將模型拆分成多個片段，以跨多個 GPU 利用并行計算，通過并發處理請求來提高吞吐量并最大限度地減少延遲

NVIDIA NIM 性能

使用 NIM 可顯著提高吞吐量和延遲。具體來說，與最佳開源替代方案相比，NVIDIA Llama 3.1 8B Instruct NIM 的吞吐量提高了 2.5 倍，TTFT 速度提高了 4 倍，ITL 速度提高了 2.2 倍（圖 5）。

This image has three charts that each show the improvement in performance metrics with NIM. With NIM, Llama 3.1 8B Instruct has a throughput of 6372 tokens/sec, TTFT of 1s, and an ITL of 30ms. With NIM Off, Llama 3.1 8B Instruct has a throughput of 2679 tokens/sec, TTFT of 4s, and an ITL of 65ms. The configuration is Llama 3.1 8B Instruct, input token length: 1,000 output token length: 1,000. Concurrent client requests: 200, on 1x NVIDIA H100 SXM. — *圖 5.使用 Llama 3.1 8B Instruct 提高吞吐量和延遲*

圖 6 是開啟 NIM 與關閉 NIM 的實時演示，其中顯示了實時聊天機器人生成。開啟 NIM (右) 的輸出速度比關閉 NIM 快 2.4 倍 (左)。這種加速是由優化的 Tensort-RT LLM 和前面提到的技術（例如動態批處理和張量并行性）提供的。

This demo shows two chatbots generating responses when queried. It shows the performance difference between the model running with and without NIM. With NIM, the model runs 2.4x faster in terms of inter-token latency. — *圖 6.Mixtral 8x7B 在啟用和不啟用 NIM 的情況下實現 2.4 倍 ITL 增益的演示*

開始使用

NVIDIA NIM 通過提供出色的性能、易用性和成本效益，在企業 AI 領域樹立了新標準。無論您是尋求增強客戶服務、簡化運營流程，還是在行業中進行創新，NIM 都能提供您所需的可靠、可擴展且安全的解決方案，以滿足您的業務需求。

體驗 Omniverse 的高吞吐量和低延遲Llama 3 70B NIM.

如需了解有關在您的機器上對 NIM 進行基準測試的更多信息，請查看 NIM LLM 基準測試指南和 NIM 文檔。

NVIDIA NIM 微服務助力大規模 LLM 推理效率優化

用于衡量成本效率的關鍵指標

平衡吞吐量和延遲

NVIDIA NIM 如何優化吞吐量和延遲

NVIDIA NIM 性能

開始使用

相關資源

標簽

關于作者

NVIDIA NIM 微服務助力大規模 LLM 推理效率優化

用于衡量成本效率的關鍵指標

平衡吞吐量和延遲

NVIDIA NIM 如何優化吞吐量和延遲

NVIDIA NIM 性能

開始使用

相關資源

標簽

關于作者

相關文章

LLM 基準測試：基本概念

揭開萬億參數大型語言模型 AI 推理部署的神秘面紗

相關文章

在 NVIDIA NeMo 框架的首發日支持下即時運行 Hugging Face 模型

在 Azure AI Foundry 上使用 NVIDIA NIM 加速 AI 推理

應用具有推理能力的專用大語言模型（LLM）加速電池研究

擴展 NVIDIA Agent Intelligence Toolkit 以支持新的代理式框架

借助 3DGUT 在 gsplat 中革新神經重建和渲染