Brian Slechta – NVIDIA 技術博客

NVIDIA NVLink 和 NVIDIA NVSwitch 加速大語言模型推理性能

Mon, 12 Aug 2024 07:03:12 +0000

大型語言模型（LLM）越來越大，增加了處理推理請求所需的計算量。為了滿足服務當今LLM的實時延遲要求，并為盡可能多的用戶提供服務，多GPU計算是必不可少的。這不僅能夠降低延遲，提高用戶體驗，還能夠提高吞吐量，降低服務成本。兩者同時重要。即使大型模型可以裝入單個state-of-the-art GPU的內存中，該GPU生成令牌的速率也取決于可用于處理請求的總計算量。通過結合多個state-of-the-art GPU的計算能力，可以實現最新模型的實時用戶體驗。為了解對每秒高令牌的需求，以下 GIF 展示了兩種情況：通過使用多個 GPU 的組合計算性能和張量并行 (TP) 等技術來運行大型模型，可以快速處理推理請求，從而實現實時響應。通過精心選擇用于運行模型的 GPU 數量，云推理服務還可以同時優化用戶體驗和成本。

Source

]]>

揭開萬億參數大型語言模型 AI 推理部署的神秘面紗

Wed, 12 Jun 2024 06:06:56 +0000

人工智能（AI）正在改變各行各業，解決精準藥物發現、自動駕駛汽車開發等重大人類科學挑戰，并解決自動創建電子商務產品描述和從法律合同中提取見解等商業問題。如今，每家企業都在探索大語言模型(LLMs)，以創造競爭優勢。NVIDIA 云合作伙伴正在介入，為企業的人工智能之旅提供支持。例如，NexGen Cloud 為客戶提供通過其按需云平臺 Hyperstack 運行proofs-of-concept(PoCs）的機會，然后再致力于大規模的 supercloud 合同。您可以立即試用新一代 NVIDIA GPUs，從而快速采用其他服務層，例如 NVIDIA AI 平臺。在試點項目取得成功后，許多企業正在將這些計劃投入生產，以提高利潤。這就提出了一個重要問題：企業如何在提供出色用戶體驗的同時保持強勁的投資回報？大語言模型（LLM）生成的 tokens…

Source

]]>