Laikh Tewari – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 10 Jul 2025 05:59:59 +0000 zh-CN hourly 1 196178272 提出一個維基百科規模的問題:如何利用數百萬 token 的實時推理使世界更加智能 http://www.open-lab.net/zh-cn/blog/asking-an-encyclopedia-sized-question-how-to-make-the-world-smarter-with-multi-million-token-real-time-inference/ Mon, 07 Jul 2025 05:55:21 +0000 http://www.open-lab.net/zh-cn/blog/?p=14529 Continued]]> 現代 AI 應用越來越依賴于將龐大的參數數量與數百萬個令牌的上下文窗口相結合的模型。無論是經過數月對話的 AI 智能體、通過像整個百科全書一樣大的案例法進行推理的法律助理,還是在不斷擴展的資源庫中對 copilot 進行編碼,保持遠程上下文對于相關性和一致性至關重要。最重要的是,用戶期望快速的交互式響應。 對如此龐大的數據進行解碼以及讓多個 GPU 快速擴展并相互通信的需求不斷增長,這凸顯了 FP4 計算和 NVIDIA Blackwell 系統提供的高帶寬大型 NVLink 域的重要性。本博客中介紹的 Helix Parallelism 是與 Blackwell 共同設計的。與使用超長上下文進行實時解碼的最知名的先前并行方法相比,它在給定延遲下的并發用戶數量增加了 32 倍。 換言之,它讓 AI 智能體和虛擬助理能夠以前所未有的速度為更多人提供服務。 (注意:

Source

]]>
14529
在 NVIDIA TensorRT-LLM 中引入新型 KV 緩存重用優化策略 http://www.open-lab.net/zh-cn/blog/introducing-new-kv-cache-reuse-optimizations-in-nvidia-tensorrt-llm/ Thu, 16 Jan 2025 06:08:15 +0000 http://www.open-lab.net/zh-cn/blog/?p=12687 Continued]]> 語言模型通過預測下一個令牌 (給定所有先前的令牌,包括輸入文本令牌) 來生成文本。在 LLM 服務中,先前令牌的鍵和值元素用作歷史語境,用于生成下一組令牌。從先前的 token 中緩存這些關鍵和值元素可以避免昂貴的重新計算,并有效地提高吞吐量。但是,鍵值 (KV) 緩存會隨著語言模型的大小、批處理請求的數量和序列上下文長度呈線性增長,從而導致內存需求不斷增長。 NVIDIA TensorRT-LLM 可提供多種 KV 緩存優化,以在顯存大小增長與避免昂貴的重新計算之間實現具有挑戰性的平衡。TensorRT-LLM 是一個開源庫,可為 NVIDIA GPUs 上的眾多熱門大語言模型 ( LLMs ) 提供先進的推理支持。TensorRT-LLM KV 緩存包括多項優化,例如支持分頁 KV 緩存、量化 KV 緩存、循環緩沖區 KV 緩存和 KV 緩存重復使用 。 在本文中,

Source

]]>
12687
人人超碰97caoporen国产