Rajvir Singh – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 12 Dec 2024 04:06:49 +0000
zh-CN
hourly
1
196178272 -
Jamba 1.5 LLM 混合架構實現出色的推理和長上下文處理能力
http://www.open-lab.net/zh-cn/blog/jamba-1-5-llms-leverage-hybrid-architecture-to-deliver-superior-reasoning-and-long-context-handling/
Thu, 22 Aug 2024 07:54:58 +0000
http://www.open-lab.net/zh-cn/blog/?p=11119
Continued]]>
AI21 Labs 推出了最新、最先進的 Jamba 1.5 模型系列,這是一個先進的大型語言模型(LLM)集合,旨在出色地處理各種生成式 AI 任務。這些模型能夠創建內容、總結和比較文檔,并從大量數據集中提取有價值的見解。 這種多專家模型 (MoE) 利用 Transformer 和 Mamba 架構提供出色的效率、延遲和長上下文處理。這一點,再加上在任何加速平臺上的輕松部署,使企業能夠在靠近數據所在的安全環境中運行應用程序。 NVIDIA 最近優化和托管了新的 Jamba 1.5 模型,這些模型現在可以在NVIDIA API目錄上體驗。 Jamba 1.5 模型系列采用獨特的混合方法構建,結合了 Mamba 和 Transformer 架構的優勢,以及混合專家 (MoE) 模塊。具體來說,Mamba 架構擅長管理長上下文,并將計算開銷降至最低,
Source
]]>
11119
-
NVIDIA NIM 微服務助力大規模 LLM 推理效率優化
http://www.open-lab.net/zh-cn/blog/optimizing-inference-efficiency-for-llms-at-scale-with-nvidia-nim-microservices/
Wed, 14 Aug 2024 05:14:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=10967
Continued]]>
隨著大型語言模型 (LLMs) 繼續以前所未有的速度發展,企業希望構建生成式 AI 驅動的應用程序,以最大限度地提高吞吐量,降低運營成本,并盡可能減少延遲,從而提供卓越的用戶體驗。 本文將討論 LLM 的吞吐量和延遲的關鍵性能指標,探索其重要性以及兩者之間的權衡。本文還將探討吞吐量和延遲如何影響 AI 應用程序的效率和用戶體驗,以及如何使用 NVIDIA NIM 微服務對其進行優化。 當用戶向LLM發送請求時,系統會處理該請求,并通過輸出一系列令牌開始生成響應。通常會有多個請求發送到系統,系統會嘗試同時處理這些請求,以盡可能縮短每個請求的等待時間。 吞吐量用于衡量單位時間內的成功操作數。吞吐量是企業確定其同時處理用戶請求的能力的重要衡量指標。對于 LLM,吞吐量由令牌每秒來衡量。由于令牌是新貨幣,更高的吞吐量可以降低成本并為企業帶來收入。 此外,
Source
]]>
10967
人人超碰97caoporen国产