General – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 22 May 2025 07:49:58 +0000 zh-CN hourly 1 196178272 NVIDIA Dynamo 加速 llm-d 社區計劃,推動大規模分布式推理 http://www.open-lab.net/zh-cn/blog/nvidia-dynamo-accelerates-llm-d-community-initiatives-for-advancing-large-scale-distributed-inference/ Wed, 21 May 2025 04:52:27 +0000 http://www.open-lab.net/zh-cn/blog/?p=13915 Continued]]> 在 Red Hat Summit 2025 上推出的 llm-d 社區標志著開源生態系統在加速生成式 AI 推理創新方面邁出了重要一步。llm-d 基于 vLLM 和 Inference Gateway 構建,通過 Kubernetes 原生架構擴展了 vLLM 的功能,從而實現大規模推理部署。 本文將介紹支持 llm-d 項目的關鍵 NVIDIA Dynamo 組件。 大規模分布式推理利用模型并行技術(例如 tensor、pipeline 和 expert parallelism),這些技術依賴于 internode 和 intranode、低延遲、高吞吐量的通信。它們還需要在 disaggregated serving 環境中,在預填充和解碼 GPU 工作者之間快速傳輸 KV 緩存。 為實現高吞吐量、低延遲的分布式和分解數據傳輸,llm-d 利用了 NVIDIA…

Source

]]>
13915
NVIDIA 800V HVDC 架構賦能新一代 AI 工廠發展 http://www.open-lab.net/zh-cn/blog/nvidia-800-v-hvdc-architecture-will-power-the-next-generation-of-ai-factories/ Tue, 20 May 2025 05:13:26 +0000 http://www.open-lab.net/zh-cn/blog/?p=13923 Continued]]> AI 工作負載的指數級增長正在增加數據中心的功率需求。傳統的 54 V 機架內配電專為千瓦(KW)-scale 機架設計,無法支持即將進入現代 AI 工廠的兆瓦(MW)-scale 機架。 從 2027 年開始,NVIDIA 正在率先向 800 V HVDC 數據中心電力基礎設施過渡,以支持 1 MW 及以上的 IT 機架。為了加速采用,NVIDIA 正在與數據中心電氣生態系統中的主要行業合作伙伴合作,包括: 該計劃將推動創新,旨在為新一代 AI 工作負載建立高效、可擴展的供電,以確保提高可靠性并降低基礎設施復雜性。 如今, AI 工廠的機架依賴于 54 V DC 電源,其中笨重的 copper busbars 將電力從機架式電源架傳輸到計算托盤。當機架功率超過 200 kilowatts 時,這種方法開始達到物理極限:

Source

]]>
13923
NVIDIA Dynamo 新增 GPU 自動縮放、Kubernetes 自動化和網絡優化功能 http://www.open-lab.net/zh-cn/blog/nvidia-dynamo-adds-gpu-autoscaling-kubernetes-automation-and-networking-optimizations/ Tue, 20 May 2025 05:09:19 +0000 http://www.open-lab.net/zh-cn/blog/?p=13920 Continued]]> 在 NVIDIA GTC 2025 上,我們宣布推出 NVIDIA Dynamo ,這是一種高吞吐量、低延遲的開源推理服務框架,用于在大規模分布式環境中部署生成式 AI 和推理模型。 Dynamo 的最新 v0.2 版本包括: 在本文中,我們將介紹這些功能,以及它們如何幫助您從 GPU 投資中獲得更多收益。 21 世紀初,云計算迅速采用的關鍵驅動因素之一是 autoscaling,即根據實時需求自動調整計算能力的能力。通過消除提前為峰值負載配置基礎設施的需求,autoscaling 可實現成本效益和運營靈活性。雖然這一概念已得到充分確認,但將其有效應用于 LLM 推理工作負載仍然是一項重大挑戰。 傳統的自動縮放依賴于簡單的指標,例如每秒查詢次數 (QPS) 。然而,在現代 LLM 服務環境中,并非所有推理請求都是相同的 (尤其是那些使用解服務等技術的環境) ,

Source

]]>
13920
NVIDIA ConnectX-8 SuperNIC 通過 PCIe Gen6 連接推動 AI 平臺架構發展 http://www.open-lab.net/zh-cn/blog/nvidia-connectx-8-supernics-advance-ai-platform-architecture-with-pcie-gen6-connectivity/ Sun, 18 May 2025 06:34:44 +0000 http://www.open-lab.net/zh-cn/blog/?p=13955 Continued]]> 從 大語言模型 (LLM) 到 代理式 AI 推理和 物理 AI ,隨著 AI 工作負載的復雜性和規模不斷增加,人們對更快、更可擴展的計算基礎設施的需求空前強烈。滿足這些需求需要從頭開始重新思考系統架構。 NVIDIA 正在通過 NVIDIA ConnectX-8 SuperNIC 推動平臺架構的發展。NVIDIA ConnectX-8 SuperNIC 是業內首款在單個設備中集成支持 PCIe Gen6 的交換機和超高速網絡的 SuperNIC。ConnectX-8 專為現代 AI 基礎架構設計,可提供更高的吞吐量,同時簡化系統設計并提高功耗和成本效益。 在基于 PCIe 的平臺中,尤其是配備 8 個或更多 GPU 的平臺,PCIe 交換機對于更大限度地提高 GPU 間通信帶寬和實現可擴展的 GPU 拓撲至關重要。現有設計依賴于獨立的 PCIe 交換機,

Source

]]>
13955
NVIDIA Isaac Sim 和 NVIDIA Isaac Lab 即將新增高級傳感器物理特性、自定義和模型基準測試功能 http://www.open-lab.net/zh-cn/blog/advanced-sensor-physics-customization-and-model-benchmarking-coming-to-nvidia-isaac-sim-and-nvidia-isaac-lab/ Sun, 18 May 2025 06:24:36 +0000 http://www.open-lab.net/zh-cn/blog/?p=13947 Continued]]> 在 COMPUTEX 2025 上,NVIDIA 宣布對其機器人仿真參考應用 NVIDIA Isaac Sim 和機器人學習框架 NVIDIA Isaac Lab 進行新的更新,以加速開發各種具體化的機器人。 Isaac Sim 和 Lab 將完全兼容 NVIDIA RTX PRO 6000 工作站和服務器,為訓練中的每個機器人開發工作負載提供單一架構, 合成數據生成 、 機器人學習 ,以及 模擬 。 在本文中,我們將進一步探討將于今年第二季度推出的 Isaac Sim 和 Isaac Lab 的新功能,以及這些更新如何加速機器人工作流程。 新的 Isaac Sim 基于 NVIDIA Omniverse 和 OpenUSD 構建,將是開放和可定制的,通過 NVIDIA Launchable 加快開發速度,并支持先進的合成數據生成流程,

Source

]]>
13947
借助 Mistral Medium 3 和 NVIDIA NIM 構建智能體并了解長文檔 http://www.open-lab.net/zh-cn/blog/build-agents-and-understand-long-docs-with-mistral-medium-3-and-nvidia-nim/ Fri, 16 May 2025 06:52:48 +0000 http://www.open-lab.net/zh-cn/blog/?p=13964 Continued]]> 構建功能強大的多模態應用的開發者現在可以使用 Mistral Medium 3,獲得專為企業級性能而設計的全新先進模型。 Mistral Medium 3 在緊湊的部署空間中融合了高性能、高效率和通用性。此密集模型專為商業和本地用例設計,可在 NVIDIA Hopper GPU 上高效運行,適合尋求靈活性和可控性的企業開發者。 中 3 引入了多模態支持,使模型能夠同時接受文本和圖像輸入并返回文本輸出,從而適用于更廣泛的 AI 驅動應用,包括文檔解析和視覺 QA 系統。開發者現在可以輸入模型掃描的報告、圖表或視覺提示,并接收高質量的回復。 借助 128K 上下文窗口,該模型可以推理大型文檔、執行多步驟工作流并保留長對話歷史記錄,這對于法律合同分析、代理規劃和多輪客戶支持等應用至關重要。 它支持跨超過 45 種全球和地區語言的高質量輸出,包括印地語、越南語、加泰羅尼亞語、

Source

]]>
13964
R2D2:通過 NVIDIA Research 解鎖機器人裝配和豐富的接觸操作 http://www.open-lab.net/zh-cn/blog/r2d2-unlocking-robotic-assembly-and-contact-rich-manipulation-with-nvidia-research/ Fri, 16 May 2025 06:45:13 +0000 http://www.open-lab.net/zh-cn/blog/?p=13961 Continued]]> 本期 NVIDIA 機器人研發摘要 (R2D2) 探討了 NVIDIA Research 針對機器人裝配任務提供的多個接觸性豐富的操作工作流,以及它們如何通過固定自動化來應對魯棒性、適應性和可擴展性等關鍵挑戰。 接觸性豐富的操作是指涉及機器人與其環境中的物體之間持續或重復物理接觸的機器人任務,需要精確控制力和運動。與簡單的拾取和放置操作不同,這些任務需要精細交互來管理不確定性下的摩擦、合規性和對齊。 它在 機器人 、 制造 和 汽車 等行業中發揮著關鍵作用,在這些行業中,插入定位器、合齒輪、螺紋螺栓或組裝卡扣配合部件等任務很常見。作為機器人裝配的核心能力,具有豐富接觸性的操作使機器人能夠執行復雜的高精度任務,這對于自動化裝配和處理現實世界的可變性至關重要。 由于需要在動態環境中進行精確操作,因此解決機器人裝配任務一直具有挑戰性。傳統上,

Source

]]>
13961
使用 GPU 預測 Apache Spark 的性能 http://www.open-lab.net/zh-cn/blog/predicting-performance-on-apache-spark-with-gpus/ Thu, 15 May 2025 07:04:19 +0000 http://www.open-lab.net/zh-cn/blog/?p=13975 Continued]]> 大數據分析領域正在不斷尋找加速處理和降低基礎設施成本的方法。Apache Spark 已成為用于橫向擴展分析的領先平臺,可處理 ETL、機器學習和深度學習工作負載的大型數據集。雖然傳統上基于 CPU,但 GPU 加速的出現提供了一個令人信服的前景:顯著加速數據處理任務。 但是,將 Spark 工作負載從 CPU 遷移到 GPU 并非易事。GPU 加速雖然對某些操作非常強大,但不一定能提高每個場景中的性能。小型數據集、大量數據移動以及使用用戶定義函數 (User-Defined Functions, UDFs) 等因素有時會對 GPU 性能產生負面影響。相反,涉及高基數數據的工作負載,例如連接、聚合、排序、窗口操作和轉碼任務 (例如編碼/壓縮 Apache Parquet 或 Apache ORC 或解析 CSV) 通常是 GPU 加速的積極指標。

Source

]]>
13975
NVIDIA TensorRT 解鎖 NVIDIA Blackwell GeForce RTX 50 系列 GPU 的 FP4 圖像生成 http://www.open-lab.net/zh-cn/blog/nvidia-tensorrt-unlocks-fp4-image-generation-for-nvidia-blackwell-geforce-rtx-50-series-gpus/ Wed, 14 May 2025 07:41:19 +0000 http://www.open-lab.net/zh-cn/blog/?p=13997 Continued]]> NVIDIA Blackwell 平臺的推出開啟了生成式 AI 技術進步的新時代。其最前沿是新推出的 GeForce RTX 50 系列 GPU,適用于 PC 和工作站,配備具有 4 位浮點計算 (FP4) 的第五代 Tensor Cores,是加速 Black Forest Labs 的 FLUX 等高級生成式 AI 模型的必備。 隨著新的圖像生成模型力求達到速度、準確性、更高分辨率和復雜的提示依從性,它們變得越來越大、越來越復雜。要在 PC 和工作站的本地推理中部署這些大型復雜模型,超越 16 位和 8 位計算的優勢在于。 Blackwell 與 NVIDIA TensorRT 推理工具軟件生態系統相結合,可提供易于使用的庫,這些庫支持用于推理的 FP4 量化和部署,具有出色的性能和質量。 實現這一目標并非易事。為了利用 Blackwell 中的 4 位硬件創新,

Source

]]>
13997
使用先進的開放式后訓練數據集構建自定義推理模型 http://www.open-lab.net/zh-cn/blog/build-custom-reasoning-models-with-advanced-open-post-training-datasets/ Wed, 14 May 2025 07:35:47 +0000 http://www.open-lab.net/zh-cn/blog/?p=13992 Continued]]> 合成數據已成為大語言模型 (LLM) 后訓練程序的標準組成部分。使用從單個或一組經商業許可的開源 LLM 中合成生成的大量示例,通過監督微調或 RLHF 對基礎 LLM 進行微調,以獲得指導遵循和推理技能。這個過程可以被視為一個知識蒸餾過程,從一組 LLM 教師到目標 LLM 學生。 NVIDIA 最近開源了 Llama-Nemotron 后訓練數據集 ,該數據集包含 3000 萬個合成訓練示例,支持改進數學、代碼、一般推理、函數調用和指令遵循功能。作為證據,NVIDIA 使用此數據集訓練并發布了三個模型: 每個模型在其各自權重類別內的推理和代理式任務中都具有領先的準確性。 此數據集版本代表著模型開發和改進在開放性和透明度方面的重大進步。除了訓練方法、工具和最終模型權重之外,NVIDIA 還發布了完整的訓練集,為這種方法的重建和改進提供支持。

Source

]]>
13992
在 NVIDIA NeMo 框架的首發日支持下即時運行 Hugging Face 模型 http://www.open-lab.net/zh-cn/blog/run-hugging-face-models-instantly-with-day-0-support-from-nvidia-nemo-framework/ Mon, 12 May 2025 05:31:06 +0000 http://www.open-lab.net/zh-cn/blog/?p=13802 Continued]]> 在企業組織努力更大限度地提高其 生成式 AI 投資的價值時,獲取最新的模型開發成果對于持續取得成功至關重要。通過在首發日使用先進的模型,團隊可以高效利用這些創新、保持相關性并提高競爭力。 在過去的一年里,開源社區發布了一系列激動人心的模型系列,包括 Meta Llama、Google Gemma、Mistral Codestral、Codestral Mamba、Large 2、Mixtral、Qwen 3、2 和 2.5、Deepseek R1、NVIDIA Nemotron 和 NVIDIA Llama Nemotron。這些模型通常在 Hugging Face Hub 上提供,以便更廣泛的社區輕松訪問。 發布后不久,許多用戶專注于評估模型功能和探索潛在應用。為了了解模型的潛力并發現創新機會,針對特定用例進行微調通常成為一個關鍵的優先事項。

Source

]]>
13802
在 Azure AI Foundry 上使用 NVIDIA NIM 加速 AI 推理 http://www.open-lab.net/zh-cn/blog/accelerated-ai-inference-with-nvidia-nim-on-azure-ai-foundry/ Mon, 12 May 2025 05:22:02 +0000 http://www.open-lab.net/zh-cn/blog/?p=13799 Continued]]> 將 NVIDIA NIM 微服務 集成到 Azure AI Foundry ,標志著企業 AI 開發的重大飛躍。通過將 NIM 微服務與 Azure 可擴展的安全基礎架構相結合,企業組織現在可以比以往更高效地部署功能強大的即用型 AI 模型。 NIM 微服務容器化,可為預訓練和自定義 AI 模型提供 GPU 加速推理。NIM 微服務集成了 NVIDIA 和更廣泛的社區的領先推理技術,可為 NVIDIA 加速基礎設施上的最新 AI 模型提供優化的響應延遲和吞吐量。 開發者可以通過符合每個領域行業標準的 API 訪問 AI 模型,從而簡化 AI 應用的開發。NIM 支持跨多個領域和一系列 AI 模型的 AI 用例,包括社區模型、NVIDIA AI Foundation 模型和 NVIDIA 合作伙伴提供的自定義 AI 模型。其中包括語音、圖像、視頻、3D、藥物研發、

Source

]]>
13799
應用具有推理能力的專用大語言模型(LLM)加速電池研究 http://www.open-lab.net/zh-cn/blog/applying-specialized-llms-with-reasoning-capabilities-to-accelerate-battery-research/ Fri, 09 May 2025 05:42:15 +0000 http://www.open-lab.net/zh-cn/blog/?p=13808 Continued]]> 人工評估材料通常會拖慢電池創新等復雜領域的科學研究,限制了每天只有數十個候選材料的進展。在這篇博客文章中,我們探討了通過推理能力增強的領域適應型大語言模型 (LLM) 如何改變科學研究,尤其是在電池創新等高風險、復雜領域。我們深入探討了 SES AI 的 Molecular Universe LLM,這是一個具有 70B 參數的科學 LLM,展示了這種方法的實際應用。 您將了解使用 NVIDIA NeMo Curator 、 NVIDIA NeMo Framework 、 NVIDIA DGX Cloud 和 NVIDIA NIM 構建的訓練和推理工作流,以及如何結合領域自適應、指令調整和推理對齊等技術來加速科學發現,同時提高專家工作效率。 LLM 在推進科學研究方面展現出巨大潛力,助力完成論文總結、綜合復雜見解和生成新穎假設等任務。然而,

Source

]]>
13808
擴展 NVIDIA Agent Intelligence Toolkit 以支持新的代理式框架 http://www.open-lab.net/zh-cn/blog/extending-the-nvidia-agent-intelligence-toolkit-to-support-new-agentic-frameworks/ Thu, 08 May 2025 08:18:11 +0000 http://www.open-lab.net/zh-cn/blog/?p=13856 Continued]]> NVIDIA Agent Intelligence toolkit 是一個開源庫,用于高效連接和優化 AI 智能體 團隊。它專注于幫助開發者快速構建、評估、分析和加速復雜的代理式 AI 工作流,即多個 AI 智能體協作執行任務的系統。 “智能體工具包作為一個統一框架,集成了各種平臺 (例如 LangChain、LlamaIndex、Semantic Kernel 和 CrewAI) 中的現有智能體、工具和工作流。該工具包將這些組件視為函數調用,使其可組合和可重復使用。可以將智能體工具包視為編排 AI 智能體團隊的“指揮”。此外,它還提供用于分析 (例如跟蹤延遲和 token 使用情況) 、優化、擴展和可觀察性的工具,確保企業級代理式系統的高效性能。 Agent Intelligence 工具包的核心優勢在于其可擴展性。

Source

]]>
13856
云端 Apache Spark 加速深度學習和大語言模型推理 http://www.open-lab.net/zh-cn/blog/accelerate-deep-learning-and-llm-inference-with-apache-spark-in-the-cloud/ Thu, 08 May 2025 06:18:25 +0000 http://www.open-lab.net/zh-cn/blog/?p=13821 Continued]]> Apache Spark 是用于大數據處理和分析的行業領先平臺。隨著非結構化數據(documents、emails、multimedia content)的日益普及,深度學習 (DL) 和大語言模型 (LLMs) 已成為現代數據分析工作流的核心組成部分。這些模型支持各種下游任務,例如圖像描述、語義標記、文檔摘要等。 然而,將 GPU 密集型 DL 與 Spark 相結合一直是一項挑戰。 NVIDIA RAPIDS Accelerator for Apache Spark 和 Spark RAPIDS ML 庫可實現無縫 GPU 加速,但主要用于提取、轉換和加載 (ETL) 以及傳統機器學習 (ML) 工作負載。 最近用于分布式訓練和推理的 Spark API (如上一篇博客中所述) 在 DL 集成方面取得了重大進展。本文以這項工作為基礎,

Source

]]>
13821
人人超碰97caoporen国产