AI Platforms / Deployment – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 05 Jun 2025 08:17:01 +0000 zh-CN hourly 1 196178272 NVIDIA Base Command Manager 為 AI 集群管理提供免費的啟動程序 http://www.open-lab.net/zh-cn/blog/nvidia-base-command-manager-offers-free-kickstart-for-ai-cluster-management/ Tue, 03 Jun 2025 08:14:36 +0000 http://www.open-lab.net/zh-cn/blog/?p=14135 Continued]]> 隨著 AI 和高性能計算 (HPC) 工作負載變得越來越常見和復雜,系統管理員和集群管理員是確保一切平穩運行的核心。他們的工作 (構建、調配和管理集群) 推動了各行各業的創新,但這并非沒有挑戰。 在聆聽這些團隊的演講后,NVIDIA 傳達了一個明確的信息:訪問可靠的企業級管理工具可以在日常運營中產生真正的影響。全球數以千計的部署已經在利用 NVIDIA Base Command Manager 來優化其加速集群。正因如此,NVIDIA Base Command Manager 現已免費提供,并可在需要時提供企業支持選項。 集群經理通常需要在功能豐富的企業就緒型商業工具和免費開源解決方案的靈活性之間做出權衡。免費提供 Base Command Manager 旨在消除障礙,為基礎架構團隊提供更多選擇,無論是評估新工作流程、新員工入職還是擴展生產集群。

Source

]]>
14135
聚焦:使用 Iguazio 的 MLRun 和 NVIDIA NIM 構建可擴展和可觀察的 AI 以投入生產 http://www.open-lab.net/zh-cn/blog/spotlight-build-scalable-and-observable-ai-ready-for-production-with-iguazios-mlrun-and-nvidia-nim/ Wed, 28 May 2025 05:32:20 +0000 http://www.open-lab.net/zh-cn/blog/?p=14048 Continued]]> Iguazio (被麥肯錫收購) 與 NVIDIA 的合作使企業組織能夠構建生產級 AI 解決方案,這些解決方案不僅具有高性能和可擴展性,而且具有敏捷性,可用于現實世界的部署。 NVIDIA NIM 微服務對于這些功能至關重要,旨在加速任何云或數據中心的生成式 AI 部署。NIM 微服務支持各種 AI 模型,包括 NVIDIA AI 基礎、社區和自定義模型,支持使用行業標準 API 進行無縫、可擴展的 AI 推理。 在運行時,NIM 會為基礎模型、GPU 和系統的任意組合選擇最佳推理引擎。NIM 容器還提供標準的可觀察性數據源,并內置支持在 NVIDIA GPU 上使用 Kubernetes 進行自動擴展。 MLRun 是一個開源 AI 編排框架,可自動執行整個 AI 工作流,支持在生產環境中部署 NIM。這包括企業級生產就緒型應用所需的所有工作流元素,包括 MLRun…

Source

]]>
14048
利用 NVIDIA DALI 的最新技術實現高效數據處理 http://www.open-lab.net/zh-cn/blog/unlock-efficient-data-processing-with-the-latest-from-nvidia-dali/ Fri, 23 May 2025 05:50:57 +0000 http://www.open-lab.net/zh-cn/blog/?p=14056 Continued]]> NVIDIA DALI 是一個用于解碼和增強圖像、視頻和語音的便攜式開源軟件庫,最近推出了多項功能,可提高性能并支持 DALI 的新用例。這些更新旨在簡化 DALI 與現有 PyTorch 數據處理邏輯的集成,通過啟用 CPU 到 GPU 流以及添加新的視頻解碼模式來提高構建數據處理流程的靈活性。這些新功能使 DALI 成為深度學習從業者不可或缺的工具,包括: 圖 1 顯示了 Python 中不同的數據處理方法及其局限性。左圖展示了最簡單的方法,即同時創建多個 Python 線程。但是,由于 Python GIL,一次只能執行一個線程,導致 CPU 未得到充分利用。 中間圖使用獨立進程而非線程。雖然對 CPU 而言十分高效,但每個進程都會編排 GPU 以獨立工作,并且需要昂貴的 IPC 來聚合每個進程的結果。

Source

]]>
14056
NVIDIA Dynamo 加速 llm-d 社區計劃,推動大規模分布式推理 http://www.open-lab.net/zh-cn/blog/nvidia-dynamo-accelerates-llm-d-community-initiatives-for-advancing-large-scale-distributed-inference/ Wed, 21 May 2025 04:52:27 +0000 http://www.open-lab.net/zh-cn/blog/?p=13915 Continued]]> 在 Red Hat Summit 2025 上推出的 llm-d 社區標志著開源生態系統在加速生成式 AI 推理創新方面邁出了重要一步。llm-d 基于 vLLM 和 Inference Gateway 構建,通過 Kubernetes 原生架構擴展了 vLLM 的功能,從而實現大規模推理部署。 本文將介紹支持 llm-d 項目的關鍵 NVIDIA Dynamo 組件。 大規模分布式推理利用模型并行技術(例如 tensor、pipeline 和 expert parallelism),這些技術依賴于 internode 和 intranode、低延遲、高吞吐量的通信。它們還需要在 disaggregated serving 環境中,在預填充和解碼 GPU 工作者之間快速傳輸 KV 緩存。 為實現高吞吐量、低延遲的分布式和分解數據傳輸,llm-d 利用了 NVIDIA…

Source

]]>
13915
NVIDIA TensorRT for RTX 在 Windows 11 上推出優化的推理 AI 庫 http://www.open-lab.net/zh-cn/blog/nvidia-tensorrt-for-rtx-introduces-an-optimized-inference-ai-library-on-windows/ Mon, 19 May 2025 05:35:42 +0000 http://www.open-lab.net/zh-cn/blog/?p=13929 Continued]]> 在 Windows 上,創意、游戲和生產力應用方面的 AI 體驗正在迅速擴展。有各種框架可用于在臺式機、筆記本電腦或工作站上本地加速這些應用中的 AI 推理。開發者需要適應廣泛的生態系統。他們必須在特定于硬件的庫或跨供應商框架 (如 DirectML) 之間進行選擇,以實現最高性能。DirectML 可簡化 CPU、GPU 和 NPU 之間的部署,但并不總是充分發揮每個設備的潛力。在性能和兼容性之間取得適當平衡對于開發者至關重要。 今天,我們宣布推出適用于 RTX 的 NVIDIA TensorRT ,以應對這些挑戰。它作為 Windows ML 的一部分在 Windows 11 上提供,Windows ML 是 Microsoft 在 Microsoft Build 上新發布的 AI 推理框架 。它們共同通過標準化 API 為開發者提供經 NVIDIA 優化的加速,

Source

]]>
13929
NVIDIA ConnectX-8 SuperNIC 通過 PCIe6.0總線升級 AI 平臺架構 http://www.open-lab.net/zh-cn/blog/nvidia-connectx-8-supernics-advance-ai-platform-architecture-with-pcie-gen6-connectivity/ Sun, 18 May 2025 06:34:44 +0000 http://www.open-lab.net/zh-cn/blog/?p=13955 Continued]]> 從 大語言模型 (LLM) 到 代理式 AI 推理和 物理 AI ,隨著 AI 工作負載的復雜性和規模不斷增加,人們對更快、擴展性更高的計算基礎設施的需求空前強烈。滿足這些需求就要從基礎開始重新思考系統架構。 NVIDIA 正在通過 NVIDIA ConnectX-8 SuperNIC 升級平臺架構。NVIDIA ConnectX-8 SuperNIC 是業內首款在單個設備中集成 PCIe6.0 交換機和超高速網絡的 SuperNIC。ConnectX-8 專為現代 AI 基礎架構設計,可提供更高的吞吐量,同時簡化系統設計,并提高能效和成本效益。 在基于 PCIe 連接的平臺中,尤其是配備 8 個或更多 GPU 的平臺,PCIe 交換機對于最大化 GPU 間通信帶寬和實現可擴展的 GPU 拓撲至關重要。現有設計依賴于獨立的 PCIe 交換機,這通常會增加設計復雜性,

Source

]]>
13955
借助 NVIDIA NVLink Fusion 將半定制計算平臺集成到機架級架構 http://www.open-lab.net/zh-cn/blog/integrating-custom-compute-into-rack-scale-architecture-with-nvidia-nvlink-fusion/ Sun, 18 May 2025 06:19:43 +0000 http://www.open-lab.net/zh-cn/blog/?p=13944 Continued]]> 為了高效應對 AI 工作負載,數據中心正在被重構。這是一項非常復雜的工作,因此,NVIDIA 目前正在交付以 NVIDIA 機架級架構為單位的 AI 工廠。為了讓 AI 工廠發揮最佳性能,許多加速器需要以更大的帶寬和更低的延遲在機架規模上協同工作,并以最節能的方式支持盡可能多的用戶。 設計滿足這些需求的機架會面臨許多技術挑戰。這需要高密度的加速器、網卡(NICs)、交換機以及縱向擴展和橫向擴展網絡,所有這些都緊密相關。這種高密配置對于提供當今 AI 所需的高級計算能力和背板帶寬至關重要。 傳統的風冷方法通常不足以滿足此類高密部署的需求,因此需要高密度液冷機架,例如 NVIDIA NVLink 高速縱向擴展互連技術。圖 1 說明了 NVLink 和更大的縱向擴展域如何提供最佳性能。NVIDIA 機架式擴展解決方案提供了一條經過驗證的可擴展路徑,通向更快速、更高效的基礎設施。

Source

]]>
13944
使用 OpenUSD 和 SimReady 資產構建 AI 工廠 http://www.open-lab.net/zh-cn/blog/designing-ai-factories-using-openusd-and-simready-assets/ Sun, 18 May 2025 06:09:21 +0000 http://www.open-lab.net/zh-cn/blog/?p=13941 Continued]]> 適用于 AI 工廠 數字孿生的 NVIDIA Omniverse Blueprint 在 COMPUTEX 2025 上發布 ,現已支持 OpenUSD 模式 。該藍圖采用新工具,可在電力、冷卻和網絡基礎設施方面模擬數據中心設計的更多方面。工程團隊現在可以在逼真的虛擬世界中設計和測試整個 AI 工廠,幫助他們及早發現問題,從而構建更智能、更可靠的設施。 此藍圖的核心是 SimReady 標準化工作流程的首次亮相,該框架用于映射實現 SimReady 資產和功能所需的基本流程、角色、文檔和技術。 NVIDIA 的開發初衷是幫助內部團隊應對圍繞專為多個模擬運行時設計的 OpenUSD 資產構建新規范的獨特挑戰,現在,NVIDIA 正在公開提供這種“生命資源”。通過與更廣泛的生態系統分享經驗,NVIDIA 旨在幫助開發者簡化其工作流程,

Source

]]>
13941
宣布推出適用于基準測試 AI 云基礎設施的 NVIDIA 示例云 http://www.open-lab.net/zh-cn/blog/announcing-nvidia-exemplar-clouds-for-benchmarking-ai-cloud-infrastructure/ Sun, 18 May 2025 05:57:39 +0000 http://www.open-lab.net/zh-cn/blog/?p=13935 Continued]]> 長期以來,在云端訓練 大語言模型 (LLMs) 和部署 AI 工作負載的開發者和企業一直面臨著一項根本性挑戰:幾乎不可能提前知道云平臺是否能夠提供其應用所需的性能、可靠性和成本效益。在這種情況下,理論峰值性能與實際現實結果之間的差異通常是進度與挫折之間的差異。 由于缺乏透明的 基準測試實踐 、云提供商之間的結果和性能不一致,以及沒有明確的標準,團隊往往無法在關鍵的基礎設施決策中做出決策。“良好”性能的真正含義是什么?如何比較各種云?您如何知道自己得到了回報?是否應該考慮可靠性? 今天,NVIDIA 正通過推出 NVIDIA Exemplar Clouds 來應對這些挑戰。這項新計劃旨在從 NVIDIA 云合作伙伴 (NCP) 生態系統開始,為 AI 云基礎設施領域帶來透明度、嚴謹性和再現性。 NCP 是專門的云提供商,他們圍繞最新的 NVIDIA GPU 架構、

Source

]]>
13935
使用 cuEmbed 加速嵌入查找 http://www.open-lab.net/zh-cn/blog/accelerating-embedding-lookups-with-cuembed/ Thu, 15 May 2025 07:30:16 +0000 http://www.open-lab.net/zh-cn/blog/?p=13987 Continued]]> NVIDIA 最近發布了 cuEmbed,這是一個高性能、僅使用標頭的 CUDA 庫,可加速 NVIDIA GPU 上的嵌入查找。如果您要構建推薦系統,嵌入操作可能會消耗大量計算資源。 嵌入查找是一項獨特的優化挑戰。它們是內存密集型操作,具有不規則的訪問模式。cuEmbed 專為應對這些挑戰而設計,其吞吐量是 power-law 分布式輸入索引的 HBM 內存帶寬峰值的兩倍以上。 在本文中,我將解釋嵌入查找是什么,它們為什么對推薦系統至關重要,以及 cuEmbed 優化技術如何提供卓越性能。無論您是直接使用 C++ 還是使用 PyTorch,我都會提供將 cuEmbed 集成到項目中的實踐指導。 NVIDIA 認識到嵌入用例因應用而異,因此將 cuEmbed 完全開源。這使您能夠自定義和擴展核心性能內核。 某些輸入自然會使用神經網絡進行處理,例如浮點數向量或像素值,

Source

]]>
13987
選擇您的第一個本地人工智能項目 http://www.open-lab.net/zh-cn/blog/choosing-your-first-local-ai-project/ Tue, 29 Apr 2025 08:44:46 +0000 http://www.open-lab.net/zh-cn/blog/?p=13669 Continued]]> AI 正迅速超越集中式云和數據中心,成為可直接部署在專業工作站上的強大工具。借助先進的硬件和優化的軟件,您可以在桌面上或隨時隨地構建、運行和試驗復雜的 AI 模型 。歡迎來到本地 AI 開發的世界! 在工作站上本地運行和開發 AI 為開發者和組織帶來了顯著優勢:增強了數據隱私和安全性,敏感數據保留在內部,與持續云使用相比節省了成本,為應用程序提供了離線操作功能,以及無與倫比的動手開發和迭代環境。 NVIDIA RTX PRO Blackwell 系列 等高性能硬件和為利用其功能而構建的優化軟件生態系統推動了向強大、可訪問的本地 AI 的轉變。 本博文將使用專為專業工作流設計的 NVIDIA 生態系統,指導您選擇可管理的首個本地 AI 項目。 專業 AI 加速的核心是 NVIDIA RTX 專業 GPU ,每個 GPU 具有高達 96 GB VRAM、企業級驅動、

Source

]]>
13669
使用 NVIDIA NIM 對游戲進行代理式 LLM 和 VLM 推理基準測試 http://www.open-lab.net/zh-cn/blog/benchmarking-agentic-llm-and-vlm-reasoning-for-gaming-with-nvidia-nim/ Thu, 24 Apr 2025 04:08:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=13726 Continued]]> 這是 LLM 基準測試系列的第一篇文章,介紹了在使用 NVIDIA NIM 部署 Meta Llama 3 模型時,如何使用 GenAI-Perf 進行基準測試。 來自倫敦大學學院 (UCL) 決策、行動和推理知識 (DARK) 實驗室的研究人員在其全新的基于游戲的基準測試套件 Benchmarking Agentic LLM 和 VLM Reasoning On Games (BALROG) 中利用了 NVIDIA NIM 微服務。BALROG 經過專門設計,可使用各種游戲環境評估模型在具有挑戰性的長距交互式任務中的代理能力。 來自 DARK Lab 的團隊利用 NVIDIA NIM 簡化了詳盡的基準測試流程。在 DeepSeek-R1 NIM 發布時 ( 2025 年 2 月底) ,他們能夠使用 DeepSeek-R1,這是一個包含 671 億個參數的大型模型。

Source

]]>
13726
使用 NVIDIA TensorRT 優化基于 Transformer 的擴散模型以生成視頻 http://www.open-lab.net/zh-cn/blog/optimizing-transformer-based-diffusion-models-for-video-generation-with-nvidia-tensorrt/ Mon, 21 Apr 2025 06:03:20 +0000 http://www.open-lab.net/zh-cn/blog/?p=13623 Continued]]> 先進的圖像擴散模型需要數十秒才能處理單張圖像。這使得視頻擴散更具挑戰性,需要大量計算資源和高昂成本。通過在搭載 NVIDIA TensorRT 的 NVIDIA Hopper GPU 上利用最新的 FP8 量化功能,可以顯著降低推理成本,并以更少的 GPU 為更多用戶提供服務。雖然量化擴散器的部署可能比較復雜,但 TensorRT 背后的完整生態系統可以幫助克服這些挑戰。 借助此方法,Adobe 將延遲降低了 60%,TCO 降低了近 40%,從而加快了推理速度并提高了響應速度。使用在由 Hopper GPU 加速的 Amazon Web Services (AWS) EC2 P5/P5en 上運行的 TensorRT 進行的優化部署,提高了可擴展性,以更少的 GPU 為更多用戶提供服務。 本文將探討為增強 Adobe Firefly 視頻生成模型的性能而實施的策略和優化,

Source

]]>
13623
在 NVIDIA OptiX 中使用協作向量實現神經渲染 http://www.open-lab.net/zh-cn/blog/neural-rendering-in-nvidia-optix-using-cooperative-vectors/ Thu, 17 Apr 2025 06:19:54 +0000 http://www.open-lab.net/zh-cn/blog/?p=13634 Continued]]> NVIDIA OptiX 9.0 的發布引入了一項名為 Cooperative Vectors 的新功能,可將 AI 工作流作為光線追蹤內核的一部分。該功能利用 NVIDIA RTX Tensor Cores 在著色過程中進行硬件加速的矩陣運算和神經網絡計算。這解鎖了 NVIDIA RTX Neural Shaders 和 NVIDIA RTX Neural Texture Compression (NTC) 等 AI 渲染技術,并在實時渲染中進一步向電影級逼真材質邁進。 協作向量 API 已在 OptiX 、 DirectX 、 NVAPI 、 Slang 和 Vulkan 中推出。本文將探討適用于所有 API 的協作向量背后的概念,并通過使用 OptiX API 的示例進行工作。 多層感知器 (MLP) 是許多神經網絡算法的基本構建模塊。研究表明,

Source

]]>
13634
使用 NVIDIA NIM 構建 AI 驅動的自動引用驗證工具 http://www.open-lab.net/zh-cn/blog/developing-an-ai-powered-tool-for-automatic-citation-validation-using-nvidia-nim/ Wed, 16 Apr 2025 05:18:24 +0000 http://www.open-lab.net/zh-cn/blog/?p=13569 Continued]]> 引文的準確性對于保持學術和 AI 生成內容的完整性至關重要。當引用不準確或錯誤時,它們可能會誤導讀者并散布虛假信息。作為一支由悉尼大學機器學習和 AI 研究人員組成的團隊,我們正在開發一種 AI-powered 工具,能夠高效地交叉檢查和分析語義引用的準確性。 提及事實聲明可以幫助讀者相信其有效性,增強作者的可信度,并通過顯示信息來源來提高透明度。然而,確保語義引用的準確性(即確認聲明不僅匹配,而且忠實地代表引用來源的結論,而不會失真或誤解)非常耗時,而且通常需要深入的主題理解。 我們親身經歷了不準確的引用所帶來的挫折和挑戰,這促使我們開發了一個強大且可擴展的解決方案 — Semantic Citation Validation 工具。該解決方案簡化了引文驗證過程,并增強了各個領域的研究完整性。 隨著 大語言模型 (LLM) 的日益普及,對引文驗證的需求變得更加迫切。

Source

]]>
13569
人人超碰97caoporen国产