硬件/半導體 – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Mon, 14 Jul 2025 05:10:08 +0000
zh-CN
hourly
1
196178272 -
提出一個維基百科規模的問題:如何利用數百萬 token 的實時推理使世界更加智能
http://www.open-lab.net/zh-cn/blog/asking-an-encyclopedia-sized-question-how-to-make-the-world-smarter-with-multi-million-token-real-time-inference/
Mon, 07 Jul 2025 05:55:21 +0000
http://www.open-lab.net/zh-cn/blog/?p=14529
Continued]]>
現代 AI 應用越來越依賴于將龐大的參數數量與數百萬個令牌的上下文窗口相結合的模型。無論是經過數月對話的 AI 智能體、通過像整個百科全書一樣大的案例法進行推理的法律助理,還是在不斷擴展的資源庫中對 copilot 進行編碼,保持遠程上下文對于相關性和一致性至關重要。最重要的是,用戶期望快速的交互式響應。 對如此龐大的數據進行解碼以及讓多個 GPU 快速擴展并相互通信的需求不斷增長,這凸顯了 FP4 計算和 NVIDIA Blackwell 系統提供的高帶寬大型 NVLink 域的重要性。本博客中介紹的 Helix Parallelism 是與 Blackwell 共同設計的。與使用超長上下文進行實時解碼的最知名的先前并行方法相比,它在給定延遲下的并發用戶數量增加了 32 倍。 換言之,它讓 AI 智能體和虛擬助理能夠以前所未有的速度為更多人提供服務。 (注意:
Source
]]>
14529
-
搶先體驗 NVIDIA GB200 系統如何幫助 LMarena 構建評估 LLM 的模型
http://www.open-lab.net/zh-cn/blog/how-early-access-to-nvidia-gb200-systems-helped-lmarena-build-a-model-to-evaluate-llms/
Wed, 18 Jun 2025 04:42:15 +0000
http://www.open-lab.net/zh-cn/blog/?p=14375
Continued]]>
在 NVIDIA 和 Nebius 的幫助下,加州大學伯克利分校的 LMArena 可以更輕松地了解哪些大語言模型在特定任務中表現出色。該公司的排名由 Prompt-to-Leaderboard (P2L) 模型提供支持,可從人類那里收集 AI 在數學、編碼或創意寫作等領域的最佳表現方面的投票。 LMarena 聯合創始人、加州大學伯克利分校博士生 Wei-Lin Chiang 表示:“我們捕捉用戶在任務中的偏好,并應用 Bradley-Terry 系數來確定哪個模型在每個領域表現最好。過去兩年,LMArena (以前稱為 LMSys) 一直在開發 P2L。 LMArena 正在使用 NVIDIA DGX 云和 Nebius AI Cloud 大規模部署 P2L。此次合作以及 LMArena 對 NVIDIA GB200 NVL72 的使用,
Source
]]>
14375
-
使用外部文件上傳在 NVIDIA Air 中構建可擴展且自定義網絡拓撲的優勢
http://www.open-lab.net/zh-cn/blog/advantages-of-external-file-uploads-for-scalable-custom-network-topologies-in-nvidia-air/
Mon, 02 Jun 2025 08:17:36 +0000
http://www.open-lab.net/zh-cn/blog/?p=14138
Continued]]>
NVIDIA Air 具有仿真從小型網絡到整個數據中心的任何網絡的獨特能力。在開始配置、路由或管理之前,請先考慮拓撲。 網絡拓撲是設備在網絡內連接和通信的布局或結構。它描述了數據的物理安排和邏輯流。 需要考慮的問題包括: NVIDIA Air 提供了多個用于創建網絡拓撲的選項。本文討論了使用外部文件的優勢,您可以創建、編輯外部文件并將其上傳到 NVIDIA Air。這種方法具有很高的可擴展性和可重用性,為 NVIDIA Air 的進一步自動化打開了大門。 請觀看以下視頻,了解將外部文件導入 NVIDIA Air 的分步說明。 視頻 1:關于使用外部文件將拓撲導入 NVIDIA Air 的分步演示視頻 大型網絡需要數十或數百臺服務器。每個服務器都必須命名、分配資源并連接到您的網絡和其他服務器。
Source
]]>
14138
-
借助 NVIDIA NVLink Fusion 將半定制計算平臺集成到機架級架構
http://www.open-lab.net/zh-cn/blog/integrating-custom-compute-into-rack-scale-architecture-with-nvidia-nvlink-fusion/
Sun, 18 May 2025 06:19:43 +0000
http://www.open-lab.net/zh-cn/blog/?p=13944
Continued]]>
為了高效應對 AI 工作負載,數據中心正在被重構。這是一項非常復雜的工作,因此,NVIDIA 目前正在交付以 NVIDIA 機架級架構為單位的 AI 工廠。為了讓 AI 工廠發揮最佳性能,許多加速器需要以更大的帶寬和更低的延遲在機架規模上協同工作,并以最節能的方式支持盡可能多的用戶。 設計滿足這些需求的機架會面臨許多技術挑戰。這需要高密度的加速器、網卡(NICs)、交換機以及縱向擴展和橫向擴展網絡,所有這些都緊密相關。這種高密配置對于提供當今 AI 所需的高級計算能力和背板帶寬至關重要。 傳統的風冷方法通常不足以滿足此類高密部署的需求,因此需要高密度液冷機架,例如 NVIDIA NVLink 高速縱向擴展互連技術。圖 1 說明了 NVLink 和更大的縱向擴展域如何提供最佳性能。NVIDIA 機架式擴展解決方案提供了一條經過驗證的可擴展路徑,通向更快速、更高效的基礎設施。
Source
]]>
13944
-
使用 NVIDIA Air 服務將仿真與現實世界連接
http://www.open-lab.net/zh-cn/blog/connect-simulations-with-the-real-world-using-nvidia-air-services/
Tue, 13 May 2025 05:12:41 +0000
http://www.open-lab.net/zh-cn/blog/?p=13788
Continued]]>
NVIDIA Air 通過創建與真實數據中心基礎設施部署相同的副本來實現云規模效率。借助 NVIDIA Air,您可以啟動數百臺交換機和服務器,并使用單個腳本進行配置。 NVIDIA Air 的眾多優勢之一是能夠將您的仿真與現實世界連接起來。通過啟用外部連接,可以在您的環境中顯著增強其功能、性能和靈活性。通過集成云資源、API、第三方數據、協作工具或高級機器學習模型,它可提高仿真的質量、規模和實時性。它還促進了協作并且可擴展,促成了在本地難以實施或成本高昂的先進技術的使用。 本文介紹了通過使用 NVIDIA Air 中的服務,將 NVIDIA Air 仿真與外部世界相連所提供的各種用例和優勢。 通過在仿真中啟用服務,可以從外部連接到仿真環境。服務在 sim-by-sim 的基礎上啟用。您可以在具有外部公開接口的任何節點上啟用服務。
Source
]]>
13788
-
NVIDIA NV-Tesseract 新一代時間序列模型助力數據集處理和異常檢測的突破性進展
http://www.open-lab.net/zh-cn/blog/new-nvidia-nv-tesseract-time-series-models-advance-dataset-processing-and-anomaly-detection/
Tue, 06 May 2025 06:51:35 +0000
http://www.open-lab.net/zh-cn/blog/?p=13835
Continued]]>
時間序列數據已從簡單的歷史記錄演變為跨行業關鍵決策的實時引擎。無論是簡化物流、預測市場,還是預測機器故障,企業組織都需要比傳統方法更復雜的工具。 NVIDIA GPU 加速的深度學習使各行各業能夠獲得實時分析。首席執行官 Jensen Huang 將 GPU 描述為 時間機器 ,使企業能夠預測趨勢并迅速采取行動。 隆重推出 NV-Tesseract,這是一款通過 NVIDIA DGX 云計劃開發的尖端模型系列,旨在推進時間序列分析中的深度學習。 該模型系列可以快速處理大量時間序列數據集、發現隱藏的模式、檢測異常情況,并快速準確地預測市場變化。其影響遍及多個行業,包括: 時間序列 AI 需要專門的解決方案,沒有一個模型能夠有效處理所有預測任務。該架構擁抱這一現實,提供針對不同功能定制的專用模型。 它可確保企業組織獲得高性能、特定領域的解決方案,
Source
]]>
13835
-
NVIDIA Secure AI 正式發布
http://www.open-lab.net/zh-cn/blog/announcing-nvidia-secure-ai-general-availability/
Wed, 23 Apr 2025 05:39:05 +0000
http://www.open-lab.net/zh-cn/blog/?p=13608
Continued]]>
隨著許多企業開始對其數據進行 AI 訓練或推理,需要保護數據和代碼,尤其是大語言模型 (LLMs) 。由于數據敏感性,許多客戶無法冒險將數據放在云端。此類數據可能包含個人身份信息 (PII) 或公司專有信息,且經過訓練的模型擁有寶貴的知識產權 (IP) 。 NVIDIA Confidential Computing (CC) 是保護大型 AI 模型和數據的出色解決方案。借助 NVIDIA CC,企業無需在性能和安全性之間做出權衡。NVIDIA 最初于 2023 年發布了 CC,并繼續與 CPU 合作伙伴、云提供商和獨立軟件供應商 (ISVs) 合作,以確保從傳統的加速工作負載到機密的加速工作負載的轉變是流暢和透明的。 本文將介紹基于 NVIDIA HGX H100 8-GPU 和 NVIDIA HGX H200 8-GPU 的安全 AI(即 Protected…
Source
]]>
13608
-
AI Fabric 的彈性以及網絡融合的重要性
http://www.open-lab.net/zh-cn/blog/ai-fabric-resiliency-and-why-network-convergence-matters/
Fri, 11 Apr 2025 05:53:07 +0000
http://www.open-lab.net/zh-cn/blog/?p=13584
Continued]]>
高性能計算和深度學習工作負載對延遲極為敏感。數據包丟失會導致通信管道中的重傳或停頓,從而直接增加延遲并中斷 GPU 之間的同步。這可能會降低集合運算(例如 all-reduce 或 broadcast)的性能,因為這些運算需要每個 GPU 的參與才能進行。 本文重點介紹基于 NVIDIA 以太網的東西向 AI 網絡解決方案 Spectrum-X。我從 AI 工作負載的角度討論了 AI 結構的彈性、鏈路翼的后果、鏈路故障,以及 NVIDIA 集合通信庫 (NCCL) 。 NCCL 專為高速和低延遲環境而設計,通常通過支持 RDMA 的無損網絡 (例如 InfiniBand、NVLink 或適用于 Ethernet 的 Spectrum-X) 實現。其性能可能會受到網絡事件的顯著影響: 為獲得最佳性能,NCCL 應在網絡上運行,并盡可能減少延遲、抖動和丟包。
Source
]]>
13584
-
NVIDIA Blackwell 在 MLPerf Inference v5.0 中實現巨大的性能飛躍
http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-delivers-massive-performance-leaps-in-mlperf-inference-v5-0/
Wed, 02 Apr 2025 05:32:46 +0000
http://www.open-lab.net/zh-cn/blog/?p=13408
Continued]]>
在不斷增長的模型大小、實時延遲要求以及最近的 AI 推理的推動下, 大語言模型 (LLM) 推理的計算需求正在快速增長。與此同時,隨著 AI 采用率的增長, AI 工廠 能否為盡可能多的用戶提供服務,同時保持良好的每位用戶體驗,是更大限度地提高其價值的關鍵。要在最新模型上實現高推理吞吐量和低推理延遲,需要在涵蓋芯片、網絡系統和軟件的整個技術堆棧中表現出色。 MLPerf Inference v5.0 是長期運行的基準套件中的最新版本,可測量一系列不同模型和用例的推理吞吐量。于 2019 年首次推出的 MLPerf Inference 不斷更新新的模型和場景,以確保它仍然是衡量 AI 計算平臺推理性能的有用工具。 本輪測試新增三個新的基準測試: 這些新基準測試加入了涵蓋各種模型和用例的眾多返回基準測試:ResNet-50、RetinaNet、3D U-Net、DLRMv2、
Source
]]>
13408
-
AI 推理時代的 NVIDIA Blackwell Ultra
http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-ultra-for-the-era-of-ai-reasoning/
Wed, 19 Mar 2025 08:34:58 +0000
http://www.open-lab.net/zh-cn/blog/?p=13254
Continued]]>
多年來,AI 的進步一直通過預訓練擴展遵循清晰的軌跡:更大的模型、更多的數據和更豐富的計算資源帶來了突破性的功能。在過去 5 年中,預訓練擴展使計算需求以驚人的速度增加了 50M 倍。但是,構建更智能的系統不再只是預訓練更大的模型。相反,它是關于改進它們并讓它們思考。 通過將 AI 模型優化為專門任務,后訓練擴展可改進模型,以提供更多對話式響應。使用特定領域的合成數據調整模型,可增強其理解細微上下文并提供準確輸出的能力。合成數據生成作為訓練模型的可用內容沒有上限,這意味著在后訓練擴展中需要大量計算資源。 現在,一種增強智能的新 縮放定律 已經出現:測試時縮放(test-time scaling)。 測試時擴展也稱為 長思考 ,可在 AI 推理過程中動態增加計算量,從而實現更深入的推理。AI 推理模型不僅能一次性生成答案,還能積極思考、權衡多種可能性,并實時優化答案。
Source
]]>
13254
-
適用于數據科學的 GPU 加速入門
http://www.open-lab.net/zh-cn/blog/get-started-with-gpu-acceleration-for-data-science/
Thu, 06 Feb 2025 04:11:52 +0000
http://www.open-lab.net/zh-cn/blog/?p=12857
Continued]]>
在數據科學領域,運營效率是處理日益復雜和大型數據集的關鍵。GPU 加速已成為現代工作流程的關鍵,可顯著提高性能。 RAPIDS 是由 NVIDIA 開發的一套開源庫和框架,旨在使用 GPU 以盡可能減少代碼更改來加速數據科學流程。RAPIDS 提供用于數據操作的 cuDF 、用于機器學習的 cuML 和用于圖形分析的 cuGraph 等工具,可實現與現有 Python 庫的無縫集成,使數據科學家更容易實現更快、更高效的處理。 本文分享了從 CPU 數據科學庫過渡到 GPU 加速工作流程的技巧,特別適合經驗豐富的數據科學家。 開始使用 RAPIDS 非常簡單,但它確實有幾個依賴項。推薦的方法是遵循官方的 RAPIDS 安裝指南 ,該指南提供了詳細的本地安裝說明。您有多種安裝框架的路徑:通過 pip install、Docker 鏡像,或通過 Conda 等環境。
Source
]]>
12857
-
NVIDIA Spectrum-X 網絡平臺和合作伙伴提升 AI 存儲性能達48%
http://www.open-lab.net/zh-cn/blog/accelerating-ai-storage-by-up-to-48-with-nvidia-spectrum-x-networking-platform-and-partners/
Tue, 04 Feb 2025 06:56:25 +0000
http://www.open-lab.net/zh-cn/blog/?p=12761
Continued]]>
AI 工廠依靠的不僅僅是計算網。當然,連接 GPU 的東西向網絡對于 AI 應用的性能至關重要,而連接高速存儲陣列的存儲網也不容忽視。存儲性能在運行 AI 業務過程中的多個階段中發揮著關鍵作用, 包括訓練過程中的Checkpoint操作、 推理過程中的檢索增強生成 (RAG) 等。 為了滿足這些需求,NVIDIA 和存儲生態合作伙伴正在將 NVIDIA Spectrum-X 網絡平臺 擴展到數據存儲網,從而帶來更高的性能和更快的實現AI的時間。由于 Spectrum-X 動態路由技術能夠緩解網絡中的流量沖突并增加有效帶寬,從而使存儲性能遠高于 RoCE v2,RoCE v2是大多數數據中心用于 AI 計算網和存儲網的以太網網絡協議。 Spectrum-X 將讀取帶寬加速了高達 48%,寫入帶寬加速了高達 41%。帶寬的增加可以更快地完成 AI 工作流中與存儲相關的操作,
Source
]]>
12761
-
為 NVIDIA Blackwell GeForce RTX 50 系列 GPU 發布全新 AI SDK 和工具
http://www.open-lab.net/zh-cn/blog/new-ai-sdks-and-tools-released-for-nvidia-blackwell-geforce-rtx-50-series-gpus/
Thu, 30 Jan 2025 05:23:17 +0000
http://www.open-lab.net/zh-cn/blog/?p=12907
Continued]]>
NVIDIA 最近宣布推出 新一代 PC GPU – GeForce RTX 50 系列 ,以及面向開發者的全新 AI 賦能 SDK 和工具。GeForce RTX 50 系列由 NVIDIA Blackwell 架構 、第五代 Tensor Cores 和第四代 RT Cores 提供動力支持,在神經著色器、數字人技術、幾何圖形和照明等 AI 驅動渲染方面實現了突破。 今天,NVIDIA 發布了第一波適用于 GeForce RTX 50 Series GPUs 的 SDK。作為開發者,您可以開始將這些更新集成到您的應用中,以確保與 NVIDIA Blackwell RTX GPUs 的軟件兼容性和最佳性能,并展示 GeForce RTX 50 Series GPUs 的新功能。 本文詳細介紹了新的和更新的 SDK,這些 SDK 可助力開發者充分利用 NVIDIA…
Source
]]>
12907
-
NVIDIA Air 簡要介紹
http://www.open-lab.net/zh-cn/blog/an-introduction-to-nvidia-air/
Thu, 12 Dec 2024 09:14:16 +0000
http://www.open-lab.net/zh-cn/blog/?p=12325
Continued]]>
AI 的出現帶來了一種新型數據中心,即 AI 工廠 ,專門用于處理 AI 工作負載。AI 工作負載的范圍和規模可能會有很大差異,但在每種情況下,網絡都是確保高性能和更快實現價值的關鍵。 為縮短 AI 部署時間并提高投資回報率, NVIDIA Air 助力企業組織構建網絡基礎設施的數字孿生。在基于云的 NVIDIA Air 界面中,您可以對 AI 工廠中的每個交換機、適配器和電纜進行建模。 此數字孿生提供了一個虛擬環境,用于測試和驗證網絡調配、自動化、安全策略等。網絡管理員可以在單個硬件交付之前開始執行這些第 0 天操作。 NVIDIA Air 專門面向模擬真實的數據中心環境。它提供了執行此類壯舉所需的巨大速度、資源和網絡功能。您可以在幾秒鐘內啟動新服務器,幾分鐘內即可啟動數十甚至數百臺。 它還提供了多種版本的不同網絡操作系統,可安裝在您的交換機上,
Source
]]>
12325
-
探索采用自主 AI 和 NVIDIA 機密計算的超級協議案例
http://www.open-lab.net/zh-cn/blog/exploring-the-case-of-super-protocol-with-self-sovereign-ai-and-nvidia-confidential-computing/
Thu, 14 Nov 2024 07:06:03 +0000
http://www.open-lab.net/zh-cn/blog/?p=12032
Continued]]>
機密和自主的 AI 是一種新的 AI 開發、訓練和推理方法,其中用戶的數據是去中心化的、私有的,并由用戶自己控制。本文將探討如何通過使用區塊鏈技術的去中心化來擴展 Confidential Computing(CC)的功能。 通過使用個人 AI 智能體,可以非常清楚地看到所解決的問題。這些服務可幫助用戶完成許多任務,包括撰寫電子郵件、準備報稅和查看醫療記錄。毋庸置疑,所處理的數據是敏感的個人數據。 在集中式系統中,這些數據由人工智能服務提供商在云中處理,通常不透明。當用戶的數據離開設備時,他們將失去對自己數據的控制,而這些數據可能會被用于訓練、泄露、出售或以其他方式被誤用。屆時無法追蹤個人數據。 這種信任問題阻礙了 AI 行業發展的某些特定方面,尤其是對于尚未獲得聲譽或證據來支持其真實意圖的初創公司和 AI 開發者而言。
Source
]]>
12032
人人超碰97caoporen国产