NVIDIA 研究 – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 10 Jul 2025 05:59:59 +0000
zh-CN
hourly
1
196178272 -
提出一個維基百科規模的問題:如何利用數百萬 token 的實時推理使世界更加智能
http://www.open-lab.net/zh-cn/blog/asking-an-encyclopedia-sized-question-how-to-make-the-world-smarter-with-multi-million-token-real-time-inference/
Mon, 07 Jul 2025 05:55:21 +0000
http://www.open-lab.net/zh-cn/blog/?p=14529
Continued]]>
現代 AI 應用越來越依賴于將龐大的參數數量與數百萬個令牌的上下文窗口相結合的模型。無論是經過數月對話的 AI 智能體、通過像整個百科全書一樣大的案例法進行推理的法律助理,還是在不斷擴展的資源庫中對 copilot 進行編碼,保持遠程上下文對于相關性和一致性至關重要。最重要的是,用戶期望快速的交互式響應。 對如此龐大的數據進行解碼以及讓多個 GPU 快速擴展并相互通信的需求不斷增長,這凸顯了 FP4 計算和 NVIDIA Blackwell 系統提供的高帶寬大型 NVLink 域的重要性。本博客中介紹的 Helix Parallelism 是與 Blackwell 共同設計的。與使用超長上下文進行實時解碼的最知名的先前并行方法相比,它在給定延遲下的并發用戶數量增加了 32 倍。 換言之,它讓 AI 智能體和虛擬助理能夠以前所未有的速度為更多人提供服務。 (注意:
Source
]]>
14529
-
使用 NVIDIA Cosmos Predict-2 構建自定義物理人工智能基礎模型
http://www.open-lab.net/zh-cn/blog/develop-custom-physical-ai-foundation-models-with-nvidia-cosmos-predict-2/
Wed, 11 Jun 2025 09:01:13 +0000
http://www.open-lab.net/zh-cn/blog/?p=14300
Continued]]>
構建更智能的機器人和自動駕駛汽車 (AV) 始于能夠理解現實世界動態的物理 AI 模型。這些模型發揮著兩個關鍵作用:加速合成數據生成 (SDG) ,幫助自主機器了解現實世界的物理特性和交互(包括罕見的邊緣案例),以及作為基礎模型,可針對專門任務進行后訓練或適應不同的輸出類型。 Cosmos Predict-1 正是為此而打造,能夠生成逼真的物理感知型未來世界狀態。 現在,全新 Cosmos Predict-2 在速度、視覺質量和自定義方面進行了重大升級。在本文中,您將了解該模型,以及如何針對特定領域的用例對其進行后期訓練。 Cosmos Predict-2 是一款性能出色的世界基礎模型,經過架構優化,可提高速度和可擴展性,并跨用例和硬件平臺提供分辨率和幀速率靈活性。有兩個模型變體針對任務復雜性進行了優化: 開發者可以首先使用文本轉圖像模型生成預覽,
Source
]]>
14300
-
借助神經重建和世界基礎模型提升自動駕駛汽車仿真速度
http://www.open-lab.net/zh-cn/blog/accelerating-av-simulation-with-neural-reconstruction-and-world-foundation-models/
Wed, 11 Jun 2025 08:27:15 +0000
http://www.open-lab.net/zh-cn/blog/?p=14279
Continued]]>
自動駕駛汽車 (AV) 堆棧正在從離散構建塊的層次結構發展為基于foundation models構建的端到端架構。這種轉變需要自動駕駛數據飛輪來生成合成數據和增強傳感器數據集,解決覆蓋差距,并最終構建驗證工具鏈,以安全開發和部署自動駕駛汽車。 在本博文中,我們重點介紹了最新的 NVIDIA API、NVIDIA Cosmos 世界基礎模型 (WFMs) 和 NIM 微服務,供開發者啟動數據工作流。 從自動駕駛車隊收集的現實世界數據是自動駕駛工作流的基礎,但是,收集和注釋罕見事件、物體和場景的傳感器數據是不可行的。通過先進的 3D 重建技術、神經重建和渲染,開發者可以將現實世界的數據集轉變為多樣化的交互式模擬。 NVIDIA NuRec 是一組用于神經重建和渲染的 API 和工具。它使開發者能夠使用現有fleet數據來重建高保真數字孿生、模擬新事件,
Source
]]>
14279
-
借助全新 NVIDIA Cosmos 世界基礎模型簡化端到端自動駕駛汽車開發
http://www.open-lab.net/zh-cn/blog/simplify-end-to-end-autonomous-vehicle-development-with-new-nvidia-cosmos-world-foundation-models/
Wed, 11 Jun 2025 08:21:56 +0000
http://www.open-lab.net/zh-cn/blog/?p=14276
Continued]]>
隨著向為自動駕駛汽車 (AV) 提供動力支持的端到端規劃模型的轉變,人們對基于物理性質的高質量傳感器數據的需求也在不斷增加。這些模型必須大致了解多模態數據集,以及傳感器數據集、車輛軌跡和駕駛動作之間的關系,以幫助執行下游訓練和驗證任務。 通過在自動駕駛領域調整和后訓練 NVIDIA Cosmos 世界基礎模型 (WFMs)(Predict、Transfer 和 Reason) ,開發者可以創建世界模型,以加速端到端自動駕駛訓練。這些模型用于本文中展示的合成數據生成 (SDG) ,以及閉環訓練和車載推理。 在本文中,我們將介紹不同的后訓練方法。有很多方法可以讓 Cosmos 模型適應 AV 應用。我們討論的模型目前均可供開發者使用。 NVIDIA Research 使用 20,000 小時的駕駛數據對 Cosmos WFMs 進行了后訓練,
Source
]]>
14276
-
R2D2:通過 NVIDIA Research 解鎖機器人裝配和豐富的接觸操作
http://www.open-lab.net/zh-cn/blog/r2d2-unlocking-robotic-assembly-and-contact-rich-manipulation-with-nvidia-research/
Fri, 16 May 2025 06:45:13 +0000
http://www.open-lab.net/zh-cn/blog/?p=13961
Continued]]>
本期 NVIDIA 機器人研發摘要 (R2D2) 探討了 NVIDIA Research 針對機器人裝配任務提供的多個接觸性豐富的操作工作流,以及它們如何通過固定自動化來應對魯棒性、適應性和可擴展性等關鍵挑戰。 接觸性豐富的操作是指涉及機器人與其環境中的物體之間持續或重復物理接觸的機器人任務,需要精確控制力和運動。與簡單的拾取和放置操作不同,這些任務需要精細交互來管理不確定性下的摩擦、合規性和對齊。 它在 機器人 、 制造 和 汽車 等行業中發揮著關鍵作用,在這些行業中,插入定位器、合齒輪、螺紋螺栓或組裝卡扣配合部件等任務很常見。作為機器人裝配的核心能力,具有豐富接觸性的操作使機器人能夠執行復雜的高精度任務,這對于自動化裝配和處理現實世界的可變性至關重要。 由于需要在動態環境中進行精確操作,因此解決機器人裝配任務一直具有挑戰性。傳統上,
Source
]]>
13961
-
R2D2:利用 NVIDIA 研究工作流程和模型提升靈巧機器人的適應性
http://www.open-lab.net/zh-cn/blog/r%c2%b2d%c2%b2-adapting-dexterous-robots-with-nvidia-research-workflows-and-models/
Fri, 25 Apr 2025 09:04:34 +0000
http://www.open-lab.net/zh-cn/blog/?p=13681
Continued]]>
如今,Robotic arms 用于組裝、包裝、檢查等更多應用領域。但是,它們仍然經過預編程,可以執行特定的、通常是重復性的任務。為了滿足大多數環境中日益增長的適應性需求, perceptive arms 需要根據實時數據做出決策和調整行為。這提高了協作環境中任務的靈活性,并通過危險感知提高安全性。 本期 NVIDIA Robotics Research and Development Digest (R2 D2 ) 探討了 NVIDIA Research 的一些機器人靈活性、操作和抓取工作流以及 AI 模型 (如下所示) ,以及它們如何應對適應能力和數據稀缺等關鍵機器人挑戰: 靈巧的機器人能夠精準、高效地操控物體。機器人的靈活性涉及精細的運動控制、協調,以及通常在非結構化環境中處理各種任務的能力。機器人靈活性的關鍵方面包括抓握、操控、觸覺敏感度、
Source
]]>
13681
-
R2D2:利用 NVIDIA 研究中心的新型工作流和 AI 基礎模型,提升機器人的移動和全身控制能力
http://www.open-lab.net/zh-cn/blog/r2d2-advancing-robot-mobility-whole-body-control-with-ai-from-nvidia-research/
Thu, 27 Mar 2025 05:47:44 +0000
http://www.open-lab.net/zh-cn/blog/?p=13416
Continued]]>
歡迎閱讀首期“NVIDIA 機器人研究與開發摘要(R²D²)”。此技術博客系列將讓開發者和研究人員更深入地了解 NVIDIA 各個研究實驗室在物理 AI 和機器人領域的最新研究突破。 開發強大的機器人面臨著諸多重大挑戰,例如: 我們通過在自身平臺上經過驗證的先進研究來應對這些挑戰。我們的方法將前沿研究與工程工作流相結合,并在我們的 AI 和機器人平臺(包括 NVIDIA Omniverse、Cosmos、Isaac Sim 和 Isaac Lab)上進行測試。最終生成的模型、策略和數據集可作為研究人員和開發者社區的可定制參考,以適應特定的機器人開發需求。我們期待分享我們的研究成果,共同構建機器人技術的未來。 在本期 R²D² 中,您將了解以下機器人移動及全身控制的工作流及模型,以及它們如何應對機器人導航、移動和控制方面的關鍵挑戰:
Source
]]>
13416
-
代理自主級別與安全性
http://www.open-lab.net/zh-cn/blog/agentic-autonomy-levels-and-security/
Tue, 25 Feb 2025 07:08:04 +0000
http://www.open-lab.net/zh-cn/blog/?p=13039
Continued]]>
智能體工作流是 AI 賦能工具的下一次演進。它們使開發者能夠將多個 AI 模型關聯在一起以執行復雜的活動,使 AI 模型能夠使用工具來訪問其他數據或自動執行用戶操作,并使 AI 模型能夠自主運行,以盡可能減少人類參與或交互的方式分析和執行復雜的任務。 由于其強大的功能,代理工作流也存在風險因素。代理系統的核心最常見的模型仍然是各種 LLM,如果可以將不受信任的數據引入系統,這些模型仍然容易受到 prompt injection 的影響。 為幫助評估和緩解這些漏洞,NVIDIA 提供了一個 Agentic Autonomy 框架,我們將其用于以下用途: 在實踐中,開發 AI 賦能的應用需要兩個關鍵組件: 當系統的 AI 組件是 LLM 時,這通常被稱為直接提示注入 (對手和用戶是同一個人) 或間接提示注入 (對手和用戶可以是不同的人)。 然而,
Source
]]>
13039
-
定義 LLM 紅色團隊
http://www.open-lab.net/zh-cn/blog/defining-llm-red-teaming/
Tue, 25 Feb 2025 07:04:29 +0000
http://www.open-lab.net/zh-cn/blog/?p=13036
Continued]]>
在一項活動中,人們為生成式 AI 技術 (例如大語言模型 (LLMs)) 提供輸入,以確定輸出是否會偏離可接受的標準。LLMs 的這種使用始于 2023 年,并已迅速發展成為一種常見的行業實踐,也是值得信賴的 AI 的基石。如何標準化和定義 LLM 紅色團隊? NVIDIA、華盛頓大學、Center for Human-Compatible AI 和哥本哈根 IT 大學的研究人員對紅色團隊的實際應用“ Summon a demon and bind it: A grounded theory of LLM red teaming ”(在 PLOS One 中發布) 進行了一項研究。 由于目標是定義和理解相對較新的活動,因此該研究采用了有根據的理論方法,在數千分鐘的視頻錄制中,以數十位從業者的訪談作為證據。我們與安全專業人員、政策研究人員和科學家,
Source
]]>
13036
-
NVIDIA Cosmos World 基礎模型平臺助力物理 AI 進步
http://www.open-lab.net/zh-cn/blog/advancing-physical-ai-with-nvidia-cosmos-world-foundation-model-platform/
Thu, 09 Jan 2025 08:43:45 +0000
http://www.open-lab.net/zh-cn/blog/?p=12593
Continued]]>
隨著機器人和 自動駕駛汽車 的發展,加速 物理 AI 的發展變得至關重要,而物理 AI 使自主機器能夠感知、理解并在現實世界中執行復雜的操作。這些系統的核心是 世界基礎模型 (WFMs),即通過物理感知視頻模擬物理狀態的 AI 模型,使機器能夠做出準確決策并與周圍環境無縫交互。 NVIDIA Cosmos 平臺可幫助開發者大規模為物理 AI 系統構建自定義世界模型。它為從數據管護、訓練到定制的每個開發階段提供開放世界基礎模型和工具。 本文將介紹 Cosmos 及其加速物理 AI 開發的主要功能。Cosmos 是一種開源的 Python 庫,用于加速物理 AI 開發。 構建物理 AI 極具挑戰性,需要精確的模擬以及真實世界的行為理解和預測。克服這些挑戰的一個關鍵工具是世界模型,該模型根據過去的觀察結果和當前的輸入結果預測未來的環境狀態。
Source
]]>
12593
-
Hymba 混合頭架構提高小型語言模型性能
http://www.open-lab.net/zh-cn/blog/hymba-hybrid-head-architecture-boosts-small-language-model-performance/
Fri, 22 Nov 2024 06:15:22 +0000
http://www.open-lab.net/zh-cn/blog/?p=12148
Continued]]>
Transformer 及其基于注意力的架構,憑借強大的性能、并行化功能以及通過鍵值 (KV) 緩存進行的長期召回,已成為語言模型 (LM) 的主要選擇。然而,其二次計算成本和高內存需求帶來了效率挑戰。相比之下,Mamba 和 Mamba-2 等狀態空間模型 (SSM) 可提供恒定的復雜性和高效的硬件優化,但難以處理記憶回收任務,從而影響其在常規基準測試中的性能。 NVIDIA 研究人員最近提出了 Hymba ,這是一系列小語言模型 (SLMs),采用混合 head 并行架構,將 Transformer Attention 機制與 SSMs 集成,以提高效率和性能。在 Hymba 中,attention heads 可實現高分辨率召回,而 SSM heads 可實現高效的上下文摘要。 Hymba 的新型架構揭示了以下幾點見解: 本文展示了 Hymba 1.5…
Source
]]>
12148
-
在電路設計中使用生成式 AI 模型
http://www.open-lab.net/zh-cn/blog/using-generative-ai-models-in-circuit-design/
Fri, 06 Sep 2024 09:07:48 +0000
http://www.open-lab.net/zh-cn/blog/?p=11314
Continued]]>
從智能文本生成大語言模型(LLMs)到創意圖像和視頻生成模型,生成式模型在過去幾年中掀起了巨大的浪潮。在 NVIDIA,我們正在探索使用生成式 AI 模型來加速電路設計流程,并提供更好的設計,以滿足對計算能力不斷增長的需求。 電路設計是一個具有挑戰性的優化問題。設計師通常需要平衡功率和面積等多個相互沖突的目標,并滿足特定時間等約束條件。設計空間通常是組合的,因此很難找到最優設計。之前對前綴電路設計的研究使用手工制作的啟發式和強化學習來探索廣闊的設計空間。有關更多詳細信息,請參閱《Towards Optimal Performance-Area Trade-Off in Adders by Synthesis of Parallel Prefix Structures and Cross-Layer Optimization for High Speed Adders: A…
Source
]]>
11314
-
跨音頻類型實現先進的零樣本波形音頻生成
http://www.open-lab.net/zh-cn/blog/achieving-state-of-the-art-zero-shot-waveform-audio-generation-across-audio-types/
Thu, 05 Sep 2024 04:30:38 +0000
http://www.open-lab.net/zh-cn/blog/?p=11172
Continued]]>
令人驚嘆的音頻內容是虛擬世界的重要組成部分。音頻生成式 AI 在創建此類內容方面發揮著關鍵作用,NVIDIA 正在不斷突破這一研究領域的極限。BigVGAN 是與 NVIDIA 應用深度學習研究團隊和 NVIDIA NeMo 團隊合作開發的生成式 AI 模型,專門用于音頻波形合成,可實現先進的結果。BigVGAN 生成波形的速度比實時快幾個數量級,并且在語音、環境聲音和音樂等各種音頻類型中表現出強大的穩健性。 本文將討論 BigVGAN v2,它可以顯著提高速度和質量,助力打造所生成的音頻與真實音頻相去甚遠的未來。BigVGAN v2 的亮點包括: BigVGAN 是一款通用神經聲碼器,專門用于使用 Mel spectrograms 作為輸入合成音頻波形。神經聲碼器是音頻生成式 AI 中的基石方法,可從緊湊型聲學特征(如 Mel spectrogram)生成聲波。
Source
]]>
11172
-
實時神經接收器推動 AI-RAN 創新
http://www.open-lab.net/zh-cn/blog/real-time-neural-receivers-drive-ai-ran-innovation/
Tue, 03 Sep 2024 04:55:23 +0000
http://www.open-lab.net/zh-cn/blog/?p=11149
Continued]]>
當今的 5G New Radio (5G NR) 無線通信系統依靠高度優化的信號處理算法,在短短幾微秒內重建從雜信道觀察到的傳輸消息。這一非凡的成就是電信工程師和研究人員數十年不懈努力的成果,他們不斷改進信號處理算法,以滿足無線通信嚴苛的實時限制。 最初,一些算法因其在發現時過于復雜而被廣泛遺忘。Gallager 在 20 世紀 60 年代發現的低密度奇偶校驗(LDPC)代碼就是一個明顯的例子。David MacKay 在 20 世紀 90 年代重新發現了這些算法,現在它們已成為 5G NR 的支柱。這說明,即使是最好的算法也不切實際,除非它們滿足電信行業嚴格的計算和延遲要求。 無線通信領域的 AI 技術已經引起了學術界和行業研究人員的廣泛關注,如在《An Introduction to Deep Learning for the Physical Layer》和《An…
Source
]]>
11149
-
利用 NVIDIA Kaolin 庫模擬任何表示下的彈性物體
http://www.open-lab.net/zh-cn/blog/simulate-elastic-objects-in-any-representation-with-nvidia-kaolin-library/
Thu, 25 Jul 2024 08:36:45 +0000
http://www.open-lab.net/zh-cn/blog/?p=10848
Continued]]>
最新進展在生成式 AI 和多視圖重建領域引入了快速生成 3D 內容的新方法。然而,要在機器人、設計、AR/VR 和游戲等下游應用中發揮作用,必須能夠以物理上合理的方式操作這些 3D 模型。 這給傳統的物理模擬算法帶來了重大挑戰,這些算法旨在處理良好條件的、手動整理的幾何圖形,例如。 為了向各種輸入幾何圖形開放物理模擬,NVIDIA Kaolin 庫最新版本集成了一項名為 Simplicits 的先進技術,這是一種統一的表示,不僅可以對雜亂的網格和點云進行模擬,還可以對學習的表示如 Gaussian Splats 和 NeRFs 進行模擬。 Kaolin Physics API 為 Simplicits 提供了兩個層次的抽象:面向物理專家的低級功能和面向生成式 AI 開發者的高級 API。 以下視頻演示了各種網格的彈性模擬。您只需幾行代碼,
Source
]]>
10848
人人超碰97caoporen国产