機器人領域的一項主要挑戰是訓練機器人執行新任務,而無需為每個新任務和環境收集和標記數據集。NVIDIA 近期的研究工作旨在通過使用生成式 AI、NVIDIA Cosmos 等世界基礎模型 ( WFM) 以及 NVIDIA Isaac GR00T-Mimic 和 GR00T-Dreams 等數據生成藍圖來解決這一挑戰。
本期 NVIDIA 機器人研發摘要 (R2D2)NVIDIA 機器人研發摘要 (R2D2)NVIDIA 機器人研發摘要 (R2D2)NVIDIA 機器人研發摘要 (R2D2)NVIDIA 機器人研發摘要 (R2D2) 介紹了研究如何使用世界基礎模型實現可擴展的合成數據生成和機器人模型訓練工作流,例如:
- DreamGen:NVIDIA Isaac GR00T-Dreams 藍圖的研究基礎。
- GR00T N1:一個開放的基礎模型,使機器人能夠從真實、人類和合成數據中學習不同任務和具身的通用技能。
- 視頻中的潛在動作預訓練:一種無監督式方法,無需手動標記即可從大型視頻中學習與機器人相關的動作。
- 仿真與現實協同訓練:一種結合仿真與現實世界機器人數據的訓練方法,可構建更穩健、適應性更強的機器人策略。
世界機器人基礎模型
Cosmos 世界基礎模型 (WFM) 基于數百萬小時的真實世界數據進行訓練,以預測未來世界狀態,并根據單個輸入圖像生成視頻序列,使機器人和自動駕駛汽車能夠預測即將發生的事件。這種預測能力對于合成數據生成流程至關重要,有助于快速創建多樣化的高保真訓練數據。這種方法顯著加速了機器人學習,增強了模型的魯棒性,并將開發時間從幾個月的手動工作縮短到僅僅幾個小時。
DreamGen
DreamGen 是一種合成數據生成工作流,可解決為機器人學習收集大規模人類遠程操作數據所需的高昂成本和高昂人工問題。它是 NVIDIA Isaac GR00T-Dreams 的基礎,它是使用世界基礎模型生成大量合成機器人軌跡數據的藍圖。
傳統的機器人基礎模型需要針對每個新任務和環境進行大量的手動演示,而這些演示不可擴展。基于仿真的替代方案通常存在仿真與現實之間的差距,需要大量的人工設計。
DreamGen 使用世界基礎模型創建逼真的多樣化訓練數據,盡可能減少人工輸入,從而克服這些挑戰。這種方法支持可擴展的機器人學習,以及跨行為、環境和機器人具身的強大泛化。

DreamGen 工作流包含四個關鍵步驟:
- 后訓練世界基礎模型:使用少量真實演示,將 Cosmos-Predict2 等世界基礎模型適應目標機器人。Cosmos-Predict2 通過文本 (文本轉圖像) 和圖像或視頻 (視頻轉世界) 的視覺模擬生成高質量圖像。
- 生成合成視頻:使用經過后訓練的模型,根據圖像和語言提示,為新任務和新環境創建多樣化、逼真的機器人視頻。
- 提取偽動作:應用潛在動作模型或反向動力學模型 (IDM) ,將這些視頻轉換為有標記的動作序列 (神經軌跡) 。
- 訓練機器人策略:使用生成的合成軌跡來訓練視覺運動策略,使機器人能夠執行新的行為并泛化到不可見的場景。

DreamGen Bench
DreamGen Bench 是一項專門的基準測試,旨在評估視頻生成模型如何有效地適應特定的機器人具身,同時內部化剛體物理特性并泛化到新的對象、行為和環境。它測試了四個領先的基礎模型 – NVIDIA Cosmos、WAN 2.1、Hunyuan 和 CogVideoX – 測量兩個關鍵指標:
- 說明如下:評估生成的視頻是否準確反映了使用 Qwen-VL-2.5 等 VLM 和人工注釋器進行評估的任務說明 (例如,“撿起洋蔥”) 。
- 物理效果遵循:使用 VideoCon-Physics 和 Qwen-VL-2.5 等工具量化物理真實感,以確保視頻遵守真實世界的物理效果。
如圖 3 所示,我們觀察到,當機器人在實際操作任務中接受訓練和測試時,模型在 DreamGen Bench 上的得分更高 (這意味著它們生成的合成數據更真實、更符合指令) ,從而始終如一地提高性能。這種積極的關系表明,投資于更強大的世界基礎模型不僅可以提高合成訓練數據的質量,而且在實踐中可以直接轉化為更具能力和適應性的機器人。

NVIDIA Isaac GR00T-Dreams
Isaac GR00T-Dreams 基于 DreamGen 的研究,是一個為機器人動作生成合成軌跡數據的大型數據集的工作流。與收集真實世界的動作數據相比,這些數據集可用于訓練物理機器人,同時節省大量時間和人工工作量。
GR00T-Dreams 使用 Cosmos Predict2 WFM 和 Cosmos Reason 為不同的任務和環境生成數據。Cosmos 推理模型包括多模態 LLM (大語言模型) ,可針對用戶提示生成基于物理性質的響應。
用于訓練通用機器人的模型和工作流程
可以使用從 WFM 生成的數據對視覺語言動作 (VLA) 模型進行后訓練,以便在不可見的環境中實現新的行為和操作。
NVIDIA Research 使用 GR00T-Dreams 藍圖生成合成訓練數據,在短短 36 小時內開發出 GR00T N1.5 的更新版 GR00T N1。如果使用人工收集人類數據,這一過程需要近三個月的時間。
GR00T N1 是全球首個通用人形機器人開放基礎模型,標志著機器人和 AI 領域的重大突破。GR00T N1 基于受人類認知啟發而構建的雙系統架構,統一了視覺、語言和動作,使機器人能夠理解指令、感知環境,并執行復雜的多步驟任務。
GR00T N1 基于 LAPA 等技術構建,可從無標記的人類視頻和仿真與現實協同訓練等方法中學習,后者融合了合成數據和現實世界數據,實現了更強的泛化。我們稍后將在此博客中了解 LAPA 以及仿真與現實的協同訓練。通過結合這些創新,GR00T N1 不僅遵循指令并執行任務,還為通用人形機器人在復雜、不斷變化的環境中的表現樹立了新的基準。
GR00T N1.5 是面向通用人形機器人的升級版開放基礎模型,基于原始的 GR00T N1 構建,具有經過改進的視覺語言模型,該模型基于各種真實、模擬和 DreamGen 生成的合成數據進行訓練。
隨著架構和數據質量的改進,GR00T N1.5 可提供更高的成功率、更好的語言理解能力以及對新對象和任務的更強泛化,使其成為更穩健、適應性更強的高級機器人操作解決方案。
視頻中的潛在動作預訓練
針對通用動作模型 (LAPA) 的潛在動作預訓練是一種用于預訓練視覺語言動作 (VLA) 模型的無監督式方法,無需手動標記昂貴的機器人動作數據。LAPA 使用超過 181000 個未標記的互聯網視頻來學習有效的表征,而不是依賴于大型的帶標注的數據集 (收集這些數據集既昂貴又耗時) 。
在處理現實世界任務時,此方法的性能比高級模型提高了 6.22%,預訓練效率提高了 30 倍以上,使可擴展且可靠的機器人學習更容易獲取且更高效。
LAPA 流程分為三個階段:
- 潛在動作量化:向量量化變分自動編碼器 (VQ-VAE) 模型通過分析視頻幀之間的過渡來學習離散的“潛在動作”,創建原子行為 (例如抓取、傾倒) 詞匯表。潛在動作是低維的習得表示,可總結復雜的機器人行為或動作,從而更容易控制或模仿高維動作。
- 潛在預訓練:VLM 使用行為克隆進行預訓練,根據視頻觀察和語言指令從第一階段預測這些潛在動作。行為克隆是一種模型使用演示數據中的示例,通過將觀察結果映射到動作來學習復制或模仿動作的方法。
- 機器人后訓練:然后對預訓練模型進行后訓練,以使用小型標記數據集適應真實機器人,將潛在動作映射到物理命令。

仿真與現實協同訓練工作流
機器人策略訓練面臨兩大關鍵挑戰:收集真實世界數據的高昂成本和“現實差距”,即僅在仿真中訓練的策略通常無法在真實物理環境中表現良好。
仿真與現實協同訓練工作流通過將少量真實機器人演示與大量仿真數據相結合來解決這些問題。這種方法有助于訓練可靠的策略,同時有效降低成本并彌合現實差距。

工作流程中的關鍵步驟包括:
- 任務和場景設置:設置真實世界的任務,并選擇與任務無關的之前模擬數據集。
- 數據準備:在此數據準備階段,從物理機器人中收集真實世界的演示,同時生成額外的模擬演示,包括與真實任務緊密匹配的任務感知型“數字表親”,以及與任務無關的多樣化先前模擬。
- 協同訓練參數調優:然后,這些不同的數據源以優化的協同訓練比進行混合,重點是調整攝像頭視角,并更大限度地提高仿真多樣性,而非逼真度。最后階段涉及使用真實數據和模擬數據進行批量采樣和策略協同訓練,從而生成部署在機器人上的穩健策略。

如圖 7 所示,增加真實世界演示的數量可提高僅真實策略和協同訓練策略的成功率。即使在 400 次真實演示中,協同訓練策略的表現也始終優于僅真實策略,平均高出 38%,這表明即使在數據豐富的環境中,仿真和現實的協同訓練也仍然有益。

采用生態系統
領先的組織正在采用 NVIDIA 研究的這些工作流程來加速開發。GR00T N 模型的早期采用者包括:
- AeiRobot:利用這些模型使其工業機器人能夠理解復雜拾放任務的自然語言。
- Foxlink:利用這些模型提高其工業機器人手臂的靈活性和效率。
- Lightwheel:驗證合成數據,以便使用模型在工廠中更快地部署人形機器人。
- NEURA 機器人:評估模型以加速其家庭自動化系統的開發。
入門指南
探索以下資源以深入了解:
- DREAMGEN:項目網站、論文、GitHub
- NVIDIA Isaac GR00T-Dreams:GitHub
- NVIDIA Isaac GR00T N1.5:項目網站、論文、模型、GitHub
- 視頻中的潛在動作預訓練:項目網站、論文、模型、GitHub
- 仿真與現實協同訓練:項目網站、論文
- NVIDIA Cosmos:Cosmos Predict2、Cosmos 推理、Cosmos 遷移、Cosmos 基準測試
本文是我們 NVIDIA 機器人研發摘要 (R2D2) 的一部分,旨在讓開發者更深入地了解 NVIDIA Research 在物理 AI 和機器人應用方面的新突破。
通過訂閱時事通訊以及在 YouTube、Discord 和開發者論壇上關注 NVIDIA Robotics,了解有關 NVIDIA 研究的更多信息,并隨時了解最新動態。要開啟您的機器人開發之旅,請立即注冊我們的免費 NVIDIA 機器人開發基礎課程。
致謝
感謝 Johan Bjorck、Lawrence Yunliang Chen、Nikita Chernyadev、Yu-Wei Chao、Bill Yuchen Lin、Linxi’Jim’Fan、Dieter Fox、Yu Fang、Jianfeng Gao、Ken Goldberg、Fengyuan Hu、Wenqi Huang、Spencer Huang、Zhenyu Jiang、Byeongguk Jeon、Sejune Joo、Jan Kautz、Joel Jang、Kaushil Kundalia、Kimin Lee、Lars Liden、Zongyu Lin、M
?
?