歡迎閱讀首期“NVIDIA 機器人研究與開發摘要(R2D2)”。此技術博客系列將讓開發者和研究人員更深入地了解 NVIDIA 各個研究實驗室在物理 AI 和機器人領域的最新研究突破。
開發強大的機器人面臨著諸多重大挑戰,例如:
- 數據稀缺:為 AI 模型生成多樣的真實世界訓練數據。
- 適應性:確保解決方案能夠在各種不同類型的機器人和環境中通用,并適應動態、不可預測的場景。
- 集成性:有效地將移動能力、操作能力、控制能力和推理能力結合起來。
我們通過在自身平臺上經過驗證的先進研究來應對這些挑戰。我們的方法將前沿研究與工程工作流相結合,并在我們的 AI 和機器人平臺(包括 NVIDIA Omniverse、Cosmos、Isaac Sim 和 Isaac Lab)上進行測試。最終生成的模型、策略和數據集可作為研究人員和開發者社區的可定制參考,以適應特定的機器人開發需求。我們期待分享我們的研究成果,共同構建機器人技術的未來。
在本期 R2D2 中,您將了解以下機器人移動及全身控制的工作流及模型,以及它們如何應對機器人導航、移動和控制方面的關鍵挑戰:
- MobilityGen:基于仿真的工作流,利用 Isaac Sim 快速生成大型合成運動數據集,用于為不同形態和環境下的機器人構建模型,以及測試機器人在新環境中的導航能力。與真實世界的數據采集相比,該工作流可降低成本并節省時間。
- COMPASS(Cross-embOdiment Mobility Policy via ResiduAl RL and Skill Synthesis):一種用于開發跨形態移動策略的工作流,可借助 Isaac Lab 實現微調,并支持零樣本從仿真到現實的部署。
- HOVER(Humanoid Versatile Controller):Isaac Lab 中用于人形機器人多種控制模式的工作流和統一全身控制通用策略。
- ReMEmbR(適用于具身機器人的檢索增強內存):一種支持機器人使用 LLMs、VLMs 和 RAG(檢索增強生成)進行推理并采取移動行動的工作流。
NVIDIA 機器人移動工作流
和 AI 模型
包括人形機器人、四足機器人和自主移動機器人(AMR)等在內的移動機器人,越來越多地應用于各種不同的環境中,這對強大的導航系統提出了更高的要求,需要能夠支持在已繪制地圖和未知的環境中安全運行,同時避開障礙物并減少停機時間。目前的導航軟件在適應性方面存在困難,因為不同類型的機器人(例如,自主移動機器人與人形機器人)的算法差異很大,并且需要針對環境變化進行大量的微調,這增加了工程復雜性并限制了可擴展性。
NVIDIA 研究中心通過開發由 AI 驅動的端到端基礎模型、高效的數據生成流程以及支持零樣本部署的訓練工作流來應對這些挑戰,使機器人無需依賴昂貴的傳感器即可在雜亂的空間中導航。

用于數據生成的 MobilityGen
MobilityGen 工作流借助 NVIDIA Isaac Sim,為包括人形機器人、四足機器人和輪式機器人在內的移動機器人生成合成運動數據。您可以使用這些數據來訓練和測試機器人的移動模型以及感知算法,從而解決訓練機器人時的數據稀缺問題。
MobilityGen 通過以下方式幫助增加數據集的多樣性:
- 添加動態對象
- 添加機器人動作數據
- 結合人類演示數據
- 增強數據(例如光照條件)
MobilityGen 提供真實數據的形式包括占用地圖、位姿信息、速度信息、RGB 圖像、深度圖像和分割圖像,以及可定制的動作和渲染數據。它支持的數據采集方法包括鍵盤或游戲手柄遠程操作,以及自動隨機動作或可定制的路徑規劃。
通過解決數據稀缺問題,MobilityGen 增強了集成機器人堆棧的感知能力和移動基礎。通過 NVIDIA 深度學習培訓中心(DLI)的免費自學課程,了解更多關于 MobilityGen 的信息,以及如何使用遠程操作為人形機器人 Unitree H1 生成運動和導航數據集。

用于跨形態移動策略的 COMPASS
COMPASS 是一個用于開發跨形態移動策略的工作流。它提供了一種可通用的端到端移動工作流和模型,能夠在多種機器人形態下實現零樣本從仿真到現實的部署。其目標是解決由于機器人專家開發和測試周期緩慢而導致的可擴展性問題。
COMPASS 將基于視覺的端到端模仿學習(IL)與 Isaac Lab 中的 X-Mobility 的殘差強化學習(RL)以及策略蒸餾方法相結合,以擴展到不同的機器人平臺。雖然基于模仿學習的 X-Mobility 策略是在使用 MobilityGen 生成的特定形態數據上進行預訓練的,但 COMPASS 的通用策略對于不同形態的機器人可實現高出 5 倍的成功率。這使得不同的機器人能夠使用統一的策略在復雜環境中高效導航。它還為用戶提供了針對特定形態和環境微調策略的靈活性和便利性。

該工作流的第一階段使用基于模仿學習的方法進行世界建模,以訓練針對環境狀態與行動的移動性“常識”表征。這類“常識”的具體體現包括對世界動態變化的理解、障礙物探測與規避、路徑規劃,以及環境感知能力等。
第二階段使用殘差強化學習,將第一階段中基于模仿學習的策略逐步具體化為特定的專家策略。第三階段使用每個專家策略的數據,并通過策略蒸餾將它們合并為一個跨形態模型。通過這種方式,每個專家的專業知識被融入到最終的蒸餾策略中,從而提高不同平臺的適應性。
COMPASS 實現了零樣本多機器人交互,展示了機器人在不同環境中的功能。它還可用于連接 loco-manipulation 控制器,以執行 loco-manipulation 相關的任務。
COMPASS 通過解決跨形態的通用性問題,增強了集成式機器人堆棧的移動性基礎。
用于人形機器人全身控制的 HOVER
到目前為止,我們已經了解了使機器人能夠從一個點移動到目標位置的移動策略。但對于穩健的運動來說,這還不夠,我們還需要實現平衡和全身控制,以確保安全、平穩的移動。HOVER 的目標就是為此提供一個參考工作流。
傳統上,人形機器人需要不同的控制模式來執行各種任務,例如用于導航的速度追蹤和用于桌面操作的上半身關節追蹤。HOVER 是一個在 Isaac Lab 中訓練的工作流,它將這些控制模式整合為人形機器人的統一策略。對于使用本文中所提到的其他工作流的機器人,也可以使用其他控制器來替代 HOVER。
通過將復雜的人形機器人的多個運動部件集成到一個統一的神經全身控制器中,HOVER 增強了集成機器人堆棧的基控制礎。HOVER(Humanoid Versatile Controller)是一種多模式策略蒸餾框架,可以將多種控制模式統一到單個策略中,實現了它們之間的無縫過渡。通過強化學習對 oracle 策略進行訓練,并模仿人類運動數據,然后使用策略蒸餾流程將技能從 ?oracle 策略轉移到通用策略。
HOVER 代碼還包括一個在 Unitree H1 機器人上使用的部署代碼示例,使用戶能夠使用機器人來復制下圖中展示的運動和穩定性。


用于機器人推理的 ReMEmbR
到目前為止,我們探討的工作流解決了數據集創建、移動策略以及人形機器人的全身控制問題。為了通過對話式智能實現完全的自主移動,我們還需要集成機器人的推理和認知能力。機器人如何記住在環境中看到的內容,并根據用戶輸入采取相應的行動呢?
ReMEmbR 是一種將大語言模型、視覺語言模型和檢索增強生成技術相結合的工作流,使機器人能夠使用長時間記憶動作,進行推理、回答問題并在大范圍內執行導航操作。它可以充當具身機器人的“記憶”,有助于基于感知的問答和語義動作執行。

ReMEmbR 可用于為本文中介紹的其他工作流提供輸入,將它們整合在一起,以幫助解決機器人移動性的復雜問題。我們還發布了用于評估的 NaVQA 數據集(Navigation Visual Question Answering),其中包含具有各種輸出類型的空間、時間和描述性問題的示例。

通過利用大語言模型和視覺語言模型的強大功能來解決推理問題,ReMEmbR 強化了基于 AI 的集成機器人堆棧的推理和適應能力。
生態系統應用情況
人形機器人、倉庫自動化和自主系統領域的領先機構正在采用 NVIDIA 的研究工作流,以加速開發,并在可擴展性和適應性方面取得突破。
- UCR(Under Control Robotics)集成了 X-Mobility,以引導其機器人 Moby 順暢抵達目的地。事實證明,這套模塊化系統能夠靈活適配各類工業任務,比如數據采集、物料搬運,以及實現高風險作業的自動化操作。
- 研華科技(Advantech)、威剛科技(ADATA)和 Ubitus 合作,采用 ReMEmbR 技術,使機器人能夠依據大量的觀察進行推理并采取行動。
開始使用
想要了解更多信息,請探索以下資源:
MobilityGen
COMPASS
X-Mobility
HOVER
ReMEmbR 和 NaVQA 數據集
-
博客(點擊鏈接閱讀原文):
借助 ReMEmbR 利用生成式 AI 賦予機器人推理與行動能力
這篇文章是“NVIDIA 機器人研究與開發摘要(R2D2)”的一部分,旨在讓開發者更深入地了解 NVIDIA 研究中心在物理 AI 和機器人應用方面的最新突破。
了解 NVIDIA 研究中心的更多信息:
https://www.nvidia.cn/research/
立即注冊 NVIDIA 機器人基礎課程,即刻開始您的機器人技術之旅:
https://www.nvidia.com/en-us/learn/learning-path/robotics/
致謝
感謝 Abrar Anwar、Joydeep Biswas、Yan Chang、Jim Fan、Pulkit Goyal、Lionel Gulich、Tairan He、Rushane Hua、Neel Jawale、Zhenyu Jiang、Jan Kautz、H. Hawkeye King、Chenran Li、Michael Lin、Toru Lin、Changliu Liu、Wei Liu、Zhengyi Luo、Billy Okal、Stephan Pleines、Soha Pouya、Guanya Shi、Shri Sundaram、Peter Varvak、Xiaolong Wang、John Welsh、Wenli Xiao、Zhenjia Xu、Huihua Zhao 和 Yuke Zhu 為本博客中提到的研究論文做出的貢獻。
?