如今,Robotic arms 用于組裝、包裝、檢查等更多應用領域。但是,它們仍然經過預編程,可以執行特定的、通常是重復性的任務。為了滿足大多數環境中日益增長的適應性需求, perceptive arms 需要根據實時數據做出決策和調整行為。這提高了協作環境中任務的靈活性,并通過危險感知提高安全性。
本期 NVIDIA Robotics Research and Development Digest (R2 D2 ) 探討了 NVIDIA Research 的一些機器人靈活性、操作和抓取工作流以及 AI 模型 (如下所示) ,以及它們如何應對適應能力和數據稀缺等關鍵機器人挑戰:
- DextrAH-RGB:通過立體 RGB 輸入實現靈巧抓取的工作流程。
- DexMimicGen :使用模仿學習 (IL) 進行雙手靈巧操作的數據生成管道。在 ICRA 2025 上展示。
- GraspGen :包含超過 5700 萬次抓取的合成數據集,適用于不同的機器人和抓手。
什么是靈巧的機器人?
靈巧的機器人能夠精準、高效地操控物體。機器人的靈活性涉及精細的運動控制、協調,以及通常在非結構化環境中處理各種任務的能力。機器人靈活性的關鍵方面包括抓握、操控、觸覺敏感度、敏捷性和協調性。
機器人的靈活性在制造、醫療健康和物流等行業至關重要,可實現傳統上需要類似人類精度的任務的自動化。
NVIDIA 機器人的靈活性和操控工作流程及模型
靈巧的抓取是機器人領域一項頗具挑戰性的任務,需要機器人精準、快速地操控各種物體。傳統方法難以處理反光物體,無法很好地泛化到新物體或動態環境。
NVIDIA Research 通過開發端到端基礎模型和工作流程來應對這些挑戰,從而實現跨對象和環境的穩健操作。
DextrAH-RGB,用于靈巧抓取
DextrAH-RGB 是一種工作流程,可通過立體 RGB 輸入進行靈巧的手臂抓握。使用此工作流,策略完全在仿真中進行訓練,并且可以在部署時泛化到新對象。DextrAH-RGB 使用 NVIDIA Isaac Lab 在不同物體的模擬中進行大規模訓練。
訓練流程包含兩個階段。首先,使用 強化學習 (RL) 在模擬中訓練教師策略。教師是一種在幾何結構動作空間中發揮作用的特權 Fabric-Guided 策略 (FGP) 。幾何結構是一種矢量化低級控制形式,它將運動定義為關節位置、速度和加速信號,這些信號作為命令傳輸到機器人控制器。這通過確保部署時的安全性和反應性,嵌入防撞和目標深遠的行為,實現了快速迭代。
“教師策略具有一個 LSTM 層,用于推理并適應世界的物理特性。這有助于整合糾正行為 (例如重新抓取和把握成功理解) ,以對當前動態做出反應。訓練的第一階段通過利用域隨機化來確保魯棒性和適應性。隨著教師策略的訓練,物理、視覺和微擾參數也會發生變化,從而逐漸增加環境難度。”
在訓練的第二階段,使用逼真的 平鋪渲染 將教師策略提煉為基于 RGB 的學生策略。此步驟使用名為 DAgger 的模仿學習框架。學生策略從立體攝像頭接收 RGB 圖像,使其能夠隱式推理深度和物體位置。

借助 Boston Dynamics Atlas MTS 機器人實現 Simulation-to-real
NVIDIA 和 Boston Dynamics 一直在合作訓練和部署 DextrAH-RGB。圖 2 和視頻 2 展示了由通用策略驅動的機器人系統,該系統在 Atlas 的上半身上部署了強大的零樣本模擬到現實的抓取功能。

該系統展示了由 Atlas 的三指夾持器提供動力支持的各種抓取裝置,可容納輕量級和重型物體,并顯示新出現的故障檢測和重試行為。
視頻 2. 波士頓動力 Atlas MTS 機器人使用 DextrAH-RGB 成功抓取工業物體
用于生成雙手操作數據的 DexMimicGen
DexMimicGen 是一個雙手動操作數據生成工作流,它使用少量人類演示來生成大規模軌跡數據集。其目標是讓機器人能夠在仿真環境中學習動作,并將其傳輸到現實世界,從而減少手動收集數據的繁瑣任務。此工作流解決了 IL 中數據稀缺的挑戰,適用于像人形機器人這樣的雙手動靈巧機器人。
DexMimicGen 使用基于仿真的增強來生成數據集。首先,人類演示者使用遠程操作設備收集少量演示。然后,DexMimicGen 會生成模擬演示軌跡的大型數據集。例如,在最初的出版物中,研究人員使用 DexMimicGen 僅從 60 個人類演示中生成了 21K 個演示。最后,使用 IL 在生成的數據集上訓練策略以執行操作任務,并將其部署到物理機器人。

由于需要在不同任務的兩個 arm 之間進行精確協調,因此 bimanual manipulation 具有挑戰性。在每個 arm 中拾取不同物體等并行任務需要獨立的 control policies。提起大型物體等協調任務需要 arm 來同步運動和計時。順序任務要求子任務按特定順序完成,例如用一只手移動盒子,用另一只手放入物體。
在數據生成過程中,DexMimicGen 使用子任務的“并行、協調和順序”分類來滿足這些不同的要求。這將異步執行策略用于獨立的 ARM 子任務、協調任務的同步機制,以及順序子任務的順序約束。此方法可確保在數據生成期間實現精確對齊和邏輯任務執行。

在現實世界中部署時,DexMimicGen 使人形機器人能夠使用通過從真實到模擬到現實的 pipeline 生成的數據,在易拉罐分類任務中實現 90% 的成功率。相比之下,僅在人類演示中進行訓練時,模型的成功率為 0%。這些觀察結果凸顯了 DexMimicGen 在減少人類工作量方面的有效性,同時為復雜的操作任務提供了強大的機器人學習能力。
適用于多個機器人和抓手的 GraspGen 數據集
為了支持研究,GraspGen 在 Hugging Face 上提供了一個 新的模擬數據集 ,可為三個不同的 grippers 抓取 5700 萬次。該數據集包括 6D gripper 轉換和不同對象網格的成功標簽。

這三款抓手分別是 Franka Panda 抓手、Robotiq 2F-140 工業抓手和單接觸吸力抓手。GraspGen 完全在仿真中生成,展示了自動數據生成在規模和多樣性上擴展數據集的優勢。

總結
為了滿足大多數環境中日益增長的適應性需求,robotic arms 需要根據實時數據做出決策和調整行為。本文探討了幾種機器人的靈活性、操控性、抓取工作流程和 AI 模型,以及它們如何解決適應能力和數據稀缺等關鍵機器人挑戰。
如需了解詳情,請查看以下資源:
- DextrAH-RGB
- DexMimicGen
- GraspGen
本文是 NVIDIA Robotics Research and Development Digest (R 2 D 2 ) 的一部分,旨在讓開發者更深入地了解 NVIDIA 研究 在物理 AI 和機器人應用方面的新突破。
訂閱時事通訊 并在 YouTube 、 Discord 和 NVIDIA 開發者論壇 上關注 NVIDIA Robotics,及時了解最新信息。要開啟您的機器人開發之旅,請注冊免費的 NVIDIA Robotics Fundamentals 課程 。
致謝
感謝 Arthur Allshire、Mohak Bhardwaj、Mark Carlson、Yu-Wei Chao、Clemens Eppner、Gina Fay、Jim Fan、Dieter Fox、Ankur Handa、Zhenyu Jiang、Kevin Lin、Michael Lutter、Ajay Mandlekar、Adithyavairavan Murali、Nathan Ratliff、Fabio Ramos、Alberto Rodriguez、Ritvik Singh、Balakumar Sundaralingam、Karl Van Wyk、Weikang Wan、Wentao Yuan、Jun Yamada、Yuqi Xie、Zhenjia Xu 和 Yuke Zhu 對本文中提到的研究的貢獻。
?