R2D2：利用 NVIDIA 研究工作流程和模型提升靈巧機器人的適應性

如今，Robotic arms 用于組裝、包裝、檢查等更多應用領域。但是，它們仍然經過預編程，可以執行特定的、通常是重復性的任務。為了滿足大多數環境中日益增長的適應性需求， perceptive arms 需要根據實時數據做出決策和調整行為。這提高了協作環境中任務的靈活性，并通過危險感知提高安全性。

本期 NVIDIA Robotics Research and Development Digest (R² D²) 探討了 NVIDIA Research 的一些機器人靈活性、操作和抓取工作流以及 AI 模型 (如下所示) ，以及它們如何應對適應能力和數據稀缺等關鍵機器人挑戰：

DextrAH-RGB：通過立體 RGB 輸入實現靈巧抓取的工作流程。
DexMimicGen ：使用模仿學習 (IL) 進行雙手靈巧操作的數據生成管道。在 ICRA 2025 上展示。
GraspGen ：包含超過 5700 萬次抓取的合成數據集，適用于不同的機器人和抓手。

什么是靈巧的機器人？

靈巧的機器人能夠精準、高效地操控物體。機器人的靈活性涉及精細的運動控制、協調，以及通常在非結構化環境中處理各種任務的能力。機器人靈活性的關鍵方面包括抓握、操控、觸覺敏感度、敏捷性和協調性。

機器人的靈活性在制造、醫療健康和物流等行業至關重要，可實現傳統上需要類似人類精度的任務的自動化。

NVIDIA 機器人的靈活性和操控工作流程及模型

靈巧的抓取是機器人領域一項頗具挑戰性的任務，需要機器人精準、快速地操控各種物體。傳統方法難以處理反光物體，無法很好地泛化到新物體或動態環境。

NVIDIA Research 通過開發端到端基礎模型和工作流程來應對這些挑戰，從而實現跨對象和環境的穩健操作。

DextrAH-RGB，用于靈巧抓取

DextrAH-RGB 是一種工作流程，可通過立體 RGB 輸入進行靈巧的手臂抓握。使用此工作流，策略完全在仿真中進行訓練，并且可以在部署時泛化到新對象。DextrAH-RGB 使用 NVIDIA Isaac Lab 在不同物體的模擬中進行大規模訓練。

視頻 1. 在模擬中訓練 DextrAH-RGB

訓練流程包含兩個階段。首先，使用強化學習 (RL) 在模擬中訓練教師策略。教師是一種在幾何結構動作空間中發揮作用的特權 Fabric-Guided 策略 (FGP) 。幾何結構是一種矢量化低級控制形式，它將運動定義為關節位置、速度和加速信號，這些信號作為命令傳輸到機器人控制器。這通過確保部署時的安全性和反應性，嵌入防撞和目標深遠的行為，實現了快速迭代。

“教師策略具有一個 LSTM 層，用于推理并適應世界的物理特性。這有助于整合糾正行為 (例如重新抓取和把握成功理解) ，以對當前動態做出反應。訓練的第一階段通過利用域隨機化來確保魯棒性和適應性。隨著教師策略的訓練，物理、視覺和微擾參數也會發生變化，從而逐漸增加環境難度。”

在訓練的第二階段，使用逼真的平鋪渲染將教師策略提煉為基于 RGB 的學生策略。此步驟使用名為 DAgger 的模仿學習框架。學生策略從立體攝像頭接收 RGB 圖像，使其能夠隱式推理深度和物體位置。

An image of the DextrAH-RGB training pipeline, including Stage 1: Teacher Training; Stage 2: Student Training; Stage 3: Real-World Deployment. — *圖 1。DextrAH-RGB 訓練管線*

借助 Boston Dynamics Atlas MTS 機器人實現 Simulation-to-real

NVIDIA 和 Boston Dynamics 一直在合作訓練和部署 DextrAH-RGB。圖 2 和視頻 2 展示了由通用策略驅動的機器人系統，該系統在 Atlas 的上半身上部署了強大的零樣本模擬到現實的抓取功能。

A GIF showing the teacher policy for Atlas being trained at scale using Isaac Lab. — *圖 2。使用 NVIDIA Isaac Lab 大規模訓練 Atlas 教師政策*

該系統展示了由 Atlas 的三指夾持器提供動力支持的各種抓取裝置，可容納輕量級和重型物體，并顯示新出現的故障檢測和重試行為。

視頻 2. 波士頓動力 Atlas MTS 機器人使用 DextrAH-RGB 成功抓取工業物體

用于生成雙手操作數據的 DexMimicGen

DexMimicGen 是一個雙手動操作數據生成工作流，它使用少量人類演示來生成大規模軌跡數據集。其目標是讓機器人能夠在仿真環境中學習動作，并將其傳輸到現實世界，從而減少手動收集數據的繁瑣任務。此工作流解決了 IL 中數據稀缺的挑戰，適用于像人形機器人這樣的雙手動靈巧機器人。

DexMimicGen 使用基于仿真的增強來生成數據集。首先，人類演示者使用遠程操作設備收集少量演示。然后，DexMimicGen 會生成模擬演示軌跡的大型數據集。例如，在最初的出版物中，研究人員使用 DexMimicGen 僅從 60 個人類演示中生成了 21K 個演示。最后，使用 IL 在生成的數據集上訓練策略以執行操作任務，并將其部署到物理機器人。

An overview diagram of DexMimicGen, including four images labeled Real-World Teleoperation and Simulation Replay (top) and Real-World Deployment and Generated Trajectories (bottom) with Digital Twin Sim2Real arrows between. — *圖 3. DexMimicGen 工作流程*

由于需要在不同任務的兩個 arm 之間進行精確協調，因此 bimanual manipulation 具有挑戰性。在每個 arm 中拾取不同物體等并行任務需要獨立的 control policies。提起大型物體等協調任務需要 arm 來同步運動和計時。順序任務要求子任務按特定順序完成，例如用一只手移動盒子，用另一只手放入物體。

在數據生成過程中，DexMimicGen 使用子任務的“并行、協調和順序”分類來滿足這些不同的要求。這將異步執行策略用于獨立的 ARM 子任務、協調任務的同步機制，以及順序子任務的順序約束。此方法可確保在數據生成期間實現精確對齊和邏輯任務執行。

A GIF showing a humanoid robot executing the can sorting task successfully using a model trained on data generated using DexMimicGen. — *圖 4. 使用基于 DexMimicGen 生成的數據訓練的模型成功對易拉罐進行分類*

在現實世界中部署時，DexMimicGen 使人形機器人能夠使用通過從真實到模擬到現實的 pipeline 生成的數據，在易拉罐分類任務中實現 90% 的成功率。相比之下，僅在人類演示中進行訓練時，模型的成功率為 0%。這些觀察結果凸顯了 DexMimicGen 在減少人類工作量方面的有效性，同時為復雜的操作任務提供了強大的機器人學習能力。

適用于多個機器人和抓手的 GraspGen 數據集

為了支持研究，GraspGen 在 Hugging Face 上提供了一個新的模擬數據集，可為三個不同的 grippers 抓取 5700 萬次。該數據集包括 6D gripper 轉換和不同對象網格的成功標簽。

An image showing icons representing proposed grasps for different objects in the dataset. — *圖 5。針對數據集中一系列不同對象的 Proposed grasps*

這三款抓手分別是 Franka Panda 抓手、Robotiq 2F-140 工業抓手和單接觸吸力抓手。GraspGen 完全在仿真中生成，展示了自動數據生成在規模和多樣性上擴展數據集的優勢。

An image of three grippers in the simulated GraspGen dataset showing the coordinate frame convention. Left: Robotiq 2F-140 gripper, middle: a single-contact suction gripper, right: Franka Panda gripper. — *圖 6。模擬 GraspGen 數據集中三個抓手的坐標框架約定：Robotiq 2F-140 抓手 (左) 、單接觸吸力抓手 (中) 和 Franka Panda 抓手 (右)*

總結

為了滿足大多數環境中日益增長的適應性需求，robotic arms 需要根據實時數據做出決策和調整行為。本文探討了幾種機器人的靈活性、操控性、抓取工作流程和 AI 模型，以及它們如何解決適應能力和數據稀缺等關鍵機器人挑戰。

如需了解詳情，請查看以下資源：

DextrAH-RGB
- 項目網站
- DextrAH-RGB：借助靈巧的雙手掌握一切的視覺運動策略
DexMimicGen
- 項目網站
- DexMimicGen：通過模仿學習自動生成手動靈巧操作的數據
- NVlabs/dexmimicgen GitHub 存儲庫
GraspGen
- Hugging Face 數據集

本文是 NVIDIA Robotics Research and Development Digest (R ² D ²) 的一部分，旨在讓開發者更深入地了解 NVIDIA 研究在物理 AI 和機器人應用方面的新突破。

訂閱時事通訊并在 YouTube 、 Discord 和 NVIDIA 開發者論壇上關注 NVIDIA Robotics，及時了解最新信息。要開啟您的機器人開發之旅，請注冊免費的 NVIDIA Robotics Fundamentals 課程。

致謝

感謝 Arthur Allshire、Mohak Bhardwaj、Mark Carlson、Yu-Wei Chao、Clemens Eppner、Gina Fay、Jim Fan、Dieter Fox、Ankur Handa、Zhenyu Jiang、Kevin Lin、Michael Lutter、Ajay Mandlekar、Adithyavairavan Murali、Nathan Ratliff、Fabio Ramos、Alberto Rodriguez、Ritvik Singh、Balakumar Sundaralingam、Karl Van Wyk、Weikang Wan、Wentao Yuan、Jun Yamada、Yuqi Xie、Zhenjia Xu 和 Yuke Zhu 對本文中提到的研究的貢獻。

R2D2：利用 NVIDIA 研究工作流程和模型提升靈巧機器人的適應性

什么是靈巧的機器人？