仿真是機器人學習新技能的重要工具。這些技能包括感知(從相機圖像中理解世界)、計劃(制定解決問題的一系列行動)和控制(生成電機命令以改變機器人的位置和方向)
機器人裝配在汽車、航空航天、電子和醫療器械行業無處不在。設置機器人執行裝配任務是一個耗時且昂貴的過程,需要一個團隊來設計機器人的軌跡并仔細約束其周圍環境
在機器人的其他領域,仿真已經成為不可或缺的工具,尤其是在人工智能的發展中。然而,機器人裝配涉及幾何復雜、公差嚴格的零件之間的高精度接觸。長期以來,模擬這些富含接觸的交互一直被認為是計算上難以解決的問題。
隨著最近基于 NVIDIA advancing robotic assembly 的發展,比實時模擬更快。這些高速模擬使得能夠在強化學習( RL )中使用強大的、最先進的技術。有了 RL ,虛擬機器人可以探索模擬環境,獲得多年的經驗,并通過智能試錯學習有用的技能。將 RL 用于機器人裝配最大限度地減少了對人類專業知識的需求,提高了對變化的魯棒性,并減少了硬件磨損。術語模擬到真實參考將技能從模擬轉移到現實世界。
將 RL 用于機器人裝配的最大挑戰之一是,機器人在模擬中學習的技能通常不能很好地轉移到真實世界的機器人身上。模擬器和現實世界之間的物理、電機信號和傳感器信號的細微差異導致了這個問題。此外,現實世界中的機器人可能會遇到模擬器中從未見過的場景。這些問題統稱為現實差距。
什么是 IndustReal ?
為了將 RL 用于具有挑戰性的裝配任務并解決現實差距,我們開發了 IndustReal 。 IndustReal 是一套算法、系統和工具,用于機器人在模擬中解決裝配任務,并將這些功能轉移到現實世界
IndustReal 的主要貢獻包括:
- 一組用于模擬機器人的算法,用于解決具有 RL 的復雜裝配任務。
- 一種在現實世界中部署時解決現實差距并穩定所學技能的方法。
- 一個真實世界的機器人系統,從端到端執行模擬訓練的裝配技能的模擬到真實的轉移。
- 用于研究人員和工程師復制系統的硬件和軟件工具包。
- IndustRealKit 是一套 3D 打印的資產 CAD 模型,靈感來自NIST Task Board 1,機器人裝配的既定基準。
- IndustRealLib 是一個輕量級的 Python 庫,它部署了在NVIDIA Isaac Gym模擬現實世界中的 Franka Emika Panda 機器人手臂。

訓練算法和部署方法
在這項工作中,我們提出了三種算法來幫助在模擬中使用 RL 學習裝配技能。我們還提出了一種在真實世界的機器人上執行技能的部署方法
模擬感知策略更新
像這樣的機器人模擬器NVIDIA Isaac Gym和NVIDIA Isaac Sim模擬真實世界的物理,同時滿足許多物理約束——最重要的是,物體不能相互重疊,或者,互相滲透。在大多數模擬器中,對象之間的小交互是不可避免的,尤其是在實時執行時
我們介紹模擬感知策略更新其向仿真機器人提供仿真預測何時可靠或何時不可靠的知識。具體而言,在 SAPU 中,我們在中實現了一個基于 GPU 的模塊NVIDIA Warp它在機器人學習如何使用 RL 組裝零件時檢查相互滲透
當穿插較小時,我們對機器人的模擬體驗進行更多加權,而當穿插較大時,我們則較少加權。這種策略可以防止模擬機器人利用不準確的物理來解決任務,這將導致它學習不太可能轉移到現實世界的技能。
簽名距離場獎勵
為了用 RL 解決任務,必須定義獎勵信號(例如測量機器人在解決任務方面取得的進展)。然而,在裝配過程中為幾何復雜零件的對準定義獎勵信號是具有挑戰性的。
我們介紹一個有符號距離場( SDF )獎勵以測量在裝配過程中模擬零件的對齊程度。 SDF 是一種數學函數,可以獲取一個對象上的點,并計算到另一個對象表面的最短距離。它提供了一種自然而通用的方式來描述零件之間的對齊,即使它們是高度對稱或不對稱的
在 SDF 獎勵中,我們將獎勵信號定義為裝配過程中零件的當前位置和目標位置之間的 SDF 距離。
基于抽樣的課程
課程學習是 RL 中一種既定的方法,用于解決涉及許多個人步驟或動作的問題;隨著機器人的學習,任務的難度逐漸增加。
在我們的組裝任務中,機器人首先解決簡單的組裝問題(即零件部分組裝的地方),然后再解決更難的問題(即部件拆卸的地方)
隨著零件之間的初始接合逐漸減少,出現了零件不再開始接觸的點。這種難度的突然增加可能導致性能崩潰,因為機器人的知識對部分組裝的配置過于專業化。
我們介紹一個抽樣課程使模擬機器人逐步學習復雜的裝配任務。我們要求機器人在課程的所有階段解決整個難度范圍內的裝配問題。然而,我們逐漸從問題分布中去除了最簡單的問題。在課程的最后階段,各部分從未接觸過。請參見以下可視化。

政策級行動集成器
在 RL 最常見的機器人應用中,機器人生成的動作是對其姿勢(即其位置和方向)的增量調整。這些增量應用于機器人的當前姿勢,以產生瞬時目標姿勢。對于現實世界中的機器人,由于物理機器人的復雜性,這種策略可能會導致機器人的最終姿態與其最終目標姿態之間的差異
我們還建議政策級行動集成器,一種簡單的算法,當在現實世界的機器人上部署所學技能時,可以減少穩態(即長期)錯誤。我們將增量調整應用于先前的瞬時目標姿態,以產生新的瞬時目標姿勢
在數學上(類似于經典 PID 控制器的積分項),該策略生成瞬時目標姿態,該姿態是初始姿態和機器人隨時間產生的動作的總和。即使在物理復雜的情況下,這項技術也可以最大限度地減少機器人的最終姿態和最終目標姿態之間的誤差。
我們比較了標準(標稱)策略、我們的 PLAI 算法和經典 PID 控制器在到達任務上的性能,其中機器人試圖移動到目標位置。請參見以下可視化。

系統和工具
在 IndustReal 進行的真實世界實驗所使用的設置包括一個手上安裝有 Intel RealSense D435 相機的 Franka Emika Panda 機械臂和一個帶零件的組裝平臺。

IndustReal 提供硬件( IndustRealKit )和軟件( IndustRealLib )用于再現本文中提出的系統。
IndustRealKit 包含本工作中使用的所有零件的 3D 可打印 20 部分 CAD 模型。這些型號配有六個銷釘固定器、六個銷釘插座、三個齒輪、一個齒輪底座(帶三個齒輪軸)以及四個 NEMA 連接器和插座固定器,它們是美國使用的標準插頭和電源插座
采購清單包括 17 個零件:六個金屬釘(來自 NIST 基準)、四個 NEMA 連接器和插座、一個光學平臺和緊固件。

IndustRealLib 是一個輕量級庫,包含用于將通過 RL 在模擬中學習的技能部署到真實世界的機械臂上的代碼。具體來說,我們為用戶提供腳本以進行部署控制策略(即,將傳感器信號映射到機器人動作的神經網絡)在 NVIDIA Isaac 健身房模擬器中訓練,快速將其應用到 Franka Emika Panda 機器人上。
未來方向
IndustReal 展示了在機器人裝配任務中充分利用模擬潛力的途徑。隨著模擬變得更加準確和高效,以及開發出更多的模擬到真實的轉移技術,我們預見到將這項工作擴展到制造業的其他任務(如螺釘緊固、電纜布線和焊接)的許多可能性。有理由相信,有一天,每一個先進的工業制造機器人都將使用這些技術進行模擬訓練,以便無縫和可擴展地轉移到現實世界。
我們接下來的步驟是擴展系統,以包括更多的對象、裝配任務和復雜的環境。我們還致力于開發更多的模擬到真實的技術,以更低的成本、更高的可靠性和有保證的安全性順利轉移所學技能。
開始使用 IndutRel
- 訪問IndustReal project page,獲取論文和摘要視頻的鏈接。敬請關注即將推出的 IndustralKit 和 IndustralLib 。
- 下載單機版NVIDIA Isaac Gym Preview Release和NVIDIA Isaac Gym Environments。這包括NVIDIA Omniverse factory environments這是在 Industrial 培訓裝配技能的基礎。
- 下載下一代NVIDIA Isaac Sim powered by Omniverse.
論文作者唐炳杰、林、阿基諾拉、漢達、蘇哈特梅、拉莫斯、福克斯和納朗將介紹他們的研究成果IndustReal: Transferring Industrial Assembly Tasks from Simulation to Reality“在Robotics: Science and Systems (RSS)會議將于 2023 年 7 月舉行
?