通過向真實機器人手傳授靈巧性來增強仿真價值

人類的手是數百萬年進化過程中最顯著的成果之一。拾取各種對象并將其用作工具的能力是使我們能夠塑造世界的關鍵區別。

對于在日常人類世界中工作的機器人來說，靈巧地與我們的工具和周圍環境交互的能力至關重要。如果沒有這種能力，它們將繼續只在工廠或倉庫等專門領域有用。

雖然已經有一段時間可以教有腿的機器人如何行走，但事實證明，有手的機器人通常更難控制。有手指的手有更多的關節，必須以特定的協調方式移動才能完成給定的任務。具有精確抓取和運動的傳統機器人控制方法無法實現人類認為理所當然的那種廣義精細運動控制技能。

解決這些問題的一種方法是應用深度強化學習（ deep RL ）技術，該技術訓練神經網絡來控制機器人的關節。使用深度 RL ，機器人從反復嘗試中學習，并因成功完成指定任務而獲得獎勵。不幸的是，這項技術可能需要數百萬甚至數十億個樣本來學習，這使得它幾乎不可能直接應用于真正的機器人。

視頻 1 。 DeXtreme ：將靈巧操作從模擬轉換為現實

應用模擬

進入 NVIDIA ISAAC 機器人模擬器，該模擬器使機器人能夠在模擬宇宙中進行訓練，該模擬宇宙的運行速度比真實世界快 10000 倍以上，但遵守物理定律。

DeXtreme 項目的 NVIDIA 研究人員使用 NVIDIA Isaac Gym ，一種 RL 訓練機器人模擬器，教這只機器人手如何操縱立方體，以匹配提供的目標位置、方向或姿勢。在被移植到現實世界中控制機器人之前，神經網絡大腦完全在模擬中學會了這一點。

OpenAI 的研究人員此前只展示過一次類似的工作。他們的工作需要一只更加復雜和昂貴的機器人手，一個裝有精確運動控制傳感器的立方體，以及一個由數百臺計算機組成的超級計算集群來訓練。

民主化靈活性

DeXtreme 項目使用的硬件被選擇為盡可能簡單和廉價，以使世界各地的研究人員能夠復制我們的實驗。

該機器人本身是一個 Allegro Hand ，其成本僅為某些替代品成本的 1 / 10 ，有四個手指而不是五個，并且沒有活動的手腕。我們可以使用三個現成的 RGB 相機來跟蹤 3D 立方體，這可以根據需要輕松地重新定位，而不需要特殊的硬件。立方體是 3D 打印的，每個面上都貼著貼紙。

The image shows the layout of the project with three RGB cameras covering all the different angles. The robotic hand in the center is holding the 3D printed cube. — *圖 1 。一個簡單且價格合理的現成系統是可復制性的優先事項*

DeXtreme 使用 ISAAC 健身房進行訓練，該健身房為強化學習提供了端到端 GPU 加速模擬環境。 NVIDIA PhysX 在 GPU 上模擬世界，在深度學習控制策略網絡的訓練期間，結果保留在 GPU 內存中。

因此，培訓可以在單個 Omniverse OVX 服務器上進行。在這個系統上訓練一個好的策略需要大約 32 小時，相當于一個機器人在現實世界中 42 年的經驗。

不需要單獨的 CPU 集群進行模擬，意味著以當前云租賃費率進行培訓的計算成本將降低 10 – 200 倍。因為我們可以使用 ISAAC 健身房來訓練模型，訓練時間和成本可以大大減少。

感知和合成數據

為了讓機器人知道它所持立方體的當前位置和方向，它需要一個感知系統。為了保持低成本，并在未來留下操縱其他對象的可能性， DeXtreme 使用了三個現成的攝像頭和另一個可以解釋立方體姿勢的神經網絡。

該網絡使用使用 Omniverse Replicator 生成的大約 500 萬幀 synthetic data 進行訓練，并且沒有任何真實圖像。網絡學習如何在現實世界中具有挑戰性的情況下執行任務。為了使訓練更加穩健，我們使用了一種稱為域隨機化的技術來改變照明和相機位置，再加上數據增強來應用隨機裁剪、旋轉和背景。

視頻 2 。 DeXtreme NVIDIA Omniverse Replicator 合成數據隨機化背景、照明和相機角度，以訓練強大的感知網絡

DeXtreme 姿態估計系統是可靠的，即使當所討論的對象被部分遮擋而無法觀看時，或者當圖像具有明顯的運動模糊時，也可以感知準確的姿態。

視頻 3 。 DeXtreme 姿態估計器計算機視覺模型輸出，用于人手持有的部分遮擋立方體

真正的機器人仍然具有挑戰性

使用模擬的一個關鍵原因是，直接在現實世界中訓練機器人面臨著各種挑戰。例如，機器人硬件在過度使用后容易損壞。實驗迭代周期和周轉時間也可能很慢。

視頻 4 。快板手上冒出煙霧

在我們的實驗中，我們經常發現自己在長時間使用后修復手部，例如，擰緊松動的螺釘，更換帶狀電纜，并在進行 10-15 次試驗后讓手部冷卻。模擬使我們能夠通過在機器人上訓練避開許多這些問題，該機器人不會磨損，但也提供學習挑戰性任務所需的大量數據。同時，由于模擬可以比實時運行得快得多，因此迭代周期大大提高。

在模擬訓練中，最重要的挑戰是彌合模擬和現實世界之間的差距。為了解決這個問題， DeXtreme 使用了模擬器中設置的物理屬性的域隨機化：一次在超過十萬個模擬環境中按比例改變物體質量、摩擦水平和其他屬性。

這些隨機化的一個有趣的結果是，我們用各種不尋常的場景組合來訓練 AI ，這在現實世界中執行任務時轉化為魯棒性。例如，我們在真實機器人上進行的大多數實驗都是由于電路板上的連接松動導致拇指出現輕微故障。不管怎樣，我們對政策從模擬轉移到現實世界感到非常驚訝。