訓練用于為機器人和自動駕駛汽車等自主機器提供動力支持的 物理 AI 模型 需要大量數據。獲取大量不同的訓練數據可能十分困難、耗時且昂貴。由于隱私限制或問題,數據通常會受到限制,或者只是在新用例中可能不存在。此外,可用數據可能不適用于所有潛在情況,從而限制了模型準確預測和應對各種場景的能力。
合成數據由在 NVIDIA Omniverse 中構建的數字孿生仿真生成,現在已通過 NVIDIA Cosmos 進行升級,能夠彌補真實數據中的差距,使開發者能夠啟動物理 AI 模型訓練。您可以通過改變許多不同的參數 (例如布局、資產位置、位置、顏色、物體大小和照明條件) 來快速生成大量不同的數據集。然后,可以使用這些數據來幫助創建廣義模型。
為幫助您構建由生成式 AI 提供支持的合成數據生成工作流和工作流,請查看“使用生成式 AI 參考工作流生成合成數據”。
利用生成式 AI 加速數據生成流程
在訓練感知 AI 模型時,實現物理精度對于彌合仿真到現實領域之間的差距至關重要。典型的合成數據生成 (Synthetic Data Generation, SDG) 流程首先是在虛擬環境中精心重建對象,然后準確復制真實世界對應對象的材質、紋理和其他屬性。
構建好初始 3D 場景后,開發者會使用域隨機化技術來系統化地改變光照、顏色和紋理等方面。這種隨機化會生成一組不同的帶標注的圖像,從而增強模型的泛化能力。流程進行迭代,不斷優化合成數據并訓練模型,直到達到所需的關鍵性能指標 (KPI)。
盡管傳統的 SDG 方法非常有效,但從場景構建到參數隨機化的許多步驟仍然需要手動完成,而且非常耗時。生成式 AI 提供了一個強大的解決方案來顯著簡化這一過程。
Edify 和 SDXML 等高級擴散模型可以根據文本或圖像描述快速生成高質量的視覺內容。如果配備了合適的護欄,這些模型便能夠出色地通過編程方式更改圖像參數,包括布局、素材位置、配色方案、物體尺寸和照明條件,從而大幅減少手動操作。
此外,生成式 AI 無需修改整個 3D 場景即可實現高效的圖像增強。借助簡單的基于文本的提示,開發者可以快速添加逼真的細節 (如表面銹蝕) 或應用選擇性模糊效果。這種方法可顯著加速各種數據集的創建。
為說明這一點,圖 1 展示了如何使用簡單的文本提示以四種不同的方式增強單個基礎圖像。傳統上,技術美工需要數小時才能實施此類修改并重新生成新圖像。生成式 AI 可在極短時間內完成此任務,從而顯著提高工作效率和數據集的多樣性。

提示 1
白色平鋪油地板綠色閃亮的新平衡叉車木托盤淺色松木,軟木垃圾桶
提示 2
深色裂縫臟混凝土 地板黃色平衡重叉車 木托盤淺色松 木軟木黑色垃圾桶
提示 3
開裂的混凝土地板 白色平衡重叉車 木 托盤淺色松木 , 軟木垃圾桶
提示 4
綠色切枝油地板藍色生銹平衡重叉車木托盤淺色松木,軟木垃圾桶
參考工作流概述?
該參考工作流適用于在機器人領域訓練計算機視覺模型以及在智能空間中訓練計算機視覺應用程序的開發者。下節將介紹參考工作流的關鍵步驟及其核心技術。

- 場景創建: 以全面的 3D 倉庫場景為基礎,整合貨架、箱子和托盤等基本資產。這種基礎環境可以使用 3D NIM 微服務動態增強,從而無縫添加不同的對象,并集成 360 ° HDRI 背景。
- 域隨機化: 開發者可以利用 USD Code NIM (一種專用于 OpenUSD 的大語言模型(LLM))執行域隨機化。這款功能強大的工具不僅可以回答與 OpenUSD 相關的查詢,還可以生成 USD Python 代碼來更改場景,從而簡化在 Omniverse Replicator 中以編程方式更改各種場景參數的過程。
- 數據生成: 第三步是導出帶標注的圖像的初始集合。Replicator 提供各種內置標注器,包括 2D 邊界框、語義分割、深度圖、表面法線等。輸出格式 (例如邊界框或分割遮罩) 的選擇取決于特定的模型要求或用例。可以使用各種寫入器導出數據:用于標準輸出的 BasicWriter、用于 KITTI 格式的 KittiWriter 或用于 COCO 格式的自定義寫入器。
- 數據增強: 在最后階段,開發者可以利用生成式 AI 模型 (例如 SDXL 和 Edify with ComfyUI),這是一個用于構建和執行擴散模型流程的通用開源平臺。
此工作流程中的一些核心技術包括:
- Edify 360 NIM : Shutterstock 針對生成 360 HDRI (High Dynamic Range Image) 的生成式 3D 服務搶先體驗預覽。在 NVIDIA Edify 上使用 Shutterstock 的許可創意庫進行訓練。
- Edify 3D NIM: 用于生成 3D 素材的 Shutterstock 生成式 3D 服務, 用于為場景裝飾添加其他 3D 對象 。使用 Shutterstock 的許可創意庫在 NVIDIA Edify 上進行訓練。
- USD Code: 回答 OpenUSD 知識查詢并生成 USD Python 代碼的語言模型。
- USD Search?:使用基于文本或圖像的輸入對 OpenUSD 數據、3D 模型、圖像和資產進行 AI 驅動的搜索。
- 圖像生成模型和 ComfyUI :快速生成式文本轉圖像模型,可在單個網絡評估中通過文本提示合成逼真的圖像,并具有圖形和節點接口,適用于高級開發者。
- Omniverse Replicator:用于開發自定義 SDG 工作流和服務的框架,并作為擴展集成到 NVIDIA Isaac Sim 中 。
使用 NVIDIA Cosmos 世界基礎模型可以進一步成倍增加數據集。開發者可以從 NVIDIA Omniverse 輸出圖像或視頻渲染,然后使用模型將其從 3D 升級到真實,從而幫助生成規模呈指數級增長的數據集。
使用此工作流程指南,您將能夠開發自定義 SDG 工作流,這些工作流可用于訓練從檢測到分類和分割的各種類型的感知 AI 模型。通過實施此參考工作流,您或您的客戶將受益于:
- 加速 AI 模型訓練 :克服數據缺口,加速 AI 模型開發,同時降低獲取和標記訓練文本、視覺和物理 AI 模型所需數據的總成本。
- 隱私和安全: 通過生成代表現實世界的各種合成數據集,解決隱私問題并減少偏見。
- 提高模型準確性: 使用各種數據(包括罕見但關鍵的角落案例)進行訓練,從而創建高度準確的通用 AI 模型,而這些案例在其他情況下是無法收集的。
- 可擴展性: 通過自動化流水線以程序化方式生成數據,該流水線可根據制造、汽車、機器人等領域的用例進行擴展。
開始使用生成式 AI 參考工作流逐步生成合成數據 。
如需及時了解最新資訊,請 訂閱我們的 時事通訊 , 并在 YouTube 、 Discord 和 NVIDIA 開發者論壇上關注 NVIDIA Robotics。