使用適用于物理 AI 的 NVIDIA NeMo Agent 工具包擴展逼真的機器人仿真

物理 AI 使自主系統 (例如機器人、自動駕駛汽車和智能空間) 能夠在現實世界中智能地感知、理解和行動。但是，有效訓練這些復雜的系統需要大量多樣化的數據集。僅僅依靠現實世界的數據采集通常成本高昂、耗時，并且受到安全性和實際限制的限制。

為了克服這一問題，開發者和機器人專家正在采用合成數據生成 (SDG) ，在可控、可擴展的環境中快速創建多樣化的逼真場景。然而，當前的 SDG 通常是手動的，工具有限，無法實現完全自動化。為了真正實現加速和擴展，連接推理模型與 AI 通用智能 (AGI) 模型的人工通用智能體至關重要。這些多智能體系統使開發者能夠通過專門的 AI 智能體網絡來處理復雜的任務，從而提高合成數據質量并加速物理 AI 開發。

這篇博客文章展示了使用生成式 AI 來系統化生成高質量合成數據集的多智能體工作流，從而加速機器人訓練和部署。它使用 NVIDIA NeMo Agent 工具套件、NVIDIA Omniverse、OpenUSD、NVIDIA Cosmos 和 NVIDIA NIM 微服務構建自動化管道，用于增強 3D 環境、增強真實感并擴展用于機器人策略訓練的合成數據。

A grid of 25 video thumbnails transitions from black and white to bright, pastel colors, then to realistic colors. — 視頻 1。NVIDIA NeMo Agent 工具套件使用多智能體工作流，從 3D 環境增強 (深度和分割輸入) 到合成數據生成 (Cosmos 輸出)

多智能體 SDG 工作流程概述

本節概述完全自動化的 SDG 工作流程，以及它如何解決機器人開發者面臨的關鍵挑戰。

為倉庫環境構建強大導航系統的機器人開發者可能會面臨默認仿真設置的限制，這些設置通常缺乏足夠的復雜性和多樣性來測試導航算法。為了增強算法的魯棒性和適應性，使用多樣化且逼真的場景擴展合成訓練環境至關重要。

但是，擴展此類環境通常需要 3D 工作流方面的深厚專業知識或高級提示技術，這給機器人開發者帶來了障礙。為了簡化這一過程并使機器人開發者能夠快速生成高質量的 SDG，我們展示了由多智能體系統驅動的自然語言驅動的全自動 SDG 生成和增強工作流。

下圖顯示了多 Agent 合成數據生成工作流程的核心組件。

A workflow diagram of a robotics developer using the Agent toolkit. — 圖 1。多智能體 SDG 工作流，展示不同類型的 agent 如何將文本提示處理為增強輸出

首先，機器人開發者首先通過一個提示來描述整個工作流程：

Please use planning to complete the following task. 

First, locate and open the sceneblox scene, it's in the /usd/Scene_Blox directory.
Once the scene is loaded, create an initial robot path from point (-18.222, -17.081) to point (-18.904, -26.693).

Next, search for warehouse-appropriate assets such as shipping crates, storage containers, and mobile trolleys.

Then place two of them in the scene as obstacles that the robot would need to navigate around.

After placing the obstacles, create a new robot path using the same start point (-18.222, -17.081) and end point (-18.904, -26.693) as the original path, but this time ensuring the robot avoids all the obstacles you've added.
Once both paths are set up, capture a video of the viewport showing the robot's navigation.

Finally, use cosmos transfer to enhance the captured video into a photorealistic rendering.
For the enhancement, create a detailed prompt that transforms the scene into a modern e-commerce fulfillment center with direct sunlight streaming through large windows and skylights, creating very bright natural lighting throughout the space. The polished concrete floors reflect the sunlight, tall metal shelving units are organized in rows, conveyor systems are visible, and packing stations are neatly arranged. The warehouse has clean white walls, organized inventory areas, and a professional daytime atmosphere. The final video should look like real footage from an e-commerce fulfillment warehouse during a sunny day.

這將激活一個由專業Agent組成的網絡，以協作方式執行所需的任務：

規劃智能體：解釋用戶的高級目標，將其分解為順序、可操作的步驟，并協調其他智能體以高效完成每個步驟。它調用 USD Search NIM、USD Code NIM 和 AI 理解智能體來處理環境變化，例如通過找到合適的 3D 資產并將其準確放置在場景中來添加障礙物。請參閱規劃智能體生成的以下分步操作。
真實感增強智能體：利用 NVIDIA Cosmos Transfer 微服務預覽等世界基礎模型 (WFMs) ，使用從 Omniverse 捕獲的真值模擬，提高視頻輸出和不同環境的真實感和視覺保真度，從而獲得高質量、穩健的訓練數據。
推理智能體：使用 NVIDIA Cosmos Reason 評估生成的視頻，以確定其是否適合導航策略訓練，提供關鍵評估并確保質量控制。
支持輔助智能體：簡化常規子任務，包括將場景加載到 Omniverse 中并捕獲視頻輸出以進行后續智能體處理，從而實現完全自動化的端到端工作流。

上述所有 AI 和輔助智能體均使用 Agent 工具包、多智能體編排和統一配置系統進行編排，以實現 SDG 工作流的自動化。通過 Agent 開源工具包，您可以深入了解多智能體系統、跟蹤成本和性能，并發現優化機會。

ChatUSD_Planning Locate and open the sceneblox scene in /usd/Scene_Blox. Create an initial robot path from (-18.222, -17.081) to (-18.904, -26.693). Locate warehouse assets (plastic bins, cardboard boxes, hand trucks). Add two obstacles for navigation. Create a second path avoiding obstacles. Capture viewport video of navigation. Enhance video into a photorealistic e-commerce fulfillment center.
------------------------------------
PLAN: Create robot navigation paths with obstacles and enhance the video to a photorealistic e-commerce fulfillment center
Step 1: Open the sceneblox scene
- Use `kit_open_stage` with path `/usd/Scene_Blox` to load the scene.

Step 2: Create initial robot path
- Use `robot_path {"start_point": [-18.222, -17.081], "end_point": [-18.904, -26.693]}` to generate the first navigation path.

Step 3: Locate warehouse-appropriate assets
- Use `ChatUSD_USDSearch` to search for assets such as plastic storage bins, cardboard shipping boxes, and wheeled hand trucks in the available directories.

Step 4: Place obstacles in the scene
- Use `create_obstacles_along_path {"assets": ["path_to_selected_asset_1", "path_to_selected_asset_2"]}` to add two obstacles along the robot's navigation path.

Step 5: Create alternate robot path avoiding obstacles
- Use `robot_path {"start_point": [-18.222, -17.081], "end_point": [-18.904, -26.693]}` to generate a new path that avoids the placed obstacles.

Step 6: Capture a video of the viewport showing robot navigation
- Use `kit_videocapture /temp/robot_navigation.mp4` to record the animation.

Step 7: Enhance the video to a photorealistic fulfillment center
- Use `cosmos_transfer` with the prompt: "Transform the video into a photorealistic modern e-commerce fulfillment center with direct sunlight streaming through large windows and skylights, polished concrete floors reflecting the sunlight, tall metal shelving units organized in rows, visible conveyor systems, neatly arranged packing stations, clean white walls, organized inventory areas, and a professional daytime atmosphere resembling real footage during a sunny day."

根據對初始用戶輸入提示的理解生成分步輸出。

技術預覽

本節概述實現完全自動化、自然語言驅動的多智能體 SDG 工作流的架構和關鍵組件。

Core Omniverse 示例擴展程序

omni.ai.aiq.sdg
此示例擴展程序構成了 SDG 工作流的支柱。它負責協調多智能體系統，該系統可在 Omniverse Kit 中解釋提示、修改場景并控制整個視頻生成工作流。其主要功能包括：
1. 即時解釋：使用規劃智能體將用戶目標分解為可操作的步驟。
2. 場景理解：查詢 USD 場景中的物體元數據、空間關系和布局。
3. 場景修改：使用 USD Code NIM 和 USD Search NIM 自動生成并運行 Python 代碼，以添加或移動物體、參考素材或觸發動畫。
4. 錄制控制：使用可選的任意輸出變量 (AOV) 支持從視窗截取渲染視頻。
5. 真實感和驗證：集成 Cosmos NIM (例如 cosmos_transfer、cosmos_reason) 以進行視頻增強和內容評估。
omni.ai.langchain.agent.headless
此無外設自動化系統擴展程序使整個 SDG 工作流能夠在非 GUI (無外設) 模式下運行，非常適合云部署和批量處理。它可以加載 USD 場景、執行代理、運行視頻合成并保存輸出，所有這些操作都可以通過 API 調用進行，而無需用戶交互。

系統架構

SDG 工作流程分為兩個協同工作的系統：

1. 場景定義系統該系統負責使用文本提示生成各種場景變化。這些提示旨在控制場景中物體的類型、位置和空間關系。

提示生成：根據可配置的規則或模板 (例如，“在機器人附近放置 3 個紅色杯子”) ，系統可以生成成百上千個獨特的提示。
提示管理：可以存儲、版本控制和重復使用Prompt，實現可重現的實驗。
API 集成：通過簡單的 HTTP API 調用將每個提示發送到視頻合成系統。

2. 視頻合成系統該系統會解讀每個提示并生成相應的視頻。它專為使用 NVIDIA NIM 框架在云端進行可擴展部署而構建。

USD 階段加載：打開預配置的基礎場景，其中包括機器人動畫和靜態環境。
多智能體執行：核心智能體解釋提示，使用 USD Search NIM 搜索匹配的資產，并使用腳本動作修改場景。
動畫和錄制：設置好場景后，robot 執行動畫，并將視口錄制為 MP4 視頻。
后處理：視頻可選擇使用 cosmos_transfer 進行增強，并通過 cosmos_reason 進行驗證，以確保質量和相關性。
輸出交付：將最終視頻存儲在云 bucket 或文件服務器中，并將 URL 返回至調用服務。

端到端工作流程

批量提示生成：場景系統生成描述不同對象配置和場景變化的提示。
提示提交：每個提示都會發送到合成 API。
場景組裝和錄制：系統構建場景、運行動畫并錄制視頻。
增強和驗證：應用Style transfer并評估結果。
輸出聚合：收集并返回視頻 links，用于訓練數據集組合。

設計目標

綜合來看，多智能體 SDG 工作流的設計具有以下目標：

可擴展性：從手動單場景創作轉向大規模自動化數據生成。
開發者效率：無需深度 3D 或 USD 腳本專業知識 – 開發者只需要用簡單的語言描述場景即可。
多樣性和覆蓋范圍：支持快速生成各種訓練場景，以提高robotics模型的泛化。
模塊化：輕松集成其他 agents、資產或下游服務。

后續步驟?

物理 AI 的快速發展取決于高效且可擴展的訓練數據。如圖所示，使用多智能體系統為克服傳統手動合成數據生成的局限性提供了強大的解決方案。通過自動創建高質量合成數據集，我們可以顯著加速機器人策略的訓練、驗證，并最終加速現實世界的部署。

深入了解助力實現這一目標的技術：

探索 Agent 工具包文檔，并開始使用 Agent 工作流。
開始使用 NVIDIA Omniverse 開發者資源和文檔構建由物理 AI 驅動的生成式應用。
了解 Universal Scene Description 在仿真方面的強大功能，并探索 NVIDIA Cosmos 世界基礎模型生成逼真合成數據的功能。
?

觀看 NVIDIA 創始人兼首席執行官 Jensen Huang 在 VivaTech 2025 上發表的 NVIDIA GTC 巴黎主題演講，并探索 GTC 巴黎會議。

通過訂閱 NVIDIA 新聞并在 Discord 和 YouTube 上關注 NVIDIA Omniverse，及時了解最新信息。

訪問我們的 Omniverse 開發者頁面，獲取入門所需的所有基礎知識
訪問一系列 OpenUSD 資源，包括新的 Learn OpenUSD 自定進度培訓課程
收聽即將推出的 OpenUSD Insiders 直播，并與 NVIDIA 開發者社區建立聯系

開始使用developer starter kits快速開發和增強您自己的應用和服務。

使用適用于物理 AI 的 NVIDIA NeMo Agent 工具包擴展逼真的機器人仿真

多智能體 SDG 工作流程概述

技術預覽

Core Omniverse 示例擴展程序

系統架構

端到端工作流程

設計目標

后續步驟?

相關資源

標簽

關于作者

使用適用于物理 AI 的 NVIDIA NeMo Agent 工具包擴展逼真的機器人仿真

多智能體 SDG 工作流程概述

技術預覽

Core Omniverse 示例擴展程序

系統架構

端到端工作流程

設計目標

后續步驟?

相關資源

標簽

關于作者

相關文章

利用 NVIDIA Cosmos Reason 整理合成數據集以訓練物理 AI 模型

NVIDIA Cosmos World 基礎模型平臺助力物理 AI 進步

相關文章

如何使用 NVIDIA NeMo Agent 工具套件開源庫構建自定義 AI 智能體

適用于有效 FP8 訓練的按張量和按塊擴展策略

出色的多模態 RAG：Llama 3.2 NeMo 檢索器嵌入模型如何提高工作流準確性

在 NVIDIA Jetson 和 RTX 上運行 Google DeepMind 的 Gemma 3n

提高嵌入模型準確性，實現定制化信息檢索