使用 NVIDIA Cosmos Predict-2 構建自定義物理人工智能基礎模型

構建更智能的機器人和自動駕駛汽車 (AV) 始于能夠理解現實世界動態的物理 AI 模型。這些模型發揮著兩個關鍵作用：加速合成數據生成 (SDG) ，幫助自主機器了解現實世界的物理特性和交互（包括罕見的邊緣案例），以及作為基礎模型，可針對專門任務進行后訓練或適應不同的輸出類型。

Cosmos Predict-1 正是為此而打造，能夠生成逼真的物理感知型未來世界狀態。

現在，全新 Cosmos Predict-2 在速度、視覺質量和自定義方面進行了重大升級。在本文中，您將了解該模型，以及如何針對特定領域的用例對其進行后期訓練。

Cosmos Predict-2

Cosmos Predict-2 是一款性能出色的世界基礎模型，經過架構優化，可提高速度和可擴展性，并跨用例和硬件平臺提供分辨率和幀速率靈活性。有兩個模型變體針對任務復雜性進行了優化：

Cosmos Predict-2 2B：與 Predict-1 相比，提供更快的推理速度和更低的內存占用率，非常適合原型設計、低延遲應用程序和邊緣部署。
Cosmos Predict-2 14B：專為需要復雜場景理解、擴展時間一致性和提示精度的高保真世界建模任務而設計。

開發者可以首先使用文本轉圖像模型生成預覽，然后對 video2world 模型進行調整，以生成一致、物理精準的視頻世界狀態。這加速了迭代提示和場景設計。

GIF showing robot arm pouring a beverage into a glass. — *圖 1。生成的視頻可在對象交互期間保持物理準確性*

GIF of a car driving down a street with parked vehicles and a visible Stop sign near a curve. — 圖 2。增強文本依從性和常識，例如在交叉路口設置 stop sign

Cosmos Predict-2 即將提供多分辨率和多幀速率選項，詳情如下：

分辨率：支持 704p (~ 720p) 和 480p。在不需要高分辨率時，480p 選項可提供更快的吞吐量。
幀速率：10 fps 和 16 fps 現已推出，24 fps 支持即將推出，非常適合 10 Hz 模擬和 AV 訓練流程。

推理和性能優化

Cosmos Predict-2 專為在各種硬件和用例中進行快速、靈活的推理而設計。

對于快速原型設計或低延遲應用程序，2B 模型變體可提供快速性能，在 NVIDIA GPU（例如 NVIDIA GB200 NVL72、NVIDIA DGX B200 和 NVIDIA RTX PRO 6000）上在 5 秒內生成圖像預覽。對于需要更高保真度和時間一致性的更復雜任務，14B 版本可提高質量，同時在 GB200 和 B200 系統上實現快速周轉。

有關完整的設置說明，請訪問 NVIDIA-cosmos/cosmos-predict2 GitHub 存儲庫。

用于下游基礎模型的后訓練 Cosmos 模型

開發者可以對 Cosmos Predict-2 進行后訓練，使其專注于機器人、AVs 和工業自動化等應用。本節將詳細介紹如何使用 GR00T-Dreams 藍圖作為案例研究，對機器人、AVs 和工業應用的模型進行后訓練。它還詳細介紹了確保最佳性能的評估方法。

按照本節中的步驟對模型進行后訓練，并為采摘蘋果的示例任務生成自定義合成訓練數據。

領域	特定于硬件的操作	示例應用
機器人	指令控制、對象操作	調整robot arm來采摘具有不同stem強度的蘋果
自動駕駛汽車	多視圖生成、邊緣案例模擬	通過 lidar/攝像頭同步模擬雨天高速公路駕駛
工業	受動作影響的工作流程	傳送帶機器人的預測性維護
愿景	攝像頭姿態調節	來自單個圖像的 3D-consistent 視頻

表 1。Cosmos Predict-2 后訓練用例，重點介紹機器人、自動駕駛汽車、工業自動化和視覺領域中特定于硬件的操作和示例應用

第 1 步：準備數據

收集約 100 小時的遠程操作視頻。使用 Data Curator 分割片段。確保數據反映您的設置（機器人模型、照明和物體類型），并且是文本和視覺配對。

對于描述，開發者可以使用任何視覺語言模型，包括 Cosmos Reason (詳情請參閱第 4 步)。

第 2 步：后訓練模型

使用精選的視頻 – 文本對，針對您的特定任務和環境對 Cosmos Predict-2 進行后訓練。使用 NVIDIA-cosmos/cosmos-predict2 GitHub 存儲庫中的后訓練腳本。

第 3 步：生成合成場景

為模型提示“Pick up the bruised apple under low light”（弱光下撿起受傷的蘋果）等文本。您還可以使用初始圖像提示模型創建特定領域的“dream”視頻。

第 4 步：驗證物理準確性

Cosmos Reason是一個開放的、具有時空感知的推理模型，可通過文本提示解釋視覺輸入，執行思維鏈推理，并生成最佳文本決策或描述。它有助于評估生成的數據。在本示例中，它會批判生成的數據或“dreams”。例如：

機器人能正確抓握蘋果嗎？
關節角度是否在極限范圍內？
是否存在物體碰撞或運動偽影？

Diagram showing a workflow where user video data is curated, Cosmos Predict-2 is post-trained using scripts, evaluated, and refined through additional manual or synthetic data to specialized build robotics, vision, and AV datasets. — *圖 3。使用 Cosmos Predict-2 的后訓練工作流*

后訓練、生成和驗證循環可迭代提高合成數據質量和下游模型性能。

開發者還可以使用 Cosmos Transfer，根據在 NVIDIA Omniverse 中創建的結構化輸入或仿真，添加不同的環境或照明條件等，從而擴展其數據集。了解有關使用 Cosmos Transfer 實現合成數據集增強的更多信息。

NVIDIA Research 如何使用 Cosmos Predict

NVIDIA Research 正在利用 Cosmos Predict-1 開發先進的視頻和 3D 應用。DiffusionRenderer 方法集成到 Cosmos 中，可將高質量合成數據與現實世界的視頻相結合，以提高長視頻序列中的照明真實感、幾何圖形和材質準確性，為視頻照明控制、隨機化和編輯提供了一個通用框架。

A GIF showing cars driving on a dark highway, which is changed to bright light like daytime, making the training video clearer and more useful. — 圖 4。DiffusionRenderer 由 Cosmos Predict-1 提供支持，可將黑暗的視頻轉換為明亮清晰的視頻，以幫助更好地訓練自動駕駛機器

Difix3D+ 是一種一步法擴散模型，可增強 NeRF 和 3DGS 工作流中的 3D 重建和新穎視圖合成。它與 Cosmos Predict-1 集成，可提高時間一致性、減少閃爍并銳化細節，從而解決高幀率渲染中的關鍵挑戰。

NVIDIA Research 還基于 Cosmos Transfer 和 Cosmos Predict-1 構建了用于自動駕駛開發的合成數據生成流程 (稱為 Cosmos-Drive-Dreams) 。這兩種模型根據 HDMaps、LiDARdepth 和文本提示生成不同的駕駛視頻，在不同的條件下實現逼真的場景，并可以從單視圖擴展到多視圖一致的視頻。

Cosmos Predict-2 入門

Cosmos Predict-2 標志著為機器人、視覺和自主系統生成物理感知型高保真合成數據的重大飛躍。憑借更快的推理速度、可擴展的性能以及靈活的分辨率和幀速率選項，它能夠適應不同的領域和硬件平臺。

它與 Cosmos 系列中的其他世界基礎模型 (包括用于物理 AI 推理的 Cosmos Reason 和用于增強的 Cosmos Transfer) 搭配使用，實現了一個完整的循環 — 后訓練、生成、驗證和優化。這加快了特定領域模型和更智能、更安全的物理 AI 系統的開發。

在 GitHub 上試用 Cosmos Predict-2。它包括用于運行 Hugging Face 開放模型檢查點的推理和后訓練腳本。有關更多信息，請訪問 NVIDIA-cosmos GitHub 存儲庫。

在 Hugging Face 上關注 NVIDIA，獲取有關新開放模型發布的通知。

觀看 NVIDIA 創始人兼首席執行官 Jensen Huang 在 VivaTech 2025 上發表的 NVIDIA GTC 巴黎主題演講，并探索 GTC 巴黎會議。

NVIDIA Cosmos 和 NVIDIA Omniverse 正在推動物理 AI 的發展。訂閱 NVIDIA 新聞，及時了解最新動態，并與 Omniverse 開發者社區建立聯系，觀看有關領先物理 AI 進展的直播。

開始使用 Omniverse 開發者入門套件，快速開發和增強您自己的應用和服務。

使用 NVIDIA Cosmos Predict-2 構建自定義物理人工智能基礎模型