構建更智能的機器人和自動駕駛汽車 (AV) 始于能夠理解現實世界動態的物理 AI 模型。這些模型發揮著兩個關鍵作用:加速合成數據生成 (SDG) ,幫助自主機器了解現實世界的物理特性和交互(包括罕見的邊緣案例),以及作為基礎模型,可針對專門任務進行后訓練或適應不同的輸出類型。
Cosmos Predict-1 正是為此而打造,能夠生成逼真的物理感知型未來世界狀態。
現在,全新 Cosmos Predict-2 在速度、視覺質量和自定義方面進行了重大升級。在本文中,您將了解該模型,以及如何針對特定領域的用例對其進行后期訓練。
Cosmos Predict-2
Cosmos Predict-2 是一款性能出色的世界基礎模型,經過架構優化,可提高速度和可擴展性,并跨用例和硬件平臺提供分辨率和幀速率靈活性。有兩個模型變體針對任務復雜性進行了優化:
- Cosmos Predict-2 2B:與 Predict-1 相比,提供更快的推理速度和更低的內存占用率,非常適合原型設計、低延遲應用程序和邊緣部署。
- Cosmos Predict-2 14B:專為需要復雜場景理解、擴展時間一致性和提示精度的高保真世界建模任務而設計。
開發者可以首先使用文本轉圖像模型生成預覽,然后對 video2world 模型進行調整,以生成一致、物理精準的視頻世界狀態。這加速了迭代提示和場景設計。


Cosmos Predict-2 即將提供多分辨率和多幀速率選項,詳情如下:
- 分辨率:支持 704p (~ 720p) 和 480p。在不需要高分辨率時,480p 選項可提供更快的吞吐量。
- 幀速率:10 fps 和 16 fps 現已推出,24 fps 支持即將推出,非常適合 10 Hz 模擬和 AV 訓練流程。
推理和性能優化
Cosmos Predict-2 專為在各種硬件和用例中進行快速、靈活的推理而設計。
對于快速原型設計或低延遲應用程序,2B 模型變體可提供快速性能,在 NVIDIA GPU(例如 NVIDIA GB200 NVL72、NVIDIA DGX B200 和 NVIDIA RTX PRO 6000)上在 5 秒內生成圖像預覽。對于需要更高保真度和時間一致性的更復雜任務,14B 版本可提高質量,同時在 GB200 和 B200 系統上實現快速周轉。
有關完整的設置說明,請訪問 NVIDIA-cosmos/cosmos-predict2 GitHub 存儲庫。
用于下游基礎模型的后訓練 Cosmos 模型
開發者可以對 Cosmos Predict-2 進行后訓練,使其專注于機器人、AVs 和工業自動化等應用。本節將詳細介紹如何使用 GR00T-Dreams 藍圖作為案例研究,對機器人、AVs 和工業應用的模型進行后訓練。它還詳細介紹了確保最佳性能的評估方法。
按照本節中的步驟對模型進行后訓練,并為采摘蘋果的示例任務生成自定義合成訓練數據。
領域 | 特定于硬件的操作 | 示例應用 |
機器人 | 指令控制、對象操作 | 調整robot arm來采摘具有不同stem強度的蘋果 |
自動駕駛汽車 | 多視圖生成、邊緣案例模擬 | 通過 lidar/攝像頭同步模擬雨天高速公路駕駛 |
工業 | 受動作影響的工作流程 | 傳送帶機器人的預測性維護 |
愿景 | 攝像頭姿態調節 | 來自單個圖像的 3D-consistent 視頻 |
表 1。Cosmos Predict-2 后訓練用例,重點介紹機器人、自動駕駛汽車、工業自動化和視覺領域中特定于硬件的操作和示例應用
第 1 步:準備數據
收集約 100 小時的遠程操作視頻。使用 Data Curator 分割片段。確保數據反映您的設置(機器人模型、照明和物體類型),并且是文本和視覺配對。
對于描述,開發者可以使用任何視覺語言模型,包括 Cosmos Reason (詳情請參閱第 4 步)。
第 2 步:后訓練模型
使用精選的視頻 – 文本對,針對您的特定任務和環境對 Cosmos Predict-2 進行后訓練。使用 NVIDIA-cosmos/cosmos-predict2 GitHub 存儲庫中的后訓練腳本。
第 3 步:生成合成場景
為模型提示“Pick up the bruised apple under low light”(弱光下撿起受傷的蘋果)等文本。您還可以使用初始圖像提示模型創建特定領域的“dream”視頻。
第 4 步:驗證物理準確性
Cosmos Reason是一個開放的、具有時空感知的推理模型,可通過文本提示解釋視覺輸入,執行思維鏈推理,并生成最佳文本決策或描述。它有助于評估生成的數據。在本示例中,它會批判生成的數據或“dreams”。例如:
- 機器人能正確抓握蘋果嗎?
- 關節角度是否在極限范圍內?
- 是否存在物體碰撞或運動偽影?

后訓練、生成和驗證循環可迭代提高合成數據質量和下游模型性能。
開發者還可以使用 Cosmos Transfer,根據在 NVIDIA Omniverse 中創建的結構化輸入或仿真,添加不同的環境或照明條件等,從而擴展其數據集。了解有關使用 Cosmos Transfer 實現合成數據集增強的更多信息。
NVIDIA Research 如何使用 Cosmos Predict
NVIDIA Research 正在利用 Cosmos Predict-1 開發先進的視頻和 3D 應用。DiffusionRenderer 方法集成到 Cosmos 中,可將高質量合成數據與現實世界的視頻相結合,以提高長視頻序列中的照明真實感、幾何圖形和材質準確性,為視頻照明控制、隨機化和編輯提供了一個通用框架。

Difix3D+ 是一種一步法擴散模型,可增強 NeRF 和 3DGS 工作流中的 3D 重建和新穎視圖合成。它與 Cosmos Predict-1 集成,可提高時間一致性、減少閃爍并銳化細節,從而解決高幀率渲染中的關鍵挑戰。
NVIDIA Research 還基于 Cosmos Transfer 和 Cosmos Predict-1 構建了用于自動駕駛開發的合成數據生成流程 (稱為 Cosmos-Drive-Dreams) 。這兩種模型根據 HDMaps、LiDARdepth 和文本提示生成不同的駕駛視頻,在不同的條件下實現逼真的場景,并可以從單視圖擴展到多視圖一致的視頻。
Cosmos Predict-2 入門
Cosmos Predict-2 標志著為機器人、視覺和自主系統生成物理感知型高保真合成數據的重大飛躍。憑借更快的推理速度、可擴展的性能以及靈活的分辨率和幀速率選項,它能夠適應不同的領域和硬件平臺。
它與 Cosmos 系列中的其他世界基礎模型 (包括用于物理 AI 推理的 Cosmos Reason 和用于增強的 Cosmos Transfer) 搭配使用,實現了一個完整的循環 — 后訓練、生成、驗證和優化。這加快了特定領域模型和更智能、更安全的物理 AI 系統的開發。
在 GitHub 上試用 Cosmos Predict-2。它包括用于運行 Hugging Face 開放模型檢查點的推理和后訓練腳本。有關更多信息,請訪問 NVIDIA-cosmos GitHub 存儲庫。
在 Hugging Face 上關注 NVIDIA,獲取有關新開放模型發布的通知。
觀看 NVIDIA 創始人兼首席執行官 Jensen Huang 在 VivaTech 2025 上發表的 NVIDIA GTC 巴黎主題演講,并探索 GTC 巴黎會議。
NVIDIA Cosmos 和 NVIDIA Omniverse 正在推動物理 AI 的發展。訂閱 NVIDIA 新聞,及時了解最新動態,并與 Omniverse 開發者社區建立聯系,觀看有關領先物理 AI 進展的直播。
開始使用 Omniverse 開發者入門套件,快速開發和增強您自己的應用和服務。
?