AI 系統如何理解可能發生的事故與物理上不可能發生的事件之間的區別?還是計劃在邊緣場景中進行跨人類、物體和環境的多步驟交互?這些都是物理智能的核心問題,是機器人如何操控世界、 自動駕駛汽車 如何瞬間做出決策以及虛擬智能體如何模擬現實的基礎。
NVIDIA Cosmos Reason 是 物理 AI 的世界基礎模型 (WFM) ,構建該模型不僅是為了觀察事物,也是為了推理。它經過訓練,能夠理解空間、時間和物理特性,可以 批判合成數據 并構建精心策劃的數據集,以訓練機器人和自動駕駛汽車等具身 AI 系統,使其行動更加逼真。本文將介紹 Cosmos Reason 的開發方式、使用位置,以及如何使用公開可用的模型檢查點和腳本來運行物理 AI 任務的模型。
回顧:適用于物理 AI 的 NVIDIA Cosmos 世界基礎模型
Cosmos 是一個 WFM 開發平臺。Cosmos WFM 是預訓練的多模態模型,旨在理解世界狀態并將其生成為視頻,以復制物理世界來訓練物理 AI 系統。
這些模型從超過 2000 萬個小時的機器人和駕駛數據中學習,使他們能夠預測環境隨時間變化的情況,或根據新的情況調整場景。借助 NVIDIA Cosmos Predict,開發者可以根據文本、圖像或視頻生成未來幀。借助 NVIDIA Cosmos Transfer,他們可以重新照亮或改變視頻中的環境,大規模開發多樣化的物理感知訓練數據。Cosmos 還提供用于整理數據、對數據進行標記化以及針對特定機器人或自主系統或下游任務后訓練模型的工具。
Cosmos 獲取可擴展機器人訓練數據的原因
Cosmos Reason 在 NVIDIA GTC 2025 上首次亮相,現已可用于改變合成數據的生成和整理方式,以用于訓練物理 AI 系統。它是一個開放的時空感知推理模型,可解釋視覺輸入,在提供的文本提示的上下文中分析這些輸入,運行 chain-of-thought 推理來獎勵響應,并生成最佳決策或描述。

Cosmos 內部原因?
Cosmos Reason 使用監督式微調 (Supervised Fine-Tuning, SFT) 和強化學習構建,將多模態感知和現實世界決策聯系起來:
- 物理 AI SFT :專注于現實世界的推理。使用精心策劃的物理交互數據集,學習物體 affordances (例如“a pan conducts heat”) 、動作鏈 (多步驟計劃) 和空間可行性 (例如“一個人無法穿過墻壁”) 。
- 針對具身決策的強化學習 :Cosmos Reason 中的長思維鏈推理能力支持在較小的訓練規模下進行訓練,并推廣到難以進行的測試場景。可驗證的 Physical AI 獎勵(如“arrow-of-time”)支持在無需人工標注的情況下學習世界動態。
從常識上測試 Cosmos Reason
Cosmos Reason 擅長使用視頻和文本來理解現實世界的物理情況,例如物體和人在動態環境中的交互方式。在 BridgeData V2、RoboVQA 和 Agibot 等基準測試中進行評估后,該模型表現出了強大的常識推理和情境感知能力。
物理 AI 任務的微調可將基礎視覺語言模型的 性能提升 10% 以上,而強化學習又增加了 5% 的性能提升。Cosmos Reason 在關鍵基準測試中平均達到 65.7 分,為機器人、自動駕駛汽車和具身智能體中的 AI 系統設定了很高的標準。
仍有改進空間:對特定任務的高質量精選數據進行后訓練和持續強化學習可以進一步提高 Cosmos Reason 的性能。
Common Sense | BridgeData V2 | RoboVQA | Agibot | HoloAssist | AV | RoboFail | Avg. |
56.2 | 73.5% | 86.8 | 54.2 | 60 | 67 | 62.0 | 65.7 |
如何使用 Cosmos 推理?
開發者可以從 Hugging Face 下載模型檢查點,并從 GitHub 獲取推理腳本和后訓練。
該模型以 604X480 等低分辨率接收視頻輸入,并提供明確開發者意圖 (例如問題或說明) 的文本提示,指導模型進行推理并做出相應回應。開發者還可以使用 Prompt Upsampler 模型來改進文本提示。
Cosmos WFM(包括 Cosmos Reason )經過優化,可在 NVIDIA AI 上實現出色性能。為了運行模型,開發者可以設置 Docker 環境或在自己的環境中運行。
對于更大型的工業工作負載和運行視覺 AI 流水線,開發者可以在 NVIDIA DGX 云上使用 NVIDIA Blackwell GB200 的強大功能,并使用推理腳本在 NVIDIA Hopper H100 或 NVIDIA Ampere A100 GPU 上運行加速推理。
Cosmos WFMs 支持可擴展的 合成數據生成流程 ,有助于以比傳統方法更高的效率和覆蓋范圍訓練機器人系統。
Cosmos Reason 為 Cosmos Predict 生成多樣化、逼真的提示,并使用基于文本的控件從視頻中篩選高質量的合成數據。它們共同為 NVIDIA Isaac GR00T Dreams 等工作流提供支持,以大規模生成物理精準的運動數據。
Cosmos 與 NVIDIA Omniverse 集成,可實現高保真模擬,簡化了從數據生成到部署的整個循環,加速機器人開發,突破現實世界數據的限制。
開始使用?
從 HuggingFace 下載模型,開始試驗模型檢查點。
訪問 GitHub 上的推理和 后訓練腳本 ,根據您自己的數據進行自定義。
探索 Cosmos 文檔 ,了解深度教程、實現詳情和實際用例。
觀看 NVIDIA 創始人兼首席執行官 Jensen Huang 的 COMPUTEX 主題演講以及 NVIDIA GTC 臺北 2025 會議。
請觀看我們即將于 5 月 28 日 (星期三) 上午 11 點 (PDT) 舉行的 OpenUSD Insiders 直播 ,回顧 Cosmos 原因發布以及臺北國際電腦展覽會 GTC 上發布的其他熱門物理 AI 公告。
訂閱 NVIDIA 新聞 ,并 在 Discord 和 YouTube 上關注 NVIDIA Omniverse ,隨時了解最新動態。
- 訪問我們的 Omniverse 開發者頁面 , 獲取入門所需的所有基礎知識
- 訪問一系列 OpenUSD 資源,包括新的自定進度學習 OpenUSD 培訓課程
- 加入 Omniverse 開發者社區
開始使用 developer starter kits , 快速開發和增強您自己的應用和服務 。
?