• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 模型/庫/框架

    使用 NVIDIA Cosmos Predict-2 構建自定義物理人工智能基礎模型

    構建更智能的機器人和自動駕駛汽車 (AV) 始于能夠理解現實世界動態的物理 AI 模型。這些模型發揮著兩個關鍵作用:加速合成數據生成 (SDG) ,幫助自主機器了解現實世界的物理特性和交互(包括罕見的邊緣案例),以及作為基礎模型,可針對專門任務進行后訓練或適應不同的輸出類型。

    Cosmos Predict-1 正是為此而打造,能夠生成逼真的物理感知型未來世界狀態。

    現在,全新 Cosmos Predict-2 在速度、視覺質量和自定義方面進行了重大升級。在本文中,您將了解該模型,以及如何針對特定領域的用例對其進行后期訓練。

    Cosmos Predict-2

    Cosmos Predict-2 是一款性能出色的世界基礎模型,經過架構優化,可提高速度和可擴展性,并跨用例和硬件平臺提供分辨率和幀速率靈活性。有兩個模型變體針對任務復雜性進行了優化:

    • Cosmos Predict-2 2B:與 Predict-1 相比,提供更快的推理速度和更低的內存占用率,非常適合原型設計、低延遲應用程序和邊緣部署。
    • Cosmos Predict-2 14B:專為需要復雜場景理解、擴展時間一致性和提示精度的高保真世界建模任務而設計。

    開發者可以首先使用文本轉圖像模型生成預覽,然后對 video2world 模型進行調整,以生成一致、物理精準的視頻世界狀態。這加速了迭代提示和場景設計。

    GIF showing robot arm pouring a beverage into a glass.
    圖 1。生成的視頻可在對象交互期間保持物理準確性
    GIF of a car driving down a street with parked vehicles and a visible Stop sign near a curve.
    圖 2。增強文本依從性和常識,例如在交叉路口設置 stop sign

    Cosmos Predict-2 即將提供多分辨率和多幀速率選項,詳情如下:

    • 分辨率:支持 704p (~ 720p) 和 480p。在不需要高分辨率時,480p 選項可提供更快的吞吐量。
    • 幀速率:10 fps 和 16 fps 現已推出,24 fps 支持即將推出,非常適合 10 Hz 模擬和 AV 訓練流程。

    推理和性能優化

    Cosmos Predict-2 專為在各種硬件和用例中進行快速、靈活的推理而設計。

    對于快速原型設計或低延遲應用程序,2B 模型變體可提供快速性能,在 NVIDIA GPU(例如 NVIDIA GB200 NVL72NVIDIA DGX B200NVIDIA RTX PRO 6000)上在 5 秒內生成圖像預覽。對于需要更高保真度和時間一致性的更復雜任務,14B 版本可提高質量,同時在 GB200 和 B200 系統上實現快速周轉。

    有關完整的設置說明,請訪問 NVIDIA-cosmos/cosmos-predict2 GitHub 存儲庫。

    用于下游基礎模型的后訓練 Cosmos 模型

    開發者可以對 Cosmos Predict-2 進行后訓練,使其專注于機器人、AVs 和工業自動化等應用。本節將詳細介紹如何使用 GR00T-Dreams 藍圖作為案例研究,對機器人、AVs 和工業應用的模型進行后訓練。它還詳細介紹了確保最佳性能的評估方法。

    按照本節中的步驟對模型進行后訓練,并為采摘蘋果的示例任務生成自定義合成訓練數據

    領域 特定于硬件的操作 示例應用
    機器人 指令控制、對象操作 調整robot arm來采摘具有不同stem強度的蘋果
    自動駕駛汽車 多視圖生成、邊緣案例模擬 通過 lidar/攝像頭同步模擬雨天高速公路駕駛
    工業 受動作影響的工作流程 傳送帶機器人的預測性維護
    愿景 攝像頭姿態調節 來自單個圖像的 3D-consistent 視頻

    表 1。Cosmos Predict-2 后訓練用例,重點介紹機器人、自動駕駛汽車、工業自動化和視覺領域中特定于硬件的操作和示例應用

    第 1 步:準備數據

    收集約 100 小時的遠程操作視頻。使用 Data Curator 分割片段。確保數據反映您的設置(機器人模型、照明和物體類型),并且是文本和視覺配對。

    對于描述,開發者可以使用任何視覺語言模型,包括 Cosmos Reason (詳情請參閱第 4 步)。

    第 2 步:后訓練模型

    使用精選的視頻 – 文本對,針對您的特定任務和環境對 Cosmos Predict-2 進行后訓練。使用 NVIDIA-cosmos/cosmos-predict2 GitHub 存儲庫中的后訓練腳本。

    第 3 步:生成合成場景

    為模型提示“Pick up the bruised apple under low light”(弱光下撿起受傷的蘋果)等文本。您還可以使用初始圖像提示模型創建特定領域的“dream”視頻。

    第 4 步:驗證物理準確性

    Cosmos Reason是一個開放的、具有時空感知的推理模型,可通過文本提示解釋視覺輸入,執行思維鏈推理,并生成最佳文本決策或描述。它有助于評估生成的數據。在本示例中,它會批判生成的數據或“dreams”。例如:

    • 機器人能正確抓握蘋果嗎?
    • 關節角度是否在極限范圍內?
    • 是否存在物體碰撞或運動偽影?
    Diagram showing a workflow where user video data is curated, Cosmos Predict-2 is post-trained using scripts, evaluated, and refined through additional manual or synthetic data to specialized build robotics, vision, and AV datasets.
    圖 3。使用 Cosmos Predict-2 的后訓練工作流

    后訓練、生成和驗證循環可迭代提高合成數據質量和下游模型性能。

    開發者還可以使用 Cosmos Transfer,根據在 NVIDIA Omniverse 中創建的結構化輸入或仿真,添加不同的環境或照明條件等,從而擴展其數據集。了解有關使用 Cosmos Transfer 實現合成數據集增強的更多信息。

    NVIDIA Research 如何使用 Cosmos Predict

    NVIDIA Research 正在利用 Cosmos Predict-1 開發先進的視頻和 3D 應用。DiffusionRenderer 方法集成到 Cosmos 中,可將高質量合成數據與現實世界的視頻相結合,以提高長視頻序列中的照明真實感、幾何圖形和材質準確性,為視頻照明控制、隨機化和編輯提供了一個通用框架。

    A GIF showing cars driving on a dark highway, which is changed to bright light like daytime, making the training video clearer and more useful.
    圖 4。DiffusionRenderer 由 Cosmos Predict-1 提供支持,可將黑暗的視頻轉換為明亮清晰的視頻,以幫助更好地訓練自動駕駛機器

    Difix3D+ 是一種一步法擴散模型,可增強 NeRF 和 3DGS 工作流中的 3D 重建和新穎視圖合成。它與 Cosmos Predict-1 集成,可提高時間一致性、減少閃爍并銳化細節,從而解決高幀率渲染中的關鍵挑戰。

    NVIDIA Research 還基于 Cosmos Transfer 和 Cosmos Predict-1 構建了用于自動駕駛開發的合成數據生成流程 (稱為 Cosmos-Drive-Dreams) 。這兩種模型根據 HDMaps、LiDARdepth 和文本提示生成不同的駕駛視頻,在不同的條件下實現逼真的場景,并可以從單視圖擴展到多視圖一致的視頻。

    Cosmos Predict-2 入門

    Cosmos Predict-2 標志著為機器人、視覺和自主系統生成物理感知型高保真合成數據的重大飛躍。憑借更快的推理速度、可擴展的性能以及靈活的分辨率和幀速率選項,它能夠適應不同的領域和硬件平臺。

    它與 Cosmos 系列中的其他世界基礎模型 (包括用于物理 AI 推理的 Cosmos Reason用于增強的 Cosmos Transfer) 搭配使用,實現了一個完整的循環 — 后訓練、生成、驗證和優化。這加快了特定領域模型和更智能、更安全的物理 AI 系統的開發。

    在 GitHub 上試用 Cosmos Predict-2。它包括用于運行 Hugging Face 開放模型檢查點的推理和后訓練腳本。有關更多信息,請訪問 NVIDIA-cosmos GitHub 存儲庫。

    Hugging Face 上關注 NVIDIA,獲取有關新開放模型發布的通知。

    觀看 NVIDIA 創始人兼首席執行官 Jensen Huang 在 VivaTech 2025 上發表的 NVIDIA GTC 巴黎主題演講,并探索 GTC 巴黎會議

    NVIDIA Cosmos 和 NVIDIA Omniverse 正在推動物理 AI 的發展。訂閱 NVIDIA 新聞,及時了解最新動態,并與 Omniverse 開發者社區建立聯系,觀看有關領先物理 AI 進展的直播

    開始使用 Omniverse 開發者入門套件快速開發和增強您自己的應用和服務

    ?

    0

    標簽

    人人超碰97caoporen国产