• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 計算機視覺/視頻分析

    借助全新 NVIDIA Cosmos 世界基礎模型簡化端到端自動駕駛汽車開發

    隨著向為自動駕駛汽車 (AV) 提供動力支持的端到端規劃模型的轉變,人們對基于物理性質的高質量傳感器數據的需求也在不斷增加。這些模型必須大致了解多模態數據集,以及傳感器數據集、車輛軌跡和駕駛動作之間的關系,以幫助執行下游訓練和驗證任務。

    通過在自動駕駛領域調整和后訓練 NVIDIA Cosmos 世界基礎模型 (WFMs)(Predict、Transfer 和 Reason) ,開發者可以創建世界模型,以加速端到端自動駕駛訓練。這些模型用于本文中展示的合成數據生成 (SDG) ,以及閉環訓練和車載推理。

    在本文中,我們將介紹不同的后訓練方法。有很多方法可以讓 Cosmos 模型適應 AV 應用。我們討論的模型目前均可供開發者使用。

    在 Cosmos 上開發合成數據生成管道

    NVIDIA Research 使用 20,000 小時的駕駛數據對 Cosmos WFMs 進行了后訓練,為 AV 開發工作流程構建了一系列模型。在 CVPR 上發表的一篇論文中,研究人員詳細介紹了使用 Cosmos 模型生成的數據如何提高 AV 模型訓練的性能。

    自動駕駛汽車專用模型

    Cosmos WFM 可加速自動駕駛汽車訓練的 SDG,特別是通過使用基于 Cosmos-Transfer-1-7B-Sample-AV?和?Cosmos-Transfer-1-7B-Single2Multiview-Sample_AV 構建的樣本進行數據增強。Transfer 模型根據高清地圖、LIDAR 深度和文本提示生成不同的駕駛視頻,在不同條件下實現逼真的場景。它使用 3D 立方體、車道線、道路邊界和交通元素等結構化輸入,以確保精確的幾何感知控制。然后,多視圖模型將單視圖視頻擴展為多視圖一致的視頻。還可以對 Cosmos Transfer 進行后訓練以生成多視圖傳感器,開發者可以申請對自己的版本進行后訓練。

    第三個模型是在 Cosmos Reason 等推理模型上進行后訓練的視覺語言模型 (VLM) ,執行自動拒絕采樣以丟棄低質量或不切實際的輸出,確保生成的合成數據集具有高質量和逼真度。

    合成數據流水線

    結合使用時,這些模型會形成一個從文本提示和真實數據開始的工作流,并輸出基于物理性質的高保真多視圖視頻。

    多視圖生成有助于解決攝像頭損壞或遮擋等常見挑戰。通過生成多視圖視頻,開發者可以將壞相機中的視頻替換為好的視頻。它還支持使用dashcam數據,開發者可以模仿自己的AV開發平臺,將互聯網視頻轉化為數據。

    視頻 1。經過后訓練的 Cosmos 模型可將被遮擋的攝像頭視頻轉換為可用數據

    此工作流生成的合成視頻數據可以緩解長尾分布問題,并增強下游任務(如 3D 車道檢測、3D 物體檢測和駕駛策略學習)的泛化,尤其是在極端天氣和夜間條件等具有挑戰性的場景中。

    本周 CVPR 2025 的與會者可以在 Embodied AI 研討會上了解有關此項目的更多信息。

    開發者可以將這些數據用于自己的開發,現在 NVIDIA Physical AI 數據集上有 40,000 個 Cosmos 生成的剪輯。

    將 Cosmos 集成到現有的 AV 工作流中

    開源模擬器和自動駕駛汽車公司還基于自己的數據對 Cosmos 模型進行了后訓練,并已開始將這些模型集成到其工具鏈中,從而為全球自動駕駛汽車開發者開放加速合成數據生成流程。

    Cosmos Transfer

    Cosmos Transfer NIM 在 GTC 巴黎大會上發布,是 Cosmos Transfer 的容器化版本,用于加速推理。開發者可以使用 NIM 微服務快速對 Cosmos Transfer 進行后期訓練和部署,以加速其 SDG 工作流。

    視頻 2。Cosmos Transfer 為 CARLA 中的駕駛場景添加了新的天氣變化

    開源自動駕駛汽車模擬器 CARLA 將集成 Cosmos Transfer 以增強仿真輸出,從而為 15 萬名開發者社區提供基于物理性質的合成數據生成。通過集成,用戶可以使用簡單的提示從 CARLA 序列生成無盡的高質量視頻變體。此集成處于搶先體驗階段,并將根據社區反饋繼續開發。

    Mcity 是一家 AV 開發和測試領域的公私合作伙伴,正在將 Cosmos Transfer 集成到其占地 32 英畝的物理測試軌道的開源數字孿生中。使用 Mcity 進行研發的開發者可以快速擴展場景,添加新的天氣、光照和地形。

    圖 3。Cosmos Transfer 將 Michigan 州 Ann Arbor 的 Mcity 測試設施轉變為沙漠地形

    此外,Foretellix 和 Parallel Domain 等自動駕駛汽車工具鏈提供商已將 Cosmos Transfer 集成到其現有解決方案中。Voxel51 是一個視覺 AI 數據平臺,提供了用于管理、可視化和優化 Cosmos Transfer 生成的數據的工具包。因此,最終客戶可以輕松使用 Cosmos Transfer 的規模和可變性,而無需切換所需的工具鏈。

    最后,自動駕駛汽車軟件公司 Oxa 已將 Cosmos Transfer 集成到自己的開發工具鏈 Oxa Foundry 中。Cosmos Transfer 支持圖像和圖像序列轉換,可根據特定用例進行定制,快速輕松地進行合成。這項工作包括真實道路和越野數據的不同天氣 (雪、霧、雨) 和照明 (夜、黃昏、黎明) 轉換。

    Cosmos Predict

    Cosmos Predict-2 還在 GTC 巴黎大會上宣布推出,是我們迄今為止用于未來世界狀態預測的性能最佳的世界基礎模型,與 Predict-1 相比,該模型在視頻中具有更高的保真度、更少的幻覺,以及更好的文本、物體和運動控制。該模型很快將支持多種幀率和分辨率,并生成長達 30 秒的視頻,預測接下來會發生什么,特別是在圖像提示符指導下世界中的物理交互。

    Cosmos Predict-2 專為定制而構建;可以使用精選數據和 NVIDIA NeMo CuratorCosmos Reason 等工具,在特定環境、任務或攝像頭系統上輕松地對模型進行后訓練。此外,Cosmos Predict-2 基于 Cosmos-Predict-7B-Single2Multiview-Sample_AV 中的 AV 數據進行了預訓練,從而加快了 AV 域的后訓練速度。

    自動駕駛卡車公司 Plus 使用大量真實駕駛數據對 Cosmos Predict-1 進行了后訓練,以創建與卡車攝像頭拍攝的實際視頻保真度相匹配的多視圖視頻。然后,這些合成多視圖視頻可用于生成邊緣案例,以嚴格測試和驗證自動駕駛卡車系統。Plus 還從 Cosmos 中提煉世界知識,以提高端到端模型性能以及在新 ODD 中泛化的能力。

    Oxa 還使用 Cosmos Predict 支持從車輛周圍生成全面的多攝像頭視角,在所有這些視角中創建時間一致的視頻片段。

    自動駕駛行業采用端到端 WFMs

    隨著AV行業采用端到端foundation models,對大量、多樣化且物理屬性準確的sensor data的需求變得至關重要。僅憑現實世界的數據無法擴展以滿足安全和全面訓練的需求,尤其是在不同的運營領域和edge-case場景中。Cosmos WFMs—Reason, Predict, 和 Transfer—讓開發者能夠以前所未有的可控性和可擴展性生成、擴展和定制高保真數據,從而縮小這一差距。

    這些模型強效助力AV開發飛輪。Cosmos Predict 引入了行為多樣性,并加速了場景擴展。Cosmos Transfer 為各種環境帶來物理逼真度。通過開放訪問并無縫集成到領先的仿真平臺和工具鏈,開發者可以充分發揮端到端自主性的潛力,為更安全、更智能、更可擴展的AV部署鋪平道路。

    探索將在 CVPR 2025 上發表的 NVIDIA 研究論文并觀看 NVIDIA 創始人兼首席執行官 Jensen HuangNVIDIA GTC 巴黎大會上的主題演講

    通過訂閱 NVIDIA 新聞并在 DiscordYouTube 上關注 NVIDIA Omniverse及時了解最新信息

    開始使用developer starter kits快速開發和增強您自己的應用和服務

    +1

    標簽

    人人超碰97caoporen国产