隨著向為自動駕駛汽車 (AV) 提供動力支持的端到端規劃模型的轉變,人們對基于物理性質的高質量傳感器數據的需求也在不斷增加。這些模型必須大致了解多模態數據集,以及傳感器數據集、車輛軌跡和駕駛動作之間的關系,以幫助執行下游訓練和驗證任務。
通過在自動駕駛領域調整和后訓練 NVIDIA Cosmos 世界基礎模型 (WFMs)(Predict、Transfer 和 Reason) ,開發者可以創建世界模型,以加速端到端自動駕駛訓練。這些模型用于本文中展示的合成數據生成 (SDG) ,以及閉環訓練和車載推理。
在本文中,我們將介紹不同的后訓練方法。有很多方法可以讓 Cosmos 模型適應 AV 應用。我們討論的模型目前均可供開發者使用。
在 Cosmos 上開發合成數據生成管道
NVIDIA Research 使用 20,000 小時的駕駛數據對 Cosmos WFMs 進行了后訓練,為 AV 開發工作流程構建了一系列模型。在 CVPR 上發表的一篇論文中,研究人員詳細介紹了使用 Cosmos 模型生成的數據如何提高 AV 模型訓練的性能。
自動駕駛汽車專用模型
Cosmos WFM 可加速自動駕駛汽車訓練的 SDG,特別是通過使用基于 Cosmos-Transfer-1-7B-Sample-AV?和?Cosmos-Transfer-1-7B-Single2Multiview-Sample_AV 構建的樣本進行數據增強。Transfer 模型根據高清地圖、LIDAR 深度和文本提示生成不同的駕駛視頻,在不同條件下實現逼真的場景。它使用 3D 立方體、車道線、道路邊界和交通元素等結構化輸入,以確保精確的幾何感知控制。然后,多視圖模型將單視圖視頻擴展為多視圖一致的視頻。還可以對 Cosmos Transfer 進行后訓練以生成多視圖傳感器,開發者可以申請對自己的版本進行后訓練。
第三個模型是在 Cosmos Reason 等推理模型上進行后訓練的視覺語言模型 (VLM) ,執行自動拒絕采樣以丟棄低質量或不切實際的輸出,確保生成的合成數據集具有高質量和逼真度。
合成數據流水線
結合使用時,這些模型會形成一個從文本提示和真實數據開始的工作流,并輸出基于物理性質的高保真多視圖視頻。
多視圖生成有助于解決攝像頭損壞或遮擋等常見挑戰。通過生成多視圖視頻,開發者可以將壞相機中的視頻替換為好的視頻。它還支持使用dashcam數據,開發者可以模仿自己的AV開發平臺,將互聯網視頻轉化為數據。
此工作流生成的合成視頻數據可以緩解長尾分布問題,并增強下游任務(如 3D 車道檢測、3D 物體檢測和駕駛策略學習)的泛化,尤其是在極端天氣和夜間條件等具有挑戰性的場景中。
本周 CVPR 2025 的與會者可以在 Embodied AI 研討會上了解有關此項目的更多信息。
開發者可以將這些數據用于自己的開發,現在 NVIDIA Physical AI 數據集上有 40,000 個 Cosmos 生成的剪輯。
將 Cosmos 集成到現有的 AV 工作流中
開源模擬器和自動駕駛汽車公司還基于自己的數據對 Cosmos 模型進行了后訓練,并已開始將這些模型集成到其工具鏈中,從而為全球自動駕駛汽車開發者開放加速合成數據生成流程。
Cosmos Transfer
Cosmos Transfer NIM 在 GTC 巴黎大會上發布,是 Cosmos Transfer 的容器化版本,用于加速推理。開發者可以使用 NIM 微服務快速對 Cosmos Transfer 進行后期訓練和部署,以加速其 SDG 工作流。
開源自動駕駛汽車模擬器 CARLA 將集成 Cosmos Transfer 以增強仿真輸出,從而為 15 萬名開發者社區提供基于物理性質的合成數據生成。通過集成,用戶可以使用簡單的提示從 CARLA 序列生成無盡的高質量視頻變體。此集成處于搶先體驗階段,并將根據社區反饋繼續開發。
Mcity 是一家 AV 開發和測試領域的公私合作伙伴,正在將 Cosmos Transfer 集成到其占地 32 英畝的物理測試軌道的開源數字孿生中。使用 Mcity 進行研發的開發者可以快速擴展場景,添加新的天氣、光照和地形。
此外,Foretellix 和 Parallel Domain 等自動駕駛汽車工具鏈提供商已將 Cosmos Transfer 集成到其現有解決方案中。Voxel51 是一個視覺 AI 數據平臺,提供了用于管理、可視化和優化 Cosmos Transfer 生成的數據的工具包。因此,最終客戶可以輕松使用 Cosmos Transfer 的規模和可變性,而無需切換所需的工具鏈。
最后,自動駕駛汽車軟件公司 Oxa 已將 Cosmos Transfer 集成到自己的開發工具鏈 Oxa Foundry 中。Cosmos Transfer 支持圖像和圖像序列轉換,可根據特定用例進行定制,快速輕松地進行合成。這項工作包括真實道路和越野數據的不同天氣 (雪、霧、雨) 和照明 (夜、黃昏、黎明) 轉換。
Cosmos Predict
Cosmos Predict-2 還在 GTC 巴黎大會上宣布推出,是我們迄今為止用于未來世界狀態預測的性能最佳的世界基礎模型,與 Predict-1 相比,該模型在視頻中具有更高的保真度、更少的幻覺,以及更好的文本、物體和運動控制。該模型很快將支持多種幀率和分辨率,并生成長達 30 秒的視頻,預測接下來會發生什么,特別是在圖像提示符指導下世界中的物理交互。
Cosmos Predict-2 專為定制而構建;可以使用精選數據和 NVIDIA NeMo Curator 和 Cosmos Reason 等工具,在特定環境、任務或攝像頭系統上輕松地對模型進行后訓練。此外,Cosmos Predict-2 基于 Cosmos-Predict-7B-Single2Multiview-Sample_AV 中的 AV 數據進行了預訓練,從而加快了 AV 域的后訓練速度。
自動駕駛卡車公司 Plus 使用大量真實駕駛數據對 Cosmos Predict-1 進行了后訓練,以創建與卡車攝像頭拍攝的實際視頻保真度相匹配的多視圖視頻。然后,這些合成多視圖視頻可用于生成邊緣案例,以嚴格測試和驗證自動駕駛卡車系統。Plus 還從 Cosmos 中提煉世界知識,以提高端到端模型性能以及在新 ODD 中泛化的能力。
Oxa 還使用 Cosmos Predict 支持從車輛周圍生成全面的多攝像頭視角,在所有這些視角中創建時間一致的視頻片段。
自動駕駛行業采用端到端 WFMs
隨著AV行業采用端到端foundation models,對大量、多樣化且物理屬性準確的sensor data的需求變得至關重要。僅憑現實世界的數據無法擴展以滿足安全和全面訓練的需求,尤其是在不同的運營領域和edge-case場景中。Cosmos WFMs—Reason, Predict, 和 Transfer—讓開發者能夠以前所未有的可控性和可擴展性生成、擴展和定制高保真數據,從而縮小這一差距。
這些模型強效助力AV開發飛輪。Cosmos Predict 引入了行為多樣性,并加速了場景擴展。Cosmos Transfer 為各種環境帶來物理逼真度。通過開放訪問并無縫集成到領先的仿真平臺和工具鏈,開發者可以充分發揮端到端自主性的潛力,為更安全、更智能、更可擴展的AV部署鋪平道路。
探索將在 CVPR 2025 上發表的 NVIDIA 研究論文,并觀看 NVIDIA 創始人兼首席執行官 Jensen Huang 在 NVIDIA GTC 巴黎大會上的主題演講。
通過訂閱 NVIDIA 新聞并在 Discord 和 YouTube 上關注 NVIDIA Omniverse,及時了解最新信息。
- 訪問我們的 Omniverse 開發者頁面,獲取入門所需的所有基礎知識
- 訪問一系列 OpenUSD 資源,包括新的 Learn OpenUSD 自定進度培訓課程
- 收聽即將推出的 OpenUSD 預覽體驗計劃直播,并與 NVIDIA 開發者社區建立聯系
開始使用developer starter kits,快速開發和增強您自己的應用和服務。