生成式 AI 已從基于文本的模型迅速發展為多模態功能。這些模型執行圖像字幕和視覺問答等任務,反映了向更接近人類的 AI 的轉變。該社區目前正在從文本和圖像擴展到視頻,為各行各業帶來了新的可能性。
視頻 AI 模型將徹底改變 機器人 、汽車和零售等行業。在機器人領域,它們可增強在復雜、不斷變化的環境中的自主導航,這對于制造和倉儲管理等行業至關重要。在汽車行業,視頻 AI 正在推動自動駕駛,提升車輛感知、安全性和預測性維護,從而提高效率。?
要構建圖像和視頻基礎模型,開發者必須整理和預處理大量訓練數據,以高保真度標記生成的高質量數據,高效、大規模地訓練或定制預訓練模型,然后在推理過程中生成高質量的圖像和視頻。?
宣布推出適用于多模態生成式 AI 的 NVIDIA NeMo
NVIDIA NeMo 是一個端到端平臺,用于開發、定制和部署生成式 AI 模型。?
NVIDIA 剛剛宣布擴展 NeMo,以支持開發多模態模型的端到端流程。借助 NeMo,您可以輕松整理高質量的視覺數據,使用高效的分詞器和并行技術加速 訓練 和 自定義 ,并在推理期間重建高質量的視覺效果。?
加速視頻和圖像數據管護?
高質量的訓練數據可確保 AI 模型獲得高精度結果。然而,開發者在構建數據處理管道時面臨著從擴展到數據編排等各種挑戰。?
NeMo Curator 可簡化數據管護流程,讓您更輕松、更快速地構建多模態生成式 AI 模型。開箱即用的體驗可更大限度地降低總擁有成本 (TCO),并加快上市時間。?
在處理視覺效果時,組織可以輕松實現 PB 級數據處理。NeMo Curator 提供編排工作流,可以在數據管護的每個階段在多個 GPU 上實現負載平衡。因此,與基于 GPU 的樸素實現相比,您可以將視頻處理時間縮短 7 倍。可擴展的流程可以高效處理超過 100 PB 的數據,確保無縫處理大型數據集。?

NeMo Curator 提供針對高吞吐量過濾、字幕和嵌入階段優化的參考視頻管護模型,可提升數據集質量,助力您創建更準確的 AI 模型。?
例如,NeMo Curator 使用優化的字幕模型,與未優化的推理模型實現相比,吞吐量提高了一個數量級。
NVIDIA Cosmos 標記器?
標記器可將冗余和隱式視覺數據映射為緊湊和語義標記,從而實現大規模生成模型的高效訓練,并在有限的計算資源上實現推理的大眾化。
當今的開放式視頻和圖像標記器通常會生成糟糕的數據表示,導致有損重構、圖像失真和視頻暫時不穩定,并限制基于標記器構建的生成模型的能力。低效的標記化流程還會導致編碼和解碼速度緩慢以及更長的訓練和推理時間,從而對開發者的工作效率和用戶體驗產生負面影響。
NVIDIA Cosmos 分詞器是一種開放模型,可為各種圖像和視頻類別提供出色的視覺分詞,同時具有極高的壓縮率和出色的重建質量。?
這些分詞器通過一套標準化模型提供易用性,這些模型支持具有離散隱代碼的視覺語言模型(VLMs),具有連續隱嵌入的擴散模型,以及各種長寬比和分辨率,從而實現大分辨率圖像和視頻的高效管理。這為您提供了對各種視覺輸入數據進行標記化的工具,以構建圖像和視頻 AI 模型。
Cosmos 分詞器架構?
Cosmos 分詞器使用復雜的編碼器 – 解碼器結構,旨在實現高效學習。其核心采用 3D 因果關系卷積塊 (聯合處理時空信息的專用層),并使用可捕獲數據中遠程依賴項的時間因果關系。?
因果關系結構可確保模型在執行標記化時僅使用過去和現在的幀,從而避免未來的幀。這對于調整物理 AI 或多模態 LLM 等許多真實系統的因果關系至關重要。

使用 3D 小波對輸入進行下采樣,這是一種更高效地表示像素信息的信號處理技術。數據處理完成后,逆小波變換將重建原始輸入。?
這種方法提高了學習效率,使分詞器編碼器 – 解碼器可學習模塊能夠專注于有意義的特征,而不是冗余的像素細節。這些技術及其獨特的訓練方法相結合,使 Cosmos 分詞器成為高效、強大的分詞的前沿架構。
在推理過程中,Cosmos 分詞器的重建速度比領先的開放權重分詞器快 12 倍,從而顯著降低模型的運行成本 (圖 3)。??

Cosmos 分詞器還能生成高保真圖像和視頻,同時比其他分詞器壓縮更多,這展現出前所未有的質量壓縮權衡。?


雖然 Cosmos 分詞器是從高度壓縮的分詞生成的,但得益于創新的神經網絡訓練技術和架構,它能夠創建高質量的圖像和視頻。

使用 NeMo 構建您自己的多模態模型?
NVIDIA NeMo 平臺的擴展包括使用 NeMo Curator 進行大規模數據處理,以及使用 Cosmos 標記器進行高質量標記化和視覺重建,使您能夠構建先進的多模態生成式 AI 模型。
加入等待名單,并在 NeMo Curator 上線時收到通知。 分詞器現已在/ NVIDIA/cosmos-tokenizer GitHub 倉庫和 Hugging Face 上提供。
?