NVIDIA Video Codec SDK 13.0 的發布標志著重大升級,增加了對新一代 NVIDIA Blackwell GPU 的支持。此版本帶來了大量改進,旨在提升視頻編碼和解碼功能。從增強的壓縮效率到更好的吞吐量和編碼質量,SDK 13.0 可滿足視頻生態系統不斷變化的需求。
以下是本次更新中引入的一些主要功能。
編碼功能:
- 提高壓縮效率: 以更低的比特率實現更好的視頻質量。
- 新的 YUV 4:2:2 編碼支持 (H.264 和 HEVC): 支持更廣泛的用例,特別是在專業視頻制作和廣播中。
- 更高的位深編碼: 在 H.264 中引入對 10 位編碼的支持,以及將 8 位內容編碼為 10 位的新硬件功能。
- 交錯編碼(H.264): 在 H.264 中添加交錯編碼支持。
- AV1 前瞻性級別和 UHQ: 為 AV1 引入前瞻性級別和 UHQ 模式,適用于需要盡可能高的視頻質量的延遲容忍用例。
- MV-HEVC 支持: 支持兩個視圖,以提高立體內容的壓縮率。有關更多信息,請參閱在 NVIDIA Video Codec SDK 13.0 中使用 MV-HEVC 啟用立體和 3D 視圖。
解碼功能:
- 4:2:2 解碼支持 (H.264 和 HEVC): 擴展解碼功能,這對于專業視頻工作流程尤其重要。
- 更高位深的 H.264 解碼: 在 H.264 中引入對 10 位解碼的支持。
- NVIDIA Blackwell 上的 H.264 吞吐量提高了 2 倍: 與上一代 GPU 相比,H.264 解碼的吞吐量提高了 2 倍,令人印象深刻。
- 支持 H.264 8K: 現在,可輕松處理超高清視頻解碼,為 8K 內容提供面向未來的功能。
- 動態解碼表面分配: 支持應用更大限度地減少 GPU 顯存占用。
在 NVIDIA Blackwell 中對質量增強進行編碼
以下是本次更新中有關關鍵編碼功能的詳細信息。
提高壓縮效率
NVIDIA Blackwell 中的 NVIDIA 編碼器 (NVENC) 硬件包含許多用于提高壓縮效率的增強功能。其中包括改進運動估計,包括增強的子像素搜索和更好的速率失真優化(RDO),以及 HEVC 和 AV1。這些增強功能適用于所有預設,與 ADA 代 GPU 相比,可顯著提升質量。
4:2:2 色度二次采樣
在前幾代產品中,NVENC 支持的格式包括 4:2:0 和 4:4:4。YUV 4:4:4 保留全彩,導致傳輸數據的文件大小和帶寬需求更大。在 4:2:0 模式下,全部信息將保留在亮度通道中,而色度通道僅包含原始顏色內容的 25%。
為克服色差問題,NVIDIA Blackwell 引入了 4:2:2 色度。與 4:4:4 相比,4:2:2 可保留 50%的顏色信息,但降低了傳輸視頻數據所需的帶寬。
4:2:2 在視頻編輯和廣播生態系統中很受歡迎,因為與 4:2:0 相比,4:2:2 的色彩分辨率更高,但與 4:4:4 相比,帶寬要求更低。
與 YUV 4:2:0 一樣,8 位和 10 位深度的半平面布局支持 4:2:2,NVENCODE API 為 YUV 4:2:2 半平面輸入引入了兩種新格式:
NV_ENC_BUFFER_FORMAT_NV16
,對于 8 位 YUV 4:2:2NV_ENC_BUFFER_FORMAT_P210
,對于 10 位 YUV 4:2:2
chromaFormatIdc =2
支持 4:2:2 編碼。與 4:2:0 和 4:4:4 一樣,應用還可以通過 chromaFormatIdc=2
傳遞 ARGB 輸入,以生成 4:2:2 的子樣本編碼輸出。使用 CUDA 內核在編碼驅動中完成從 ARGB 到 YUV 4:2:2 的色彩空間轉換。
4:2:2 輸入的壓縮效率類似于 4:2:0 和 4:4:4 格式。
更高的位深度編碼增強
NVIDIA 視頻編解碼器 SDK 13.0 在 NVIDIA Blackwell GPUs 上的 H.264 中引入 10 位編碼支持。所有色度子采樣格式—4:2:0、4:2:2 和 4:4:4—支持對 10 位內容進行編碼。
此外,NVIDIA Blackwell NVENC 可以將 8 位內容編碼為 H.264 和 HEVC 的 10 位內容,這項功能已在 ADA 中的 AV1 中提供。
ADA 和早期 GPU 繼續支持 HEVC 的此功能,但與 NVIDIA Blackwell 不同的是,輸入 YUV 從 8 位升級到 10 位,作為使用 CUDA 的預處理步驟。
由于編碼管線的精度更高,此功能可提高編碼效率。此次升級可實現更平滑的漸變和更準確的色彩再現,是高質量視頻制作的理想之選。編碼器中的許多與輸入相關的計算均在 10 位 (而非 8 位) 下完成。應用程序的壓縮效率有望提高約 3%,而不會對編碼器性能產生任何重大影響。
與 AV1 不同,僅 H.264 和 HEVC 的特定配置文件支持 10 位編碼。應用程序應僅在解碼器支持 10 位配置文件的情況下啟用此功能。
H.264 交錯編碼
NVIDIA Blackwell GPUs 恢復了對交錯內容編碼的支持,并為傳統廣播視頻格式的用戶提高了傳統視頻工作流程的靈活性。
交錯編碼 需要將一幀拆分成兩個字段。第一個字段包含圖像的奇數行,第二個字段包含偶數行。這些字段以快速的順序傳輸,會產生單幀的錯覺。H.264 上的 YUV 4:2:0 和 YUV 4:2:2、8- 和 10 位內容支持字段編碼。
NVENCODE API 支持用于交錯內容的“top field first”(頂部字段優先) 和“bottom field first”(底部字段優先) 布局。
前瞻性和 UHQ
前瞻性分析未來幀,并根據給定塊在后續幀中的引用量,將位高效分配到幀中的不同塊。前瞻性編碼期間生成的統計數據用于速率控制的復雜性估計。
Video Codec SDK 13.0 在 AV1 中增加了對前瞻性級別的支持,并引入了 AV1 UHQ 調優信息,該信息結合了前瞻性級別和時間性過濾,可為各種 HQ 延遲容忍編碼預設提供出色的質量和性能。這些功能可提供出色的視覺質量,非常適合要求嚴苛的視頻應用
在 UHQ 調優中,前瞻性和時間過濾的最佳設置是組合應用的,而不是單獨應用的。與 UHQ HEVC 一樣,B 幀的數量設置為 5,同時使用中間的 B 幀作為參考。UHQ 模式還會禁用自適應 I 幀和 B 幀,并使用固定的 GOP(group of pictures)結構。
NVIDIA Blackwell NVENC 支持新的編碼統計信息,使前瞻性算法能夠識別多個引用的引用詳細信息,從而使 HEVC 和 AV1 的 UHQ 調整信息的質量和性能比 ADA 高得多。
對于 AV1,NVIDIA Blackwell 中的 UHQ 調整信息有 7 個 B 幀,而不是 5 個 B 幀,這進一步提高了壓縮效率。
圖 1 和 2 分別顯示了 ADA HQ、ADA UHQ、NVIDIA Blackwell HQ 和 NVIDIA Blackwell UHQ 在 HEVC 和 AV1 上節省的比特率。

圖 2、使用自然內容,為 HQ 和 UHQ 調優信息節省 AV1 碼率
增強的視頻解碼功能
NVIDIA Blackwell GPUs 為視頻解碼領域帶來了巨大進步,尤其是 H.264 和 HEVC 格式的視頻解碼。這些增強功能同時提供功能集和性能改進,為行業樹立了新的標桿。
H.264 解碼增強功能
借助 NVIDIA Blackwell,H.264 解碼功能得到了重大改進。其中一些主要特性包括:
- 4:2:0 10 位支持 (MBAFF 除外):這可改善色彩深度,非常適合視頻制作或游戲等色彩敏感領域的工作。
- 4:2:2 8/10 位支持 (MBAFF 除外):NVIDIA Blackwell 支持 8 位和 10 位色度采樣,可確保高質量的視頻播放 (即使是壓縮格式),從而提供更好的視覺保真度。
- 2 倍性能提升:最令人興奮的更新或許是性能提升。與前幾代產品相比,NVIDIA Blackwell 的性能提升了 2 倍,這意味著視頻播放更流暢,解碼速度更快,即使是對于要求嚴苛的視頻文件也是如此。
- 支持分辨率高達 8192 × 8192: 無論您是處理超高清視頻還是處理先進的 3D 內容,NVIDIA Blackwell 都能處理高達 8192 × 8192 的分辨率。這意味著您可以更清晰、更精細地解碼視頻。
無論您是處理高分辨率視頻項目,還是處理大規模視頻處理任務,這些改進都能確保 NVIDIA Blackwell 提供出色的視頻解碼功能。
HEVC 解碼可提高靈活性和速度
高效視頻編碼 (HEVC) 已成為高效視頻壓縮的首選格式,而 NVIDIA Blackwell 將其提升至更高水平。新的增強功能包括:
- 支持 4:2:2 8/10 位和 12 位解碼: NVIDIA Blackwell 現在為 HEVC 提供了更廣泛的解碼選項,可更輕松地處理高質量視頻,并將保真度損失降至最低。
- 性能提升 :得益于 NVDCLK 的改進,您可以在解碼 HEVC 內容時看到明顯的性能提升。這轉化為更流暢的播放和更高效的視頻渲染。

圖 3、H.264 和 HEVC 解碼性能 (fps)
NVDECODE API 為 4:2:2 解碼輸出引入了兩種新格式:
cudaVideoSurfaceFormat_NV16=4, /**< Semi-Planar YUV 422 [Y plane followed by interleaved UV plane] */ cudaVideoSurfaceFormat_P216=5 /**< 16 bit Semi-Planar YUV 422[Y plane followed by interleaved UV plane]*/
動態解碼表面分配,提高 GPU 顯存效率
Video Codec SDK 13.0 的一個突出特性是引入了動態解碼表面分配。通過適應不同的視頻位流,此功能可減少不必要的內存消耗,從而增加解碼會話的數量。這一改進對于在一些視頻解碼用例中優化 GPU 內存使用至關重要。
在某些情況下,bitstream 使用的參考幀可能少于 DPB 大小,因此會浪費寶貴的視頻內存。分配最大解碼表面會產生更高的顯存占用空間。
比較新的 SDK
在此版本發布之前,視頻應用程序根據 DPB 大小創建了具有固定最小表面數量的解碼器對象。這種方法雖然實用,但有時分配的內存超過了需要。
CUVIDDECODECREATEINFO stDecodeCreateInfo; memset(&stDecodeCreateInfo, 0x0, sizeof(CUVIDDECODECREATEINFO )); . . . // Setup the remaining structure members stDecodeCreateInfo.ulNumDecodeSurfaces = <dpb_size>// Prior to SDK 13.0, this could not change rResult = cuvidCreateDecoder(&hDecoder, &stDecodeCreateInfo)
借助 Video Codec SDK 13.0,您可以靈活地僅在需要時分配額外的 YUV 表面。您可以創建具有較小 YUV 表面初始分配 (例如 3 或 4) 的解碼器對象,并使用 cuvidReconfigureDecoder API 根據需要動態分配更多表面。這種動態分配可減少不必要的內存消耗,并提高解碼過程的整體效率。
借助 Video Codec SDK 13.0 解鎖新的可能性
NVIDIA Video Codec SDK 13.0 借助最新的 NVIDIA Blackwell GPU 突破視頻編碼和解碼的極限。無論是創作廣播內容、編輯高質量視頻,還是處理最新的 8K 視頻片段,此更新都提供了改進工作流程所需的工具。
Video Codec SDK 13.0 的壓縮效率有所提升,支持新的顏色格式,編碼質量有所提升,可滿足現代視頻應用日益增長的需求。
為支持 Video Codec SDK 13.0 的發布,NVIDIA 合作伙伴 Blackmagic、Capcut 和 Wondershare 已在其視頻工作流中集成 4:2:2 編碼、4:2:2 解碼、AV1 UHQ 和分割編碼等功能。