NVIDIA L4 GPU 實現 AI 視頻和 AI 推理性能的超級充電

NVIDIA T4 于 4 年前作為通用 GPU 引入主流服務器。 T4 GPU 已被廣泛采用，目前是 NVIDIA 數據中心中容量最大的 GPU s 。 T4 GPU 被部署到人工智能推理、云游戲、視頻和視覺計算的用例中。

在 NVIDIA GTC 2023 主題演講中， NVIDIA 為人工智能工作負載推出了 several inference platforms ，包括 NVIDIA T4 的繼任者： NVIDIA L4 Tensor Core GPU 。 L4 GPU 現在是一款通用、節能的加速器，旨在滿足視頻、視覺計算、圖形、虛擬化、生成人工智能和邊緣計算的眾多應用的人工智能需求。

在這篇文章中，我們介紹了與上一代（ T4 ）相比， L4 GPU 的主流服務器如何提供更多的 AI 視頻性能，并實現更多的視頻流。您將在從視頻流到藥物發現的各種用例中找到經過驗證的結果，并了解如何體驗今天在 L4 GPU 上運行人工智能工作負載的差異。

Ada Lovelace 架構 L4 張量核心 GPU

NVIDIA L4 GPU 基于 NVIDIA Ada Lovelace architecture ，具有以下功能：

第四代張量核
第三代 RT 核心
著色器執行重新排序（ SER ）
硬件加速的圖像和視頻處理引擎，包括 AV1 編碼/解碼
深度學習超級采樣（ DLSS 3 ）
24 GB GDDR6 內存

這款多功能 GPU 采用 PCIe 單插槽低外形，功率為 72 W 。

為生成人工智能提供更多性能

隨著生成的人工智能功能和用例使客戶的生活更加便利，體驗更加身臨其境，對加速計算的需求比以往任何時候都更加增長。 L4 GPU 通過提供比上一代高 2.7 倍的生成人工智能性能來改善這些體驗。

憑借 NVIDIA 人工智能平臺和全棧方法， L4 GPU 針對廣泛的人工智能應用進行了大規模推理優化。推理是人工智能在現實世界中發揮作用的地方，涉及到每一個產品、服務和互動。

創新者突破了可能的界限。從視頻推薦到人工智能生成的化身，他們正在構建復雜度迅速增加的人工智能模型，以涵蓋比以往更多的用例。

圖形性能提高 4 倍

憑借第三代 RT 內核和人工智能驅動的 DLSS 3 ， NVIDIA L4 GPU 為基于人工智能的化身、 NVIDIA Omniverse 虛擬世界、云游戲和虛擬工作站提供了近 4 倍的高性能。它使您能夠構建實時電影質量的圖形和令人難以置信的詳細場景，以獲得身臨其境的視覺體驗，這在 CPU s 中是不可能的。

實時 AI 視頻管道性能

截至目前， 80% 的消費者互聯網流量是視頻。無論是向數百萬觀眾直播，讓用戶能夠構建創意故事，還是提供身臨其境的 AR / VR 體驗，配備 L4 GPU 的服務器都可以同時以 720p30 的速度為移動應用程序托管多達 1000 多個 AV1 視頻流。性能是通過帶有 p1 預設的 AV1 低延遲編碼來衡量的。

此外， L4 GPU 可以以多種分辨率和格式流式傳輸到多個平臺，從而能夠在包括社交媒體平臺在內的更多頻道上同時播放。

Bar chart shows that the NVIDIA L4 GPU delivers up to 3x more AI video encoding and decoding performance compared to NVIDIA T4. — *圖 1 。與 NVIDIA T4 相比， NVIDIA L4 GPU 性能*

實測性能。視頻解碼：使用 FFMPEG 5.0.1 的 NVIDIA L4 （ H.264 720p30 ）與 NVIDIA T4 （ H.264 720p30 ）。視頻編碼（低延遲 p1 預設）：使用 FFMPEG 5.0.1 的 NVIDIA L4 （ AV1 720p30 ）與 NVIDIA T4 （ H.264 720p30

憑借第四代 Tensor Core 技術，增加了 FP8 精度支持， 1.5 倍大的 GPU 內存， NVIDIA L4 GPU s 與 CV-CUDA library 配對，將視頻內容理解提升到了一個新的水平。

L4 GPU 為整個端到端管道提供了比基于 CPU 的解決方案高 120 倍的 AI 視頻性能。這使企業能夠獲得實時見解，以提供個性化內容，提高搜索相關性，檢測令人反感的內容，并實施智能空間解決方案。

Diagram shows the end-to-end video pipeline starting with video input which is then decoded, then enters a preprocessing stage. Next is the inference stage of the pipeline, followed by post-processing, then encode, and finally the transformed video output. — *圖 2: NVIDIA L4 AI 視頻端到端管道*

Eight NVIDIA L4 GPUs in a server deliver 120x more AI video performance compared to a two-socket CPU server. — *圖 3 。八個 NVIDIA L4 GPU 與一個兩插槽 CPU 服務器*

Measured performance: 8x L4 與 2S Intel 8380 CPU 服務器性能比較， 具有 CV-CUDA 預處理和后處理、解碼、推理（ SegFormer ）、編碼、 TRT 8.6 的端到端視頻管道與使用 OpenCV 4.7 的僅 CPU 管道相比， PyT 推理 。

AI 視頻的高能效

隨著人工智能和視頻的普及，對高效、高性價比計算的需求比以往任何時候都更加增長。與傳統的基于 CPU 的基礎設施相比， NVIDIA L4 GPU 的 AI 視頻性能提高了 120 倍，能效和擁有成本提高了 99% 以上。這使企業能夠減少機架空間，顯著降低總體碳足跡，同時使其數據中心能夠擴展到更多的用戶。

在 5MW 數據中心從 CPU 切換到 NVIDIA L4 所節省的能源可以為近 6000 戶家庭或 carbon offset from 500,000 trees grown over 10 years 供電 1 年。

客戶成功案例

以下是早期訪問客戶在評估 L4 GPU 及其當前解決方案時的一些用例和見解。

斷裂

Snap 的可視消息應用程序 Snapchat 使用 NVIDIA GPU 對大量視頻進行轉碼，最終為他們的社區提供盡可能好的視頻質量。

“ 秒 napchat 的視頻轉碼管道每天處理數百萬個視頻，重點是為 7.5 億月活躍的 Snapchatter 提供盡可能好的質量。

Snap 的轉碼團隊與 NVIDIA 合作，利用 GPU 加速，成功將 HEVC 轉碼成本降低了 80% 。 Snap 媒體交付平臺工程經理余佳耀表示：“他們的團隊對 NVIDIA L4 GPU 支持 AV1 的潛力感到興奮，根據早期測試，他們看到了顯著的質量改進和帶寬減少，吞吐量與 GPU HEVC 轉碼類似。”。

快手

Kuaishou 提供了一個世界領先的內容社區和社交平臺。全球數億用戶使用快手制作短視頻，用特效編輯，并分享給他們的追隨者。

快手有幾個關鍵服務正在使用 NVIDIA 推理平臺 A10 和 L4 GPU ：

直播內容推薦系統 使用 GPU 以合理的基礎設施成本提高用戶對直播內容點擊率（ CTR ）的預測。該工作流程有多個階段，包括解碼傳入的直播視頻、捕捉關鍵幀、執行任何必要的音頻和視頻解復用以及圖像處理，最后使用基于 transformer 的大規模模型來理解多模態內容并提高 CTR 。
另一個系統使用 自然語言處理?（ NLP ）、 ViT 和 Swin 視覺 transformer 來識別視頻中的文本，以增強視頻搜索的相關性。
廣告投放和電子商務系統 向用戶推薦直播和視頻，用于推廣商業商品。 L4 GPU 的人工智能和視頻分析功能加速了系統對商業品牌和產品功能的理解，使其目標定位與用戶更加相關。去年，即 2022 年，電子商務商品總值（ GMV ）超過 1000 億美元。

快手高級副總裁 Yue YU 表示：“快手推薦系統為一個擁有超過 3.6 億每日用戶的社區提供服務，他們每天貢獻數百萬 UGC 視頻。”。“與相同總擁有成本下的 CPU 相比， NVIDIA GPU 將系統端到端吞吐量提高了 11 倍，并將延遲減少了 20% 。”

描述

Descript 是一款基于人工智能的生成視頻編輯應用程序，托管在谷歌云上，幫助人們快速編輯博客、紀錄片和視頻內容。 Descriptt 的人工智能功能和直觀的界面為 YouTube 和 TikTok 頻道、頂級播客以及使用視頻進行營銷、銷售、內部培訓和協作的企業提供了動力。使用 Descriptt ，編輯可以受益于人工智能自動刪除填充詞、建議字幕、添加字幕等功能。

“使用 Descriptt 的視頻和音頻轉錄管道進行的 L4 測試顯示，與 T4 相比，性能提高了 150% 。這將使我們能夠支持 50% 以上的用戶使用相同數量的服務器進行基于文本的編輯，” Descriptt 人工智能主管 Kundan Kumar 說。

萬博

WOMBO 是一家領先的移動應用程序開發商，也是消費者領域生成人工智能圖像創建的領導者之一。 WOMBO Dream ，他們的主要應用程序已經被下載了 5500 多萬次，平均每天生成 300 萬張圖像。他們今天在 NVIDIA GPU 上使用穩定擴散進行圖像推理，最近評估了 L4 GPU s 。

WOMBO 首席執行官 Ben Zion Benkhin 表示：“ WOMBO 依靠最新的人工智能技術，讓人們從用戶提示中創作出身臨其境的數字藝術品，讓他們只需一個想法就可以創作出任何風格的高質量、逼真的藝術。”。“ NVIDIA L4 推理平臺將使我們能夠為尋求創作和分享獨特藝術品的用戶提供更好、更高效的圖像生成體驗。 ‘

用于藥物發現的薛定諤分子模擬

Schr?dinger 使用 GPU s 進行自由能微擾（ FEP +）計算，以模擬蛋白質與配體的相互作用 in silico 。他們的數字化學平臺被世界各地的藥物發現研究人員使用。

薛定諤和 NVIDIA 合作優化分子動力學模擬的性能。分子動力學計算發生在需要計算模擬的時間尺度上。所使用的硬件決定模擬需要幾天、幾小時還是幾分鐘。

Schr ? dinger 評估了其在多代 NVIDIA GPU 上的 GPU – 加速分子動力學模擬： NVIDIA Pascal 、 NVIDIA Volta 、 NVIDIA Turing 和 NVIDIA Ampere 架構。他們發現，新的 NVIDIA Ada Lovelace 架構 L4 GPU 為分子動力學模擬提供了最佳的性價比。

CP 全部

CP All 是泰國 11000 多家 7-11 便利店的唯一持牌運營商。 CP All 的 IT 服務公司 Gosoft 部署了基于 NVIDIA 對話式人工智能平臺的客戶服務機器人，以幫助回答常見問題和跟蹤訂單。 CP All 副總經理 Areoll Wu 表示，這些機器人懂泰語和說泰語的準確率為 97% 。通常， Gosoft 每天會接到 250000 個電話。

Areoll Wu 表示：“為數百萬用戶提供卓越的客戶體驗對我們來說至關重要。這就是為什么我們很高興能將 NVIDIA L4 和 Riva 用于我們的泰國端到端對話人工智能（ ASR + NLP + TTS ）服務。它的性能提高了 3 倍，延遲減少了 50% 以上，使我們的服務比以往任何時候都更好。”， CP All Public Company Limited （泰國）副總經理。

如何訪問 NVIDIA L4 GPU ？

有幾個選項可供選擇，平臺列表將在 2023 年全年擴展。

谷歌云平臺（ GCP ）是第一個宣布 NVIDIA L4 實例的云平臺，目前可通過私人預覽訪問。
它們可從 30 多家計算機制造商的全球網絡中獲得，包括 Advantech 、 ASUS 、 Atos 、 Cisco 、 Dell Technologies 、 Fujitsu 、 GIGABYTE 、 Hewlett-Packard Enterprise 、 Lenovo 、 QCT 和 Supermicro 。
您還可以通過 NVIDIA LaunchPad 訪問 L4 GPU ，并通過我們的免費實踐研討會和 NVIDIA AI Enterprise 實驗室了解更多信息。

在 GTC Accelerate your AI/ML and HPC Workloads with Google Cloud 2023 會話中了解有關 NVIDIA GPU 云實例的更多信息。

NVIDIA L4 GPU 實現 AI 視頻和 AI 推理性能的超級充電