我們通過 NVIDIA DOCA 加速框架,為開發者提供了豐富的庫、驅動和 API,以創建高性能應用程序和服務,支持 NVIDIA BlueField 數據處理器 (DPU) 和 SuperNIC。DOCA 2.7 是一個功能豐富的全面版本,進一步擴展了 DOCA 軟件框架的范圍和價值,提供了多個新的庫、一站式應用和功能齊全的服務。
DOCA 2.7 擴展了 BlueField DPU 在數據中心內卸載、加速和隔離網絡、存儲、安全和管理基礎設施方面的能力。該版本還進一步增強了 AI 云數據中心,并通過 NVIDIA Spectrum-X 網絡平臺,為 AI 工作負載提供了卓越的性能。
本文中詳細介紹的版本亮點包括:
- 支持使用 BlueField-3 SuperNIC 的 Spectrum-X RA 1.0.1
- DOCA PCC、DOCA Flow 和 OVS DOCA 增強功能
- 更新的 AI 云流量加密 – IPsec GA、PSP 支持 (測試版)
- 新的 DOCA 庫
- 增強功能:DOCA 服務
- 新增了 DOCA 管理服務 (DMS) 功能。
搭載 BlueField-3 SuperNIC 的 NVIDIA Spectrum-X RA 1.0.1
DOCA 2.7 為以太網 AI 云部署啟用 NVIDIA Spectrum-X 1.0.1 (SPC-X 1.0.1) 參考架構。此架構經過嚴格測試,并優化了 BlueField SuperNIC 和 Spectrum SN5600 交換機的功能,用于加速和管理 AI 集群中的 E-W 以太網流量。
適用于 BlueField-3 SuperNIC 的 DOCA 2.7 的新功能包括:
- 使用自適應路由和 DOCA 可編程擁塞控制 (PCC) 的無損 RoCE
- DOCA-PCC 針對在 SPC-X 1.0.1 上運行的 AI 工作負載進行了優化
- BlueField SuperNIC 默認為 NIC 模式
它目前用于 NVIDIA Israel-1 超級計算機,多個 AI 云 CSP 正在更廣泛地采用。
DOCA-PCC
我們提供了 DOCA PCC 庫,該庫提供了高級編程接口,允許您實現自己的自定義擁塞控制 (CC) 算法。該庫利用 NVIDIA BlueField-3 SuperNIC 的加速功能來管理 CC,并提供了簡化硬件復雜性的 API,從而使您能夠專注于 CC 算法的功能實現。
DOCA PCC 還提供了開發最佳解決方案的靈活性,以處理和避免集群中的網絡擁塞。每個網絡都不同,并非所有網絡都可以使用標準的現有擁塞控制解決方案。定制的擁塞控制對于 AI 工作流程至關重要,能夠實現性能隔離、提高公平性和持續的低延遲,同時防止在無損網絡上丟棄數據包。
DOCA 2.7 提供了一系列旨在優化擁塞控制的功能。這些功能有助于監控網絡性能、診斷問題和收集遙測數據。例如,在發生擁塞相關事件時,可以使用 Notification Point (NP) 可編程性觸發警報或操作。DOCA 2.7 還支持多個探針數據包、用于監控的數據包以及通過遙測增強網絡可見性。
盡管這些功能不僅限于擁塞控制,但它們有助于診斷擁塞相關問題并改善整體網絡運行狀況。此外,通過監控 Spectrum 交換機獲得的其他遙測信息,例如端口速度容量降低了端口超額認購的可能性。跟蹤網卡 (端點) 端口的傳輸/接收 (Tx/Rx) 字節能夠揭示擁塞模式的詳細信息。
VirtIO-net 設備
DOCA 2.7 現在支持高達 2K 的功能 VirtIO-net 設備,適用于 Bluefield-3 DPU.這非常適合需要許多低容量和低使用率活動設備 (例如,需要訪問網頁的多個端點) 的情況。使用公共云/私有云的 CSP 和組織可以使用此功能來幫助擴展多租戶環境。
DOCA Flow
DOCA Flow 提供了基礎模組,可以簡化軟件定義網絡和軟件定義安全網絡應用程序的開發,從而將這些功能卸載、加速和隔離到 BlueField-3 DPU。作為用于卸載和加速網絡轉向管線的轉向庫,DOCA Flow 實現了 SDN 服務的快速管道可編程性。
DOCA 2.7 新增的 DOCA Flow 功能包括:
- DOCA 連接跟蹤 (CT),可提高管道性能、效率和靈活性
- 用于調試的 DOCA Flow 管道可視化 (Alpha)
- LPM 管道增強,支持基于 VLAN 的流量
作為 DOCA 開發的核心,對 DOCA Flow 的變更專注于提高功能性能和用戶體驗,借助 DOCA-FLOW 應用實現更大規模和更好的性能,并為 DOCA-FLOW 開發者提供調試和性能工具。
OVS DOCA
OVS DOCA 是一款針對 NVIDIA 網絡服務高度優化的虛擬交換機。這是一種非常高效的設計,可使用 NVIDIA NIC 或 DPU 提升新一代性能和擴展性。OVS DOCA 基于 Open vSwitch,提供相同的北向 API、OpenFlow、CLI 和數據接口,確保提供 OVS 的嵌入式替代方案。
OVS DOCA 能夠更快地實現 NVIDIA 未來的創新網絡功能。作為具有可用源代碼的可定制服務,OVS DOCA 為 HBN 和其他適用于以太網交換的 NVIDIA 服務提供支持。
DOCA 2.7 包含多項增強功能,可進一步優化 OVS-DOCA.例如,DOCA 使您能夠統一多個端口的 representor,從而提供更好的資源利用率和擴展性。這意味著通過統一 representor,可以更高效地管理更多端口,從而減少開銷并簡化配置。反過來,處理多個端口的單個 representor 有助于實現更好的可擴展性。這在大規模部署中至關重要。
此外,包含 Hairpin 卸載功能可優化同一主機上虛擬機 (VM) 或容器之間的流量流。這消除了將流量從外部路由到物理主機的需求,降低了延遲,并促進了更快的數據交換,從而最終提高整體系統性能
DOCA 2.7 的另一項新功能名為 Slow Path Metering,可監控和控制非加速流量。這提高了安全性和資源優化,并為管理員提供了細粒度控制,以便為特定類型的流量設置策略,從而定制網絡行為。
基于 DOCA 主機的網絡
HBN 是一項 DOCA 服務,使網絡架構師能夠完全基于 L3 協議設計網絡。這使得通過將 DPU 用作 BGP 路由器,路由能夠在網絡的服務器端運行 (而不是在交換機上)。HBN 支持的 BGP 的 EVPN 擴展將 L3 底層網絡擴展到具有 Overlay L2 和 L3 隔離網絡的多租戶環境。
HBN 解決方案將一組網絡功能打包在一個容器內,而容器本身則打包為在 DPU 上運行的服務 Pod.這對裸機 CSP、電信公司和企業客戶非常有益。
DOCA 2.7 中新增的 HBN 功能包括:
- 單端口 BlueField-3 SuperNIC 支持
- 為本地 VRF 路由泄漏提供 GA 級支持
- 用于對稱 EVPN 路由泄露的 EVPN 下游 VNI (DVNI)
- 使用 VRF-Lite 的第 3 層 VLAN 子接口
- BF 上行鏈路上的網絡到網絡發夾路由支持
- 對 L2 VXLAN 上的有狀態 ACL 的 GA 級支持
- 面向主機接口上對 VLAN 主干的初始支持
此更新通過單端口 BlueField SuperNIC 啟用 GPU E/W 結構用例,帶來了一些直接優勢。
DOCA 2.7 功能不僅提高了隔離租戶的共享服務和互聯網訪問的可擴展性和效率,而且還使 BlueField DPU 能夠用作 EVPN 疊加網關。這為多租戶云提供了外部連接。
零復制的 DOCA SNAP 靜態加密
我們在 DOCA SNAP BlueField-3 上的 v4 服務中添加了內聯 AES-XTS 卸載功能。AES-XTS 是一種事實上的加密算法,用于保護存儲設備上靜態數據的機密性。現在,SNAP 可以加速硬件中的 AES-XTS 加密,從而優化和改進加密過程,同時降低 CPU 開銷。
靜態數據的 SNAP 加密基于 AES-XTS,現已提供給 SPDK API 和 SNAP RPC,可實現零復制,這意味著無需在內存中進行額外復制,即可對存儲的數據進行加密和解密。典型的客戶包括尋求使用新一代 DDR、LPDDR、GDDR 和 HBM 內存接口來提升受保護性能的客戶。
DOCA 2.7 新增的 DOCA SNAP 功能包括:
- 支持 BlueField-3 和 SNAP v4 服務
- 使用 SPDK API 的每個命名空間的不同加密密鑰
- 支持 NVMe-oF RDMA/RoCE
- 與其他標準和非標準協議集成,作為旁路
DOCA Firefly
DOCA Firefly 服務利用 NVIDIA DPU 的硬件加速提供精確的時間同步服務。DOCA Firefly 現在包括行業特定的配置文件,以改善用戶體驗并簡化部署。除了現有的媒體配置文件,DOCA 2.7 現在還提供電信配置文件,包括行業特定的功能和自定義的性能參數。
這項服務已為電信、媒體和娛樂以及 FSI 等眾多行業的客戶所采用。目前,它用于推動 MSG-Sphere 的嚴格計時要求。
AI 云流量加密和解密
DOCA 2.7 包含對 DOCA IPsec (現為 GA) 的修訂以及 DOCA PSP 的引入。
DOCA 在 BlueField DPU 上運行,可以多種方式用于改進 IPsec 過程,同時加速網絡流量的加密和解密。此版本的新成員 DOCA Flow 現在支持所有 IPsec 模式和選項,同時提供 IPsec 協議的全面加速。
其他功能包括:
- IPsec GA
- 多線程支持
- 提高插入率
- 刪除 DOCA IPsec 庫并將其功能合并到 DOCA Flow 的 API 更新
PSP 是 Google 發布的一種新的網絡安全協議。此版本是第一個支持 PSP 的版本 (在技術預覽中),通過 DOCA Flow 和在線 PSP 封裝以及硬件中的加密/解密全面加速 PSP 協議。與 IPsec 相比,PSP 特別適合在大規模 AI 云中使用。
這些功能的示例用例包括:
- 北南 AI 云網絡加密
- 東西向 AI 云 GPU 到 GPU 流量
- 非 AI 云節點到節點加密
DOCA UROM 和 DOCA DevEmu
新的 DOCA UROM 庫和服務支持卸載高性能計算 (HPC) 和 AI 工作負載。具體來說,HPC 計算由主機執行,同時 HPC 通信得到加速并卸載到 BlueField DPU.這有助于優化 CPU 利用率,為 AI 訓練和推理以及 HPC 應用程序提供性能提升。
DOCA 設備仿真庫 (DOCA DevEmu) 使您能夠在 BlueField DPU 上模擬自定義設備,并通過 PCI 從主機連接到它。這提供了一些優勢,其中最重要的優勢是可以訪問與卸載或加速相關的其他功能,但無需主機應用程序直接使用 DOCA API。
適用于 DPU 的 DOCA 通信通道
DOCA Comm Channel 在不受信任的主機客戶端應用程序和 BlueField 軟件服務之間提供增強的硬件隔離通信。它支持創新的安全和存儲卸載服務。
DOCA 管理服務
DOCA 2.7 新增的 DOCA 管理服務是一項 DOCA 服務,可使用標準配置接口 (API/CLI) 簡化 BlueField 的啟動后配置和配置。
主要優勢:
- 為所有工具提供相同的 API,無需了解所有工具及其不同的語法。
- 無需深入了解低級硬件詳細信息,即可配置 NVIDIA 網卡。
- 使用行業標準配置接口 (CLI 和 API) 和數據模型 (例如 gRPC/gNMI 和 OpenConfig),以確保更好的互操作性和易于集成。
- 借助專為無縫集成外部自動化系統和工具而設計的強大 API,簡化 DPU 管理任務的自動化。
欲了解 DOCA 平臺的其他升級詳情,請參閱 DOCA 2.7 版本說明。
總結
NVIDIA DOCA 框架支持在 BlueField 網絡平臺上利用行業標準 API 快速創建和管理應用程序和服務。借助 DOCA,開發者可以利用 NVIDIA BlueField DPU 和 SuperNIC 的強大功能,實現突破性的網絡、安全和存儲性能。
DOCA 2.7 中的新功能通過增強 BlueField DPU 和 SuperNIC 在 AI 云數據中心中提供的功能和優勢來擴展其更廣泛的價值。最近的增強功能不僅有助于為 AI 工作負載提供卓越的性能,而且還增加了擴展的安全和網絡功能。這些改進相結合,為開發者提供了一個強大的平臺。DOCA 2.7 還通過 BlueField-3 SuperNIC 支持 NVIDIA Spectrum-X 參考架構。
立即下載 NVIDIA DOCA,并充分利用 DOCA 提供的所有優勢,開啟您的開發之旅。如需了解更多信息,請查看以下資源:
- 使用 NVIDIA DPU 和 NVIDIA DOCA 轉變 AI 時代的數據中心
- 了解 DOCA 驅動和 DOCA 庫的適用場景
- 探索 DOCA 簡介,適用于 DPU 的免費課程。
- 通過 DOCA Flow 入門 自定進度課程,開始您的學習之旅。
- 立即獲取 AI 就緒型基礎架構,為未來的 AI 工廠提供強大動力支持