Uncategorized – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Wed, 09 Apr 2025 05:58:55 +0000 zh-CN hourly 1 196178272 通過 NVIDIA NeMo 框架的最新功能全鏈路加速視頻基礎模型的訓練和微調 http://www.open-lab.net/zh-cn/blog/accelerate-custom-video-foundation-model-pipelines-with-new-nvidia-nemo-framework-capabilities/ Tue, 07 Jan 2025 06:10:49 +0000 http://www.open-lab.net/zh-cn/blog/?p=12561 Continued]]> 生成式 AI 已經從基于文本的模型發展到多模態模型,最近還擴展到了視頻領域,為各行各業開辟了新的潛在用途。視頻模型可以為用戶創造新的體驗,以及大規模模擬場景來訓練自主代理。它們正在幫助包括機器人技術、自動駕駛汽車和娛樂業在內的多個行業實現變革。 由于視頻數據的龐大和多樣性,視頻基礎模型的開發面臨著獨特的挑戰。這也凸顯了可擴展的數據管理流程和訓練框架的必要性,以此來理解時間和空間動態的模型。 我們發布了 NVIDIA NeMo 框架中全新的視頻基礎模型功能,這是一個端到端的訓練框架,用于預訓練和微調您的專屬視頻基礎模型。該框架包括高吞吐量的數據管理、高效的多模態數據加載功能、可擴展的模型訓練,以及并行化的框架內推理。 高吞吐量視頻數據處理鏈路 NVIDIA NeMo Curator 通過高效處理和準備高質量的數據(包括大型視頻數據集),

Source

]]>
12561
FP8 訓練的挑戰及最佳實踐 http://www.open-lab.net/zh-cn/blog/fp8-challenges-best-practices/ Thu, 24 Oct 2024 09:08:20 +0000 http://www.open-lab.net/zh-cn/blog/?p=11585 Continued]]> 本文主要介紹了FP8數據格式在大型模型訓練中的應用、挑戰及最佳實踐,展示了FP8在提升訓練速度和效率方面的潛力和實際效果。 一、FP8 格式 在介紹 FP8 格式之前,我們需要回答一個問題:為什么需要討論 FP8?從圖中可以看出,近年來大模型所需的算力急劇增長,從 GPT-1 到 GPT-3,再到類似 GPT-4 的 GPT MOE 1.8T,算力需求增長了數萬倍。這種增長速度的背后是硬件算力的提升。訓練過程中的一個重要指標是訓練時間。如果訓練一個模型需要半年甚至一年,這在實際操作中是不可行的,因為實際訓練時間可能是理論值的兩到三倍。因此,算力基礎設施的提升是大模型迅速發展的基礎。 從算力角度來看,近年來 GPU 的單卡算力提升了大約一千倍,這包括工藝制程的改進、硬件結構的優化以及更低的訓練精度。隨著 FP8 的引入,

Source

]]>
11585
使用 NVIDIA NIM 在阿里云容器服務(ACK)中加速 LLM 推理 http://www.open-lab.net/zh-cn/blog/nim-aliyun-accelerates-llm-inference/ Mon, 02 Sep 2024 07:41:24 +0000 http://www.open-lab.net/zh-cn/blog/?p=11124 Continued]]> 大語言模型(LLM)是近年來發展迅猛并且激動人心的熱點話題,引入了許多新場景,滿足了各行各業的需求。隨著開源模型能力的不斷增強,越來越多的企業開始嘗試在生產環境中部署開源模型,將AI模型接入到現有的基礎設施,優化系統延遲和吞吐量,完善監控和安全等方面。然而要在生產環境中部署這一套模型推理服務過程復雜且耗時。為了簡化流程,幫助企業客戶加速部署生成式 AI 模型,本文結合 NVIDIA NIM (一套專為安全、可靠地部署高性能 AI 模型推理而設計的微服務,是一套易于使用的預構建容器化工具)和阿里云容器服務 ACK 等產品,提供了一套開箱即用,可以快速構建一個高性能、可觀測、靈活彈性的 LLM 模型推理服務的操作指南。 阿里云容器服務 Kubernetes 版 ACK(Container Service for…

Source

]]>
11124
cuTENSOR 2.0:用于加速張量計算的全面指南 http://www.open-lab.net/zh-cn/blog/cutensor-2-0-a-comprehensive-guide-for-accelerating-tensor-computations/ Fri, 08 Mar 2024 07:08:27 +0000 http://www.open-lab.net/zh-cn/blog/?p=9225 Continued]]> NVIDIA cuTENSOR 是一個 CUDA 數學庫,提供經過優化的張量運算。張量是一種密集的多維數組或數組片段。cuTENSOR 2.0 的發布代表著功能和性能方面的重大更新,這一版本重構了其 API,使其更富有表現力,包括在 NVIDIA Ampere 和 NVIDIA Hopper GPU 架構上實現的出色性能。 本文介紹了 cuTENSOR 2.0 庫,以及如何使用其運算。有關更多信息,請參閱系列中的下一篇文章 cuTENSOR 2.0:性能和應用. 雖然張量運算看起來很陌生,但它們描述了許多自然發生的算法。尤其是,這些運算在機器學習和量子化學中十分常見。 如果您已經使用 NVIDIA cuBLAS 或 BLAS,cuTENSOR 提供的三個例程可能會讓您感到眼前一亮: 主要區別在于,cuTENSOR 可將這些運算擴展到多維度 .

Source

]]>
9225
借助 NVIDIA MONAI Cloud API 加速 3D 醫學影像的 AI 工作流 http://www.open-lab.net/zh-cn/blog/accelerate-ai-workflows-for-3d-medical-imaging-with-nvidia-monai-cloud-apis/ Sun, 26 Nov 2023 06:41:06 +0000 http://www.open-lab.net/zh-cn/blog/?p=8371 Continued]]> AI 越來越多地用于改善醫學成像,以進行健康篩查和風險評估。例如,醫學影像分割可為腫瘤檢測和治療規劃提供重要數據。然而,醫學影像的獨特性和多樣性使得實現一致、可靠的結果具有挑戰性。 NVIDIA MONAI Cloud API 幫助解決這些挑戰,簡化了平臺集成商的 AI 功能和基礎設施設置之旅。本文介紹了 NVIDIA MONAI Cloud API、VISTA-3D 和 Auto3DSeg,并解釋了如何同時使用它們來實現自適應 3D 醫學成像。 NVIDIA MONAI Cloud API 可提供低延遲、交互式且經濟高效的 AI 輔助標注工作流。借助持續學習機制,該模型可適應新的真實數據,使其能夠隨著時間的推移保持相關性和可靠性。 VISTA-3D 基于大量數據集進行訓練,是用于 3D 醫學成像的專用交互式基礎模型。VISTA – 3D 為 NVIDIA…

Source

]]>
8371
將數據中心管理功能推向邊緣 http://www.open-lab.net/zh-cn/blog/bringing-data-center-management-features-to-the-edge/ Mon, 23 Jan 2023 08:58:07 +0000 http://www.open-lab.net/zh-cn/blog/?p=6145 Continued]]> NVIDIA Fleet Command 宣布了新功能,為 IT 管理員提供了更高級的控制和邊緣環境保護。 與傳統數據中心在單個位置有數百臺服務器不同,邊緣部署在數千個位置有一臺或兩臺服務器。傳統的 IT 管理工具很難滿足這些分布式環境的需求,尤其是在人工智能方面。 Fleet Command 是專門為管理邊緣 AI 環境而構建的,為容器編排提供了一個簡單、受管理的平臺。這使得從單個基于云的控制臺在數千個分布式環境中安全地調配和部署 AI 應用程序和系統變得容易。 視頻 1 。任何技能級別的管理員都可以在幾分鐘內跨其邊緣基礎設施部署 AI 憑借用于管理邊緣環境的更強大的選項和工具, Fleet Command 現在提供了高級功能,包括邊緣群集的高可用性、高級存儲定制、安全的應用程序通信隧道和零停機管理更新。

Source

]]>
6145
縮短聯絡中心智能虛擬助理的開發時間 http://www.open-lab.net/zh-cn/blog/reducing-development-time-for-intelligent-virtual-assistants-in-contact-centers/ Thu, 15 Dec 2022 07:12:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5901 Continued]]> 隨著全球服務經濟的發展,公司越來越依賴于聯系中心來改善客戶體驗,提高客戶滿意度,降低成本并提高效率。客戶需求的增長速度遠遠超過了聯絡中心的就業率。與高代理流失率相結合,客戶需求產生了對更自動化的實時客戶通信的需求,從而增強了代理的能力。 研究人員早在 20 世紀 70 年代就認識到了這些趨勢,并開始開發可通過觸音電話導航的原始語音菜單。雖然語音菜單可能會回答常見問題,并減輕聯絡中心代理的壓力,但客戶通常會發現與他們互動令人沮喪。 由于以下任何原因,您可能是想要直接與代理通話的來電者之一,而不是收聽多層預先錄制的語音提示: 為了有效解決這些問題,公司已開始將智能虛擬助理(也稱為 AI 虛擬助理)集成到其聯絡中心解決方案中。 在本篇文章中,我們概述了如何使用 NVIDIA 聯絡中心智能虛擬助理工作流和組件(如 NVIDIA Riva 語音技術和 speech AI…

Source

]]>
5901
隨著 NVIDIA PhysX 5 的發布,開源仿真得以擴展 http://www.open-lab.net/zh-cn/blog/open-source-simulation-expands-with-nvidia-physx-5-release/ Tue, 08 Nov 2022 03:31:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5655 Continued]]> NVIDIA PhysX 5 SDK 的最新版本現在可在與 NVIDIA PhysX 4 相同的開源許可條款下使用,以幫助在全球行業中擴展模擬工作流和應用程序。您可以在 NVIDIA-Omniverse/PhysX GitHub 存儲庫中找到這個備受期待的更新。 PhysX 是一項長期的 GameWorks 技術,已成為 NVIDIA Omniverse 的主要物理引擎和關鍵基礎技術支柱。它是一個強大的模擬引擎,目前被行業領導者用于機器人、深度強化學習、自動駕駛、工廠自動化和視覺效果。對于下一代機器人應用,它將以模擬和測試自主機器所需的實時速度實現高保真仿真。 Open 3D 基金會執行董事兼 Linux 基金會數字媒體和游戲總經理 Royal O ‘ Brien 表示:“擁有一個功能強大、開源的物理工具,如 NVIDIA 的新 PhysX 5 庫,

Source

]]>
5655
從網絡仿真到數據中心數字孿生 http://www.open-lab.net/zh-cn/blog/evolving-from-network-simulation-to-data-center-digital-twin/ Mon, 03 Oct 2022 07:55:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5366 Continued]]> 數字孿生越來越受到各行業的關注。雖然這一概念對許多人來說相對較新,但數字孿生對 IT 來說并不陌生, IT 已經認識到了它的好處。其中一個好處是模擬網絡環境的價值。多年來,網絡運營商一直在追逐網絡模擬器。 Cisco’s Packet Tracer 是一款非常流行的早期工業網絡模擬器。這個簡單的工具為無數訓練有素的網絡管理員提供了首次接觸網絡模擬的機會。 Packet Tracer 僅提供模擬少數通用網絡設備的功能,支持的功能列表有限。即使在那時,也很容易看到為運營商提供的價值網絡模擬。 多年來,網絡模擬器的功能在云計算的幫助下得到了極大的發展。許多基礎設施設備被重新設想為云本地產品,并在公共云中作為 VM 和容器運行。它們還非常適合數據中心基礎設施模擬。 有了大量新的模擬設備圖像,可以從模擬中提取的值已經增加。最初的網絡模擬已經發展成為一種新的整體數據中心基礎設施模擬類別。

Source

]]>
5366
用 NVIDIA Jetson Xavier NX 構建四節點集群 http://www.open-lab.net/zh-cn/blog/building-a-four-node-cluster-with-nvidia-jetson-xavier-nx/ Fri, 01 Jul 2022 07:33:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4521 Continued]]> 跟隨大型超級計算機(如 NVIDIA DGX SuperPOD )的腳步,本文將引導您完成創建適合您桌面的小型集群的過程。以下是完成該項目的推薦硬件和軟件。該小規模集群可用于加速人工智能( AI )和深度學習( DL )工作流的訓練和推理,包括使用來自 NVIDIA NGC 目錄等來源的容器化環境。 硬件: 雖然 Seeed Studio Jetson Mate 、 USB-C PD 電源和 USB-C 電纜不是必需的,但在本文中使用了它們,強烈建議將其用于整潔緊湊的桌面集群解決方案。 軟件: 有關更多信息,請參閱 NVIDIA Jetson Xavier NX 開發工具包 . 本文的第一次迭代針對 Slurm 控制節點()。配置第一個節點后,可以選擇為每個模塊重復每個步驟,也可以為其他模塊克隆第一個 microSD 卡;

Source

]]>
4521
使用 NVIDIA QAT 工具包為 TensorFlow 和 NVIDIA TensorRT 加速量化網絡 http://www.open-lab.net/zh-cn/blog/accelerating-quantized-networks-with-qat-toolkit-and-tensorrt/ Thu, 16 Jun 2022 02:50:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4327 Continued]]> 我們很高興宣布 NVIDIA Quantization Aware Training ( QAT ) Toolkit for TensorFlow 2 目標是在 NVIDIA GPU 上使用 NVIDIA TensorRT 加速量化網絡。該工具包為您提供了一個易于使用的 API ,以一種優化的方式量化網絡,只需幾行額外的代碼即可進行 TensorRT 推理。 這篇文章伴隨著 走向 INT8 推理:使用 TensorRT 部署量化感知訓練網絡的端到端工作流 GTC 課程。有關 PyTorch 量化工具包等效工具,請參閱 PyTorch 量化 . 加速深層神經網絡( DNN )推理是實現實時應用(如圖像分類、圖像分割、自然語言處理等)延遲關鍵部署的重要步驟。 改進 DNN 推理延遲的需要引發了人們對以較低精度運行這些模型的興趣,如 FP16 和 INT8 。

Source

]]>
4327
最大限度地減少 Jetson 上的存儲使用 http://www.open-lab.net/zh-cn/blog/minimizing-storage-usage-on-jetson/ Sat, 11 Jun 2022 01:39:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4300 Continued]]> NVIDIA Jetson 為開發提供了靈活的存儲選項/配置,但一些 Jetson 模塊配備了有限的 eMMC 閃存存儲大小,以實現更具成本意識的大規模產品部署。 起初,在有限的存儲空間中似乎不可能安裝您的應用程序和必要的庫,尤其是使用全套 NVIIA JetPack 、 BSP 以及 NVIDIA 為 Jetson 預先打包的所有開發軟件。 但是,您可以通過刪除不必要的包、庫和其他資產來減少磁盤使用量。表 2 顯示了如何在一些最新的 NVIDIA JetPack 版本上回收超過 8 GB 的存儲空間。 在這篇文章中,我將介紹簡化的步驟,以最大限度地減少 Jetson 設備上的磁盤使用,同時分享有關分析磁盤使用情況的方法、實際命令以及 JetPack 不同版本上的示例輸出的提示。我還展示了如何檢查 AI 應用程序在精簡配置下是否仍能正常工作。

Source

]]>
4300
通過 NVIDIA ISAAC ROS 傳輸改善 ROS 2 應用的感知性能 http://www.open-lab.net/zh-cn/blog/improve-perception-performance-for-ros-2-applications-with-nvidia-isaac-transport-for-ros/ Tue, 24 May 2022 04:25:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4143 Continued]]> 自 2021 10 月以來, NVIDIA 和 Open Robotics 合作推出了兩項重要的更改,現已發布在簡陋的 ROS 2 版本中,以提高提供硬件加速器的計算平臺的性能。 新的 ROS 2 簡易硬件加速特性稱為類型自適應和類型協商。 NVIDIA 將在下一次 NVIDIA ISAAC ROS 發布( 2022 年 6 月底)中發布一個實現類型自適應和類型協商的軟件包。 這些簡單但功能強大的框架添加將顯著提高開發人員的性能,這些開發人員希望將人工智能/機器學習和計算機視覺功能納入其基于 ROS 的應用程序中。 Open Robotics 首席執行官布萊恩·格基( Brian Gerkey )表示:“隨著 ROS 開發人員向其機器人應用程序添加更多的自主權,機器人上的計算機正變得更加強大。我們一直在努力改進 ROS 框架,

Source

]]>
4143
使用 NVIDIA CUDA-Pointpillars 檢測點云中的對象 http://www.open-lab.net/zh-cn/blog/detecting-objects-in-point-clouds-with-cuda-pointpillars/ Thu, 13 Jan 2022 05:02:31 +0000 http://www.open-lab.net/zh-cn/blog/?p=2761 Continued]]> 點云是坐標系中的點數據集。點包含豐富的信息,包括三維坐標(X、Y、Z)、顏色、分類值、強度值和時間等。點云主要來自于各種NVIDIA Jetson用例中常用的激光雷達,如自主機器、感知模塊和3D建模。 其中一個關鍵應用是利用遠程和高精度的數據集來實現3D對象的感知、映射和定位算法。 PointPillars是最常用于點云推理的模型之一。本文將探討為Jetson開發者提供的NVIDIA CUDA加速PointPillars模型。馬上下載CUDA-PointPillars模型。 本文所介紹的CUDA-Pointpillars可以檢測點云中的對象。其流程如下: 基本預處理步驟將點云轉換為基本特征圖。基本特征圖包含以下組成部分: 預處理步驟將基本特征圖(4個通道)轉換為 BEV 特征圖(10個通道)。

Source

]]>
2761
利用 NVIDIA Air 市場帶來網絡化 http://www.open-lab.net/zh-cn/blog/bringing-networking-into-view-with-the-air-marketplace/ Wed, 15 Dec 2021 06:48:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=2654 Continued]]> 網絡模擬是必不可少的,因為基于 CLI 和冒險的基于復制/粘貼的配置的經典部署模型在中大規模環境中已變得效率低下。 NVIDIA Air 提供了一個平臺,用于構建、模擬和體驗由現代網絡操作系統( NOS )驅動的現代數據中心。 NVIDIA Air 是一個基于云的環境,在瀏覽器中運行,后端由 NVIDIA Cumulus Linux 、 SONiC 和 Linux (即標準服務器 Linux )提供支持。這種網絡模擬方法顯示了從傳統網絡到本地云新領域的范式轉變。 Air 的設計目的是消除對 hypervisor 的需求, hypervisor 對于快速功能測試來說常常是資源瓶頸和耗時限制。 Air 解決了許多情況: Air 為網絡團隊提供了一個始終可訪問、始終在線的培訓或試生產環境。企業現在可以縮小硬件占地面積,減少開支;由于硬件需求減少,資本支出降低;

Source

]]>
2654
人人超碰97caoporen国产