GPU – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 02 Feb 2023 07:45:35 +0000 zh-CN hourly 1 196178272 GPU 加速視頻處理, NVIDIA 深度支持 Vulkan 視頻 http://www.open-lab.net/zh-cn/blog/gpu-accelerated-video-processing-with-nvidia-in-depth-support-for-vulkan-video/ Mon, 30 Jan 2023 07:38:04 +0000 http://www.open-lab.net/zh-cn/blog/?p=6128 Continued]]> Vulkan Video 使開發人員可以選擇一個強大的新 API 來訪問視頻處理加速。 NVIDIA 正在通過工具和示例擴展其對 Vulkan 視頻的承諾,以幫助應用程序有效利用這一重要的新功能。這篇文章將幫助您發現 Vulkan 視頻是否適合您的應用程序,如果適合,如何開始。 Khronos Group 的開放標準 Vulkan API 使應用程序能夠實現靈活的低級別 GPU 加速,包括對調度、同步和內存分配的細粒度控制。 Vulkan 視頻將硬件加速流壓縮和解壓縮與 Vulkan 的全部功能無縫集成。這使開發人員能夠在單個有效的運行時間內將 GPU 渲染和計算加速與視頻處理相結合。 Vulkan 視頻為機器學習、視頻編輯、智能視頻分析、視頻轉碼、游戲和電影流,甚至虛擬桌面體驗的推理和培訓等應用程序提供了新的機會。 此外,

Source

]]>
6128
關于擴展 AI 訓練和推理存儲的提示 http://www.open-lab.net/zh-cn/blog/tips-on-scaling-storage-for-ai-training-and-inferencing/ Wed, 25 Jan 2023 07:43:25 +0000 http://www.open-lab.net/zh-cn/blog/?p=6132 Continued]]> GPU 在擴展 AI 方面有許多好處,從更快的模型訓練到 GPU 加速的欺詐檢測。在規劃 AI 模型和部署應用程序時,必須考慮可擴展性挑戰,尤其是性能和存儲。 無論使用何種情況,人工智能解決方案都有四個共同點: 在這些元素中, 數據存儲 通常是規劃過程中最被忽視的元素。為什么?因為隨著時間的推移,在創建和部署 AI 解決方案時并不總是考慮數據存儲需求。 AI 部署的大多數需求都可以通過 POC 或測試環境快速確認。 然而,挑戰在于 POC 傾向于解決單個時間點。培訓或推斷部署可能會持續數月或數年。由于許多公司迅速擴大了其人工智能項目的范圍,基礎設施也必須進行擴展,以適應不斷增長的模型和數據集。 這篇博客解釋了如何提前計劃和擴展數據存儲以進行訓練和推理。 首先,了解 AI 的數據存儲層次結構,包括 GPU 內存、數據結構和存儲設備(圖 2 )。

Source

]]>
6132
通過設備圖啟動啟用 CUDA 圖中的動態控制流 http://www.open-lab.net/zh-cn/blog/enabling-dynamic-control-flow-in-cuda-graphs-with-device-graph-launch/ Mon, 12 Dec 2022 06:43:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5949 Continued]]> CUDA 圖形通過將用戶操作定義為任務圖(可以在單個操作中啟動),顯著減少了啟動大量用戶操作的開銷。提前了解工作流使 CUDA 驅動程序能夠應用各種優化,這在通過流模型啟動時無法執行。 然而,這種性能是以靈活性為代價的:如果事先不知道整個工作流,則 GPU 執行必須中斷,才能返回 CPU 做出決定。 CUDA 設備圖啟動通過基于在運行時確定的數據使任務圖能夠從正在運行的 GPU 內核高效地啟動來解決這個問題。 CUDA 設備圖形發射提供了兩種不同的發射模式:發射和忘記,以及尾部發射,以實現廣泛的應用和使用。 這篇文章演示了如何使用設備圖形啟動和兩種啟動模式。它以設備端工作調度程序為例,它解壓縮文件以進行數據處理。 執行任務圖涉及以下四個步驟: 通過將啟動步驟與其他步驟分離, CUDA 能夠優化工作流,并使圖形啟動盡可能輕。為了方便起見,如果沒有明確調用上傳步驟,

Source

]]>
5949
使用 RAPIDS cuML 實現更快的 HDBSCAN 軟聚類 http://www.open-lab.net/zh-cn/blog/featured-gpu-machine-learning-artificial-intelligence-rapids-technical-walkthrough/ Tue, 06 Dec 2022 03:31:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5980 Continued]]> HDBSCAN 是一種最先進的基于密度的 聚類 算法,已在主題建模、基因組學和地理空間分析等領域流行。 RAPIDS cuML 自 2021 10 月 21.10 發布以來,提供了加速 HDBSCAN ,詳見 GPU-Accelerated Hierarchical DBSCAN with RAPIDS cuML – Let’s Get Back To The Future 。然而,不包括對 軟聚類 (也稱為模糊聚類)的支持。使用軟聚類,為每個點創建值向量(而不是單個聚類標簽),表示該點是每個聚類成員的概率。 在 CPU 上執行 HDBSCAN 軟群集速度緩慢。由于繁重的計算負擔,中型數據集可能需要數小時甚至數天的時間。現在,在 22.10 RAPIDS release 中, cuML 為 HDBSCAN 提供了加速的軟聚類,使該技術能夠在大型數據集上使用。

Source

]]>
5980
IT 經理部署 Edge AI 解決方案指南 http://www.open-lab.net/zh-cn/blog/an-it-managers-guide-to-deploying-an-edge-ai-solution/ Tue, 29 Nov 2022 10:54:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5793 Continued]]> 時機是一切,尤其是當它影響到客戶體驗、底線和生產效率時。 Edge AI 可以通過在間歇性、低帶寬和低成本環境中提供實時智能和增強隱私來提供幫助。 根據 Gartner ®的數據,到 2025 年, 75% 的數據將在傳統數據中心或云之外的邊緣創建和處理。1.難怪成千上萬的公司正在轉向邊緣人工智能來推動其業務轉型。 隨著組織經歷這一轉變,許多 IT 和業務領導者仍處于規劃和執行邊緣計算戰略的早期階段。因為邊緣人工智能是一個新概念,這個過程對很多人來說都很困難。 NVIDIA 是一家領先的人工智能基礎設施公司,擁有豐富的經驗,幫助組織、客戶和合作伙伴成功部署邊緣人工智能解決方案,對這些新概念并不陌生。 為了幫助他人, An IT Manager’s Guide: How to Successfully Deploy an Edge AI Solution…

Source

]]>
5793
使用 NVIDIA Arm HPC 開發套件評估應用程序 http://www.open-lab.net/zh-cn/blog/evaluating-applications-using-the-nvidia-arm-hpc-development-kit/ Wed, 16 Nov 2022 07:38:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5699 Continued]]> NVIDIA Arm HPC 開發者套件 是一個集成的硬件和軟件平臺,用于在異構 GPU 和 CPU 加速計算系統上創建、評估和基準測試 HPC 、 AI 和科學計算應用程序。 NVIDIA 于 2021 3 月宣布上市。 該套件被設計為 HPC 和 AI 應用的下一代 NVIDIA Grace Hopper 超級芯片 的墊腳石。它可用于識別不明顯的 x86 依賴關系,并確保 1H23 中 NVIDIA Grace Hopper 系統 之前的軟件準備就緒。有關詳細信息,請參閱 NVIDIA Grace Hopper 超級芯片白皮書 。 Oak Ridge National Laboratory Leadership Computing Facility ( OLCF )將 NVIDIA Arm HPC 開發套件集成到其現有的 Wombat Arm cluster 中。

Source

]]>
5699
新研究突出了 NVIDIA Clara Parabricks 用于基因組分析的速度和成本節約 http://www.open-lab.net/zh-cn/blog/new-research-highlights-speed-and-cost-savings-of-clara-parabricks-for-genomic-analyses/ Thu, 03 Nov 2022 02:48:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5638 Continued]]> 許多組織正在使用 NVIDIA Clara Parabricks 對大型人群項目、重癥患者、臨床工作流程和癌癥基因組學項目進行快速人類基因組和外顯子分析。他們的工作旨在準確、快速地識別致病變種,與加速的下一代測序以及加速的基因組分析保持同步。 最近, 8 月和 9 月的兩份同行評審的科學出版物強調了 Clara Parabricks 在 de novo 和病原體工作流程中的速度、準確性和成本節約。 普渡大學首席研究員喬瓦娜·卡皮博士和她的團隊試圖了解 Clara Parabricks 相對于瘧疾社區用于變種鑒定的現有方法的性能,以跟蹤瘧疾傳播并使用 1000 個瘧疾基因組監測抗瘧藥物耐藥性。 多年來一直在研究病原體基因組學的 Carpi 博士證明,與 CPU 傳統管道相比,分析速度提高了 27 倍,成本降低了 5 倍,同時準確率達到 99.9% 。瘧疾基因組相對較大(…

Source

]]>
5638
使用 NVIDIA GPU Operator 與 Kubernetes 協調加速虛擬機 http://www.open-lab.net/zh-cn/blog/orchestrating-accelerated-virtual-machines-with-kubernetes-using-nvidia-gpu-operator/ Mon, 31 Oct 2022 05:55:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5575 Continued]]> 如今,許多組織在容器中運行應用程序,以利用基于 Kubernetes 的云原生平臺提供的強大編排和管理。然而,虛擬機仍然是企業的主要數據中心基礎設施平臺,并不是所有應用程序都可以輕松修改為在容器中運行。例如,需要較舊操作系統、自定義內核模塊或專用硬件的應用程序需要更多的精力來進行容器化。 KubeVirt 和 OpenShift 虛擬化是 Kubernetes 的附加組件,提供虛擬機( VM )管理。這些解決方案消除了為 VM 和容器工作負載管理單獨集群的需要。 KubeVirt 是一個社區支持的開源項目,它也是 Red Hat 的 OpenShift 虛擬化功能的上游項目。 多年來, NVIDIA GPU 一直在加速虛擬化的應用程序, NVIDI 還創建了技術,支持 Kubernetes 管理的容器的 GPU 加速。 NVIDIA GPU Operator 的最新版本增加了對…

Source

]]>
5575
使用 NVIDIA Triton 推理服務器支持的 Amazon SageMaker 多模型端點在同一 GPU 上運行多個 AI 模型 http://www.open-lab.net/zh-cn/blog/run-multiple-ai-models-on-same-gpu-with-sagemaker-mme-powered-by-triton/ Tue, 25 Oct 2022 05:25:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5560 Continued]]> 去年 11 月,AWS 在 Amazon SageMaker 中集成了開源推理服務軟件 NVIDIA Triton Inference Server。機器學習 (ML) 團隊可以使用 Amazon SageMaker 作為一項完全托管的服務來大規模構建和部署 ML 模型。 通過這種集成,數據科學家和 ML 工程師可以輕松地使用 NVIDIA Triton 多框架、高性能推理,與 Amazon SageMaker 完全管理的模型部署一起使用。 今天, AWS 在 Amazon 上宣布了 Amazon GPU 多模型端點( MME )。 MME 提供在 GPU 上運行多個深度學習或 ML 模型的能力,同時使用 Triton 推理服務器。有關詳細信息,請參見 Run Multiple Deep Learning Models on GPU with Amazon…

Source

]]>
5560
利用圖形神經網絡和 NVIDIA GPU 優化金融服務欺詐檢測 http://www.open-lab.net/zh-cn/blog/optimizing-fraud-detection-in-financial-services-with-graph-neural-networks-and-nvidia-gpus/ Tue, 04 Oct 2022 07:48:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5362 Continued]]> 欺詐是許多金融服務公司的一個主要問題,據最近的一份報告 Federal Trade Commission report 稱,每年損失數十億美元。財務欺詐、虛假評論、機器人攻擊、賬戶接管和垃圾郵件都是在線欺詐和有害活動的例子。 盡管這些公司采用技術打擊在線欺詐,但這些方法可能有嚴重的局限性。簡單的基于規則的技術和基于特征的算法技術(邏輯回歸、貝葉斯信念網絡、 CART 等)不足以檢測所有欺詐或可疑的在線行為。 例如,欺詐者可能會建立許多協調賬戶,以避免觸發對個人賬戶的限制。此外,由于要篩選的數據量巨大(數十億行,數十 TB ),不斷改進方法的復雜性,以及訓練分類算法所需的欺詐活動真實案例的稀缺性,大規模檢測欺詐行為模式很困難。有關更多詳細信息,請參閱 Intelligent Financial Fraud Detection Practices: An Investigation 。

Source

]]>
5362
構造具有動態參數的 CUDA 圖表 http://www.open-lab.net/blog/constructing-cuda-graphs-with-dynamic-parameters/ Tue, 23 Aug 2022 03:31:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4945 Continued]]> 自 CUDA 10 引入以來, CUDA 圖表 已用于各種應用中。 A.圖表將一組 CUDA 內核和其他 CUDA 操作組合在一起,并使用指定的依賴樹執行它們。它通過結合與 CUDA 內核啟動和 CUDA API 調用相關的驅動程序活動來加速工作流。在可能的情況下,它還通過硬件加速來增強依賴性,而不是僅僅依賴 CUDA 流和事件。 構造 CUDA 圖表有兩種主要方法:顯式 API 調用和流捕獲。 通過這種構造圖的方法,通過調用 CUDA API ,將由 CUDA 內核和 CUDA 內存操作形成的圖的節點添加到圖表中,其中被節點類型替換。節點之間的依賴關系通過 API 顯式設置。 使用明確的 API 構造 CUDA 圖表的好處是 API 返回節點句柄(),這些句柄可以用作未來節點更新的參考。例如,

Source

]]>
4945
應用語言模型技術創作人工智能音樂 http://www.open-lab.net/zh-cn/blog/leveraging-ai-music-with-nvidia-dgx-2/ Mon, 22 Aug 2022 03:24:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4942 Continued]]> 諸如 NVIDIA Megatron LM 和 OpenAI GPT-2 和 GPT-3 等語言模型已被用于提高人類生產力和創造力。具體而言,這些模型已被用作編寫、編程和繪制的強大工具。相同的架構可以用于音樂創作。 在這些領域中使用語言模型需要大型數據集。從 50GB 的未壓縮文本文件開始生成語言并不奇怪。這意味著需要 GPU 計算日志來有效地訓練模型,以進行快速開發、原型制作和迭代。 這篇文章介紹了在人工智能音樂領域使用 NVIDIA DGX-2 站臺 DGX-2 極大地促進了數據預處理和訓練語言模型的進步。 計算音樂數據集有兩大類。一種方法涉及對表示為純音頻( WAV 文件或 MP3 )的音樂進行訓練。第二種方法不適用于純音頻。相反,您可以將任何類似于樂譜的內容映射到標記表示。 通常,這需要標記哪個音符開始( C 、 D 、 E 、

Source

]]>
4942
使用 NVIDIA RTX 光線跟蹤的最佳實踐(更新) http://www.open-lab.net/zh-cn/blog/best-practices-for-using-nvidia-rtx-ray-tracing-updated/ Mon, 25 Jul 2022 05:41:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4685 Continued]]> 這篇文章是 最佳實踐:使用 NVIDIA RTX 光線跟蹤 . 這篇文章根據我們目前在游戲中使用 NVIDIA RTX 光線跟蹤的經驗收集了最佳實踐。實用技巧被組織成簡短的、可操作的項目,供今天從事光線跟蹤工作的開發人員使用。他們旨在深入了解什么樣的解決方案在大多數情況下會帶來良好的性能。為了找到特定案例的最佳解決方案,我總是建議進行分析和實驗。 本文中使用的常見縮寫和短詞: 本節重點介紹光線跟蹤加速結構的構建和管理,這是將光線跟蹤用于任何目的的起點。主題包括: 考慮異步計算作為構建。 特別是在混合渲染中, G 緩沖區或陰影貼圖被光柵化,在異步計算的基礎上執行可能是有益的。 考慮將工作線程生成為構建命令列表。 生成生成生成命令可能包括大量 CPU 端工作。它可以直接在編譯調用中,也可以直接在一些相關任務中,如對象的剔除。

Source

]]>
4685
人工智能服務器和人工智能工作站之間的差異 http://www.open-lab.net/zh-cn/blog/differences-between-ai-servers-and-ai-workstations/ Thu, 21 Jul 2022 05:08:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4659 Continued]]> 如果你想知道人工智能服務器和人工智能工作站有何不同,你不是唯一一個。假設嚴格的人工智能用例具有最小的圖形工作量,那么明顯的差異可以是最小到零。從技術上講,你可以用一個作為另一個。然而,根據要求每個人執行的工作量,每個人的結果將完全不同。因此,清楚地了解人工智能服務器和人工智能工作站之間的差異非常重要。 暫時撇開人工智能不談,服務器通常都是聯網的,可以作為一種共享資源來運行跨網絡訪問的服務。工作站通常用于執行特定用戶、應用程序或用例的請求。 工作站可以作為服務器,還是服務器可以作為工作站?答案是“是的”,但忽略工作站或服務器的設計目的通常沒有意義。例如,工作站和服務器都可以支持多線程工作負載,但如果服務器可以支持比工作站多 20 倍的線程(其他所有線程都相同),那么服務器將更適合為處理器同時處理創建多個線程的應用程序。 服務器經過優化,可以作為客戶端的網絡資源進行擴展。

Source

]]>
4659
介紹 NVIDIA HGX H100 :用于人工智能和高性能計算的加速服務器平臺 http://www.open-lab.net/zh-cn/blog/introducing-nvidia-hgx-h100-an-accelerated-server-platform-for-ai-and-high-performance-computing/ Fri, 08 Apr 2022 09:06:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=3673 Continued]]> NVIDIA 的使命是加快我們的時代達芬奇和愛因斯坦的工作,并賦予他們解決社會的巨大挑戰。隨著 人工智能 ( AI )、 高性能計算 ( HPC )和數據分析的復雜性呈指數級增長,科學家需要一個先進的計算平臺,能夠在一個十年內實現百萬次的加速,以解決這些非同尋常的挑戰。 為了回答這個需求,我們介紹了NVIDIA HGX H100 ,一個由 NVIDIA Hopper 架構 供電的密鑰 GPU 服務器構建塊。這一最先進的平臺安全地提供了低延遲的高性能,并集成了從網絡到數據中心級計算(新的計算單元)的全套功能。 在這篇文章中,我將討論NVIDIA HGX H100 是如何幫助我們加速計算數據中心平臺的下一個巨大飛躍。 HGX H100 8- GPU 是新一代 Hopper GPU 服務器的關鍵組成部分。它擁有八個 H100 張量核 GPU 和四個第三代 NV 交換機。

Source

]]>
3673
人人超碰97caoporen国产