模型/庫/框架 – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Wed, 14 May 2025 08:30:55 +0000
zh-CN
hourly
1
196178272 -
借助 NVIDIA Nemo 框架,在遠程數據中心網絡中加速 LLM 訓練
http://www.open-lab.net/zh-cn/blog/turbocharge-llm-training-across-long-haul-data-center-networks-with-nvidia-nemo-framework/
Wed, 14 May 2025 06:09:28 +0000
http://www.open-lab.net/zh-cn/blog/?p=13816
Continued]]>
多數據中心訓練對 AI 工廠至關重要,因為預訓練擴展會推動更大模型的創建,導致對計算性能的需求超過單個設施的能力。通過將工作負載分配到多個數據中心,組織可以克服功耗、散熱和空間方面的限制,以更高的效率訓練更大、更準確的模型。 最新版本的 NVIDIA NeMo Framework 25.02 和 NVIDIA Megatron-Core 0.11.0 為 多數據中心大語言模型 (LLM) 訓練帶來了新功能。此次更新使用戶能夠將訓練擴展到單個數據中心的物理和操作限制之外,通過利用多個站點的組合功能,實現前所未有的效率和性能。 在本文中,我們將介紹 NeMo Framework 和 Megatron-Core 如何通過以下關鍵進展徹底改變多數據中心訓練: 訓練萬億參數模型不僅需要增加更多 GPU,還需要克服影響成本和性能的關鍵基礎設施挑戰。
Source
]]>
13816
-
在 Azure AI Foundry 上使用 NVIDIA NIM 加速 AI 推理
http://www.open-lab.net/zh-cn/blog/accelerated-ai-inference-with-nvidia-nim-on-azure-ai-foundry/
Mon, 12 May 2025 05:22:02 +0000
http://www.open-lab.net/zh-cn/blog/?p=13799
Continued]]>
將 NVIDIA NIM 微服務 集成到 Azure AI Foundry ,標志著企業 AI 開發的重大飛躍。通過將 NIM 微服務與 Azure 可擴展的安全基礎架構相結合,企業組織現在可以比以往更高效地部署功能強大的即用型 AI 模型。 NIM 微服務容器化,可為預訓練和自定義 AI 模型提供 GPU 加速推理。NIM 微服務集成了 NVIDIA 和更廣泛的社區的領先推理技術,可為 NVIDIA 加速基礎設施上的最新 AI 模型提供優化的響應延遲和吞吐量。 開發者可以通過符合每個領域行業標準的 API 訪問 AI 模型,從而簡化 AI 應用的開發。NIM 支持跨多個領域和一系列 AI 模型的 AI 用例,包括社區模型、NVIDIA AI Foundation 模型和 NVIDIA 合作伙伴提供的自定義 AI 模型。其中包括語音、圖像、視頻、3D、藥物研發、
Source
]]>
13799
-
應用具有推理能力的專用大語言模型(LLM)加速電池研究
http://www.open-lab.net/zh-cn/blog/applying-specialized-llms-with-reasoning-capabilities-to-accelerate-battery-research/
Fri, 09 May 2025 05:42:15 +0000
http://www.open-lab.net/zh-cn/blog/?p=13808
Continued]]>
人工評估材料通常會拖慢電池創新等復雜領域的科學研究,限制了每天只有數十個候選材料的進展。在這篇博客文章中,我們探討了通過推理能力增強的領域適應型大語言模型 (LLM) 如何改變科學研究,尤其是在電池創新等高風險、復雜領域。我們深入探討了 SES AI 的 Molecular Universe LLM,這是一個具有 70B 參數的科學 LLM,展示了這種方法的實際應用。 您將了解使用 NVIDIA NeMo Curator 、 NVIDIA NeMo Framework 、 NVIDIA DGX Cloud 和 NVIDIA NIM 構建的訓練和推理工作流,以及如何結合領域自適應、指令調整和推理對齊等技術來加速科學發現,同時提高專家工作效率。 LLM 在推進科學研究方面展現出巨大潛力,助力完成論文總結、綜合復雜見解和生成新穎假設等任務。然而,
Source
]]>
13808
-
NVIDIA NV-Tesseract 新一代時間序列模型助力數據集處理和異常檢測的突破性進展
http://www.open-lab.net/zh-cn/blog/new-nvidia-nv-tesseract-time-series-models-advance-dataset-processing-and-anomaly-detection/
Tue, 06 May 2025 06:51:35 +0000
http://www.open-lab.net/zh-cn/blog/?p=13835
Continued]]>
時間序列數據已從簡單的歷史記錄演變為跨行業關鍵決策的實時引擎。無論是簡化物流、預測市場,還是預測機器故障,企業組織都需要比傳統方法更復雜的工具。 NVIDIA GPU 加速的深度學習使各行各業能夠獲得實時分析。首席執行官 Jensen Huang 將 GPU 描述為 時間機器 ,使企業能夠預測趨勢并迅速采取行動。 隆重推出 NV-Tesseract,這是一款通過 NVIDIA DGX 云計劃開發的尖端模型系列,旨在推進時間序列分析中的深度學習。 該模型系列可以快速處理大量時間序列數據集、發現隱藏的模式、檢測異常情況,并快速準確地預測市場變化。其影響遍及多個行業,包括: 時間序列 AI 需要專門的解決方案,沒有一個模型能夠有效處理所有預測任務。該架構擁抱這一現實,提供針對不同功能定制的專用模型。 它可確保企業組織獲得高性能、特定領域的解決方案,
Source
]]>
13835
-
CUDA 入門教程:更簡單的介紹 (更新版)
http://www.open-lab.net/zh-cn/blog/even-easier-introduction-cuda-2/
Fri, 02 May 2025 06:58:38 +0000
http://www.open-lab.net/zh-cn/blog/?p=13841
Continued]]>
注意:本博文最初發布于 2017 年 1 月 25 日,但已進行編輯以反映新的更新。 本文非常簡單地介紹了 CUDA,這是 NVIDIA 的熱門并行計算平臺和編程模型。我在 2013 年寫過一篇文章,名為“ An Easy Introduction to CUDA ”,多年來一直備受歡迎。但是,CUDA 編程變得更加簡單,GPU 也變得更快了,所以現在是時候更新 (甚至更輕松) 介紹了。 CUDA C++ 只是使用 CUDA 創建大規模并行應用程序的多種方法之一。它允許您使用功能強大的 C++ 編程語言來開發由 GPU 上運行的數千個并行線程加速的高性能算法。許多開發者都以這種方式加速了需要大量計算和帶寬的應用程序,包括支持人工智能持續革命 (即 Deep Learning ) 的庫和框架。 您聽說過 CUDA,并且有興趣學習如何在自己的應用中使用 CUDA。如果您是 C++…
Source
]]>
13841
-
借助 NVIDIA 在生產應用中集成和部署 Tongyi Qwen3 模型
http://www.open-lab.net/zh-cn/blog/integrate-and-deploy-tongyi-qwen3-models-into-production-applications-with-nvidia/
Fri, 02 May 2025 01:00:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=13688
Continued]]>
阿里巴巴近期發布了其開源的混合推理大語言模型(LLM)通義千問 Qwen3,此次 Qwen3 開源模型系列包含兩款混合專家模型 (MoE) 235B-A22B(總參數 2,350 億,激活參數 220 億)和 30B-A3B,以及六款稠密(Dense)模型 0.6B、1.7B、4B、8B、14B、32B。 現在,開發者能夠基于 NVIDIA GPU,使用 NVIDIA TensorRT-LLM、Ollama、SGLang、vLLM 等推理框架高效集成和部署 Qwen3 模型,從而實現極快的詞元 (token) 生成,以及生產級別的應用研發。 本文提供使用 Qwen3 系列模型的最佳實踐,我們會展示如何使用上述框架來部署模型實現高效推理。開發者可以根據他們的應用場景需求來選擇合適的框架,例如高吞吐量、低延遲、或是 GPU 內存占用(GPU footprint)。
Source
]]>
13688
-
借助超參數優化實現堆疊泛化:使用 NVIDIA cuML 在15分鐘內最大化準確性
http://www.open-lab.net/zh-cn/blog/stacking-generalization-with-hpo-maximize-accuracy-in-15-minutes-with-nvidia-cuml/
Thu, 01 May 2025 07:09:25 +0000
http://www.open-lab.net/zh-cn/blog/?p=13850
Continued]]>
堆疊泛化是機器學習 (ML) 工程師廣泛使用的技術,通過組合多個模型來提高整體預測性能。另一方面,超參數優化 (HPO) 涉及系統搜索最佳超參數集,以更大限度地提高給定 ML 算法的性能。 同時使用堆棧和 HPO 時,一個常見的挑戰是巨大的計算需求。這些方法通常需要訓練多個模型,并針對每個模型迭代大量超參數組合。這可能會很快變得耗費大量資源和時間,尤其是對于大型數據集而言。 在本文中,我們將演示如何簡化此工作流,該工作流將堆棧泛化與 HPO 相結合。我們將展示如何使用 cuML 庫的 GPU 加速計算在短短 15 分鐘內執行此工作流。得益于 cuML 與 scikit-learn 的零代碼更改集成,您可以使用現有的 ML 工作流進行 GPU 加速 (無需修改代碼) ,并實現相同的模型準確性。與基于 CPU 的執行 (通常一次只運行一個試驗) 不同,
Source
]]>
13850
-
借助 NVIDIA cuBLAS 12.9 提高矩陣乘法速度和靈活性
http://www.open-lab.net/zh-cn/blog/boosting-matrix-multiplication-speed-and-flexibility-with-nvidia-cublas-12-9/
Thu, 01 May 2025 07:04:57 +0000
http://www.open-lab.net/zh-cn/blog/?p=13847
Continued]]>
NVIDIA CUDA-X 數學庫助力開發者為 AI、科學計算、數據處理等領域構建加速應用。 CUDA-X 庫的兩個最重要的應用是訓練和推理 LLM,無論是用于日常消費者應用,還是用于藥物研發等高度專業化的科學領域。要在 NVIDIA Blackwell 架構上高效訓練 LLM 和執行 具有突破性性能的推理任務 ,多個 CUDA-X 庫不可或缺。 cuBLAS 是一個 CUDA-X 庫,可提供高度優化的內核,用于執行最基本的線性代數任務,例如矩陣乘法 (matmuls) ,這些任務對于 LLM 訓練和推理至關重要。 NVIDIA CUDA 工具包 12.9 中新推出的 cuBLAS 支持進一步優化 cuBLAS matmul 性能的新功能。它還通過調整浮點精度和利用模擬的基礎模組,實現了更大的靈活性,以平衡準確性和能效等需求。 本文將介紹 cuBLAS 12.9…
Source
]]>
13847
-
使用 NVIDIA OptiX 9 和 NVIDIA RTX Mega Geometry 實現動態場景的快速光線追蹤
http://www.open-lab.net/zh-cn/blog/fast-ray-tracing-of-dynamic-scenes-using-nvidia-optix-9-and-nvidia-rtx-mega-geometry/
Thu, 24 Apr 2025 03:57:25 +0000
http://www.open-lab.net/zh-cn/blog/?p=13723
Continued]]>
實時光線追蹤是一種強大的渲染技術,可以生成非常逼真的圖像。 NVIDIA OptiX 和 RTX 技術使這一切成為可能,即使是具有大量細節的場景也是如此。然而,當這些細節豐富的場景涉及到動作和動畫時,保持實時光線追蹤性能可能具有挑戰性。 本文將探討 NVIDIA OptiX 9 的全新 RTX Mega Geometry 功能 (尤其是 Cluster Acceleration Structures (CLAS)) 如何實現動態、高密度幾何圖形的快速光線追蹤。我們將特別關注細分表面。您可以在 NVIDIA/optix-subd GitHub 資源庫中獲取演示 OptiX 中 CLAS API 的開源示例代碼以及本文中描述的概念。 RTX 硬件上的 NVIDIA OptiX 能夠以每個像素一個樣本的速度實時光線追蹤大型場景,前提是幾何圖形保持不變。
Source
]]>
13723
-
利用 NVIDIA DesignWorks 實現實時 GPU 加速的高斯體渲染示例 vk_gaussian_splatting
http://www.open-lab.net/zh-cn/blog/real-time-gpu-accelerated-gaussian-splatting-with-nvidia-designworks-sample-vk_gaussian_splatting/
Wed, 23 Apr 2025 05:42:33 +0000
http://www.open-lab.net/zh-cn/blog/?p=13611
Continued]]>
高斯射是一種渲染復雜 3D 場景的新穎方法,可將這些場景表示為 3D 空間中各向異性 Gaussians 的集合。這項技術能夠實時渲染從小集圖像中學習到的逼真場景,非常適合游戲、虛擬現實和實時專業可視化領域的應用。 vk_gaussian_splatting 是基于 Vulkan 的新示例,展示了實時高斯射,這是一種先進的立體渲染技術,可實現輻射場的高效表示。這是 NVIDIA DesignWorks 示例 的最新成員。 NVIDIA DevTech 團隊將這個新的示例項目視為探索和比較 3D 高斯射 (3D Gaussian splatting) 實時可視化的各種方法的試驗平臺。通過評估各種技術和優化,該團隊旨在就使用 Vulkan API 時的性能、質量和實施權衡提供有價值的見解。 初始實施基于光柵化,展示了兩種渲染 splats 的方法,
Source
]]>
13611
-
NVIDIA Secure AI 正式發布
http://www.open-lab.net/zh-cn/blog/announcing-nvidia-secure-ai-general-availability/
Wed, 23 Apr 2025 05:39:05 +0000
http://www.open-lab.net/zh-cn/blog/?p=13608
Continued]]>
隨著許多企業開始對其數據進行 AI 訓練或推理,需要保護數據和代碼,尤其是大語言模型 (LLMs) 。由于數據敏感性,許多客戶無法冒險將數據放在云端。此類數據可能包含個人身份信息 (PII) 或公司專有信息,且經過訓練的模型擁有寶貴的知識產權 (IP) 。 NVIDIA Confidential Computing (CC) 是保護大型 AI 模型和數據的出色解決方案。借助 NVIDIA CC,企業無需在性能和安全性之間做出權衡。NVIDIA 最初于 2023 年發布了 CC,并繼續與 CPU 合作伙伴、云提供商和獨立軟件供應商 (ISVs) 合作,以確保從傳統的加速工作負載到機密的加速工作負載的轉變是流暢和透明的。 本文將介紹基于 NVIDIA HGX H100 8-GPU 和 NVIDIA HGX H200 8-GPU 的安全 AI(即 Protected…
Source
]]>
13608
-
使用 NVIDIA TensorRT 優化基于 Transformer 的擴散模型以生成視頻
http://www.open-lab.net/zh-cn/blog/optimizing-transformer-based-diffusion-models-for-video-generation-with-nvidia-tensorrt/
Mon, 21 Apr 2025 06:03:20 +0000
http://www.open-lab.net/zh-cn/blog/?p=13623
Continued]]>
先進的圖像擴散模型需要數十秒才能處理單張圖像。這使得視頻擴散更具挑戰性,需要大量計算資源和高昂成本。通過在搭載 NVIDIA TensorRT 的 NVIDIA Hopper GPU 上利用最新的 FP8 量化功能,可以顯著降低推理成本,并以更少的 GPU 為更多用戶提供服務。雖然量化擴散器的部署可能比較復雜,但 TensorRT 背后的完整生態系統可以幫助克服這些挑戰。 借助此方法,Adobe 將延遲降低了 60%,TCO 降低了近 40%,從而加快了推理速度并提高了響應速度。使用在由 Hopper GPU 加速的 Amazon Web Services (AWS) EC2 P5/P5en 上運行的 TensorRT 進行的優化部署,提高了可擴展性,以更少的 GPU 為更多用戶提供服務。 本文將探討為增強 Adobe Firefly 視頻生成模型的性能而實施的策略和優化,
Source
]]>
13623
-
在 NVIDIA OptiX 中使用協作向量實現神經渲染
http://www.open-lab.net/zh-cn/blog/neural-rendering-in-nvidia-optix-using-cooperative-vectors/
Thu, 17 Apr 2025 06:19:54 +0000
http://www.open-lab.net/zh-cn/blog/?p=13634
Continued]]>
NVIDIA OptiX 9.0 的發布引入了一項名為 Cooperative Vectors 的新功能,可將 AI 工作流作為光線追蹤內核的一部分。該功能利用 NVIDIA RTX Tensor Cores 在著色過程中進行硬件加速的矩陣運算和神經網絡計算。這解鎖了 NVIDIA RTX Neural Shaders 和 NVIDIA RTX Neural Texture Compression (NTC) 等 AI 渲染技術,并在實時渲染中進一步向電影級逼真材質邁進。 協作向量 API 已在 OptiX 、 DirectX 、 NVAPI 、 Slang 和 Vulkan 中推出。本文將探討適用于所有 API 的協作向量背后的概念,并通過使用 OptiX API 的示例進行工作。 多層感知器 (MLP) 是許多神經網絡算法的基本構建模塊。研究表明,
Source
]]>
13634
-
宣布推出基于 CUDA 評估 LLM 的開源框架 ComputeEval
http://www.open-lab.net/zh-cn/blog/announcing-computeeval-an-open-source-framework-for-evaluating-llms-on-cuda/
Wed, 16 Apr 2025 05:12:10 +0000
http://www.open-lab.net/zh-cn/blog/?p=13566
Continued]]>
大語言模型 (LLMs) 正在徹底改變開發者的編碼方式和編碼學習方式。對于經驗豐富的或初級的開發者來說,如今的先進模型可以生成 Python 腳本、基于 React 的網站等。未來,強大的 AI 模型將幫助開發者編寫高性能 GPU 代碼。這就提出了一個重要問題:如何確定 LLM 是否能夠處理復雜的 CUDA 編程? ComputeEval 是一個開源框架和數據集,旨在評估 LLM 在 CUDA 代碼生成上的能力。該數據集旨在評估 LLM 在不同的并行編程領域(如內存管理和線程同步)生成正確 CUDA 代碼的能力。該框架旨在簡化對生成代碼的評估。 本文將介紹 ComputeEval 作為評估框架的工作原理、我們對先進模型的評估結果,以及它對 AI 輔助 GPU 開發的未來意味著什么。 ComputeEval 旨在專門為 CUDA 和高性能 GPU…
Source
]]>
13566
-
R2D2:利用 NVIDIA 研究中心的新型工作流和 AI 基礎模型,提升機器人的移動和全身控制能力
http://www.open-lab.net/zh-cn/blog/r2d2-advancing-robot-mobility-whole-body-control-with-ai-from-nvidia-research/
Thu, 27 Mar 2025 05:47:44 +0000
http://www.open-lab.net/zh-cn/blog/?p=13416
Continued]]>
歡迎閱讀首期“NVIDIA 機器人研究與開發摘要(R²D²)”。此技術博客系列將讓開發者和研究人員更深入地了解 NVIDIA 各個研究實驗室在物理 AI 和機器人領域的最新研究突破。 開發強大的機器人面臨著諸多重大挑戰,例如: 我們通過在自身平臺上經過驗證的先進研究來應對這些挑戰。我們的方法將前沿研究與工程工作流相結合,并在我們的 AI 和機器人平臺(包括 NVIDIA Omniverse、Cosmos、Isaac Sim 和 Isaac Lab)上進行測試。最終生成的模型、策略和數據集可作為研究人員和開發者社區的可定制參考,以適應特定的機器人開發需求。我們期待分享我們的研究成果,共同構建機器人技術的未來。 在本期 R²D² 中,您將了解以下機器人移動及全身控制的工作流及模型,以及它們如何應對機器人導航、移動和控制方面的關鍵挑戰:
Source
]]>
13416
人人超碰97caoporen国产