Advanced Technical – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Wed, 25 Jun 2025 05:14:28 +0000
zh-CN
hourly
1
196178272 -
借助 EoRA 快速恢復 LLM 壓縮錯誤的免微調方法
http://www.open-lab.net/zh-cn/blog/a-fine-tuning-free-approach-for-rapidly-recovering-llm-compression-errors-with-eora/
Mon, 09 Jun 2025 05:08:54 +0000
http://www.open-lab.net/zh-cn/blog/?p=14397
Continued]]>
模型壓縮技術已經過廣泛探索,可減少為大語言模型 (LLM) 或其他大型神經網絡提供服務所需的計算資源。 但是,與未壓縮的模型相比,大多數現有方法的準確性顯著下降,或者訓練時間較長。此外,其適應性通常受到硬件支持的壓縮格式(例如 2:4 sparsity、3/4-bit quantization)范圍有限的限制,難以滿足用戶對準確性和效率的各種要求。 NVIDIA Research 臺灣、Learning & Perception Research Group、AI Accelerator & VLSI Research Group 以及 NeMo Group 將模型壓縮重構為自定義補償。他們開發了 Fine-tuning-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation…
Source
]]>
14397
-
在 NVIDIA Grace Hopper 上訓練大型語言模型的高級優化策略
http://www.open-lab.net/zh-cn/blog/advanced-optimization-strategies-for-llm-training-on-nvidia-grace-hopper/
Tue, 27 May 2025 05:39:48 +0000
http://www.open-lab.net/zh-cn/blog/?p=14051
Continued]]>
雖然分析有助于識別效率低下的情況,但高級優化策略對于解決硬件限制和有效擴展 AI 工作負載至關重要。在本文中,我們將探討 CPU 卸載、Unified Memory、Automatic Mixed Precision 和 FP8 訓練等技術。這些方法不僅能提高性能,還能助力研究人員突破 LLM 的極限。 在處理大型模型時,有效管理 GPU 內存至關重要。解決內存限制的一種策略是 CPU 卸載的激活函數。此技術涉及在模型訓練或推理期間臨時將中間激活張量從 GPU 內存移動到 CPU 內存。本節將探討這種方法的優缺點。 CPU 卸載激活函數可以處理更大的批量大小或訓練更大的模型,而不會耗盡 GPU 內存。將激活函數分流到 CPU 可騰出空間用于對訓練至關重要的其他運算,例如向前和向后傳遞。從本質上講,卸載提供了一種在內存容量有限的 GPU 上訓練更大模型的方法。
Source
]]>
14051
-
特級大師專業提示:使用 cuML 通過堆疊奪得 Kaggle 競賽冠軍
http://www.open-lab.net/zh-cn/blog/grandmaster-pro-tip-winning-first-place-in-a-kaggle-competition-with-stacking-using-cuml/
Thu, 22 May 2025 06:22:33 +0000
http://www.open-lab.net/zh-cn/blog/?p=14075
Continued]]>
堆疊是一種先進的表格數據建模技術,通過結合多個不同模型的預測來實現高性能。利用 GPU 的計算速度,可以高效地訓練大量模型。其中包括梯度提升決策樹 (Gradient Boosted Decision Trees, GBDT) 、深度學習神經網絡 (Deep Learning Neural Networks, NN) 以及其他機器學習 (Machine Learning, ML) 模型,例如支持向量回歸 (Support Vector Regression, SVR) 和 K 最近鄰 (K-Nearest Neighbors, KNN) 。這些單獨的模型被稱為 Level 1 模型。 然后訓練 Level 2 模型,這些模型使用 Level 1 模型的輸出作為輸入。Level 2 模型學習使用 Level 1 模型的不同組合來預測不同場景中的目標。最后,
Source
]]>
14075
-
聚焦:Atgenomix SeqsLab 提升健康組學分析以支持精準醫療
http://www.open-lab.net/zh-cn/blog/spotlight-atgenomix-seqslab-scales-health-omics-analysis-for-precision-medicine/
Mon, 19 May 2025 05:31:48 +0000
http://www.open-lab.net/zh-cn/blog/?p=13926
Continued]]>
在傳統的臨床醫學實踐中,治療決策通常基于一般準則、以往經驗和試錯方法。如今,隨著電子病歷 (EMRs) 和基因組數據的訪問, 精準醫療 的新時代正在興起,即以前所未有的準確性為單個患者量身定制治療方法。精準醫療是一種創新的醫療保健方法,通過考慮基因組中的個體可變性來定制疾病預防和治療。 本文將探討 Atgenomix SeqsLab 平臺如何使用 NVIDIA Parabricks 和 RAPIDS Accelerator for Apache Spark (Spark-RAPIDS) 來集成健康組學見解或大規模生物數據。這種集成使精準醫療的應用范圍更廣,超越理論,走向實用、廣泛的臨床應用。 EMR 與基因組測序和其他健康組學數據的集成具有極高的計算要求。單個全基因組測序 (WGS) 數據集的每個患者容量可超過 300 GB,并且與蛋白質組學、
Source
]]>
13926
-
使用 NVIDIA OptiX 9 和 NVIDIA RTX Mega Geometry 實現動態場景的快速光線追蹤
http://www.open-lab.net/zh-cn/blog/fast-ray-tracing-of-dynamic-scenes-using-nvidia-optix-9-and-nvidia-rtx-mega-geometry/
Thu, 24 Apr 2025 03:57:25 +0000
http://www.open-lab.net/zh-cn/blog/?p=13723
Continued]]>
實時光線追蹤是一種強大的渲染技術,可以生成非常逼真的圖像。 NVIDIA OptiX 和 RTX 技術使這一切成為可能,即使是具有大量細節的場景也是如此。然而,當這些細節豐富的場景涉及到動作和動畫時,保持實時光線追蹤性能可能具有挑戰性。 本文將探討 NVIDIA OptiX 9 的全新 RTX Mega Geometry 功能 (尤其是 Cluster Acceleration Structures (CLAS)) 如何實現動態、高密度幾何圖形的快速光線追蹤。我們將特別關注細分表面。您可以在 NVIDIA/optix-subd GitHub 資源庫中獲取演示 OptiX 中 CLAS API 的開源示例代碼以及本文中描述的概念。 RTX 硬件上的 NVIDIA OptiX 能夠以每個像素一個樣本的速度實時光線追蹤大型場景,前提是幾何圖形保持不變。
Source
]]>
13723
-
利用 NVIDIA Earth-2 提升洪水風險評估能力
http://www.open-lab.net/zh-cn/blog/powering-flood-risk-assessment-with-nvidia-earth-2/
Tue, 25 Mar 2025 08:45:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=13360
Continued]]>
陸地洪水每年都會造成重大的經濟和社會影響。在 2024 年給保險業造成超過 10 億美元損失的八場自然災害中,有六場被歸類為洪水事件,其中僅歐洲就發生了三起。災難建模(Catastrophe modeling)旨在量化洪水事件的風險,為金融和保險行業做好準備。 在許多情況下,以往洪水事件的簡短歷史記錄不到 50 年,因此災難模型會模擬隨機事件的長記錄,以探索低概率高影響事件的不確定性。傳統方法通常使用統計外推法來形成這些新事件。由于依賴歷史記錄,這些方法在形成新的和看不見的事件的能力方面受到限制。 JBA 風險管理是洪水風險管理領域的全球領導者。借助 NVIDIA Earth-2 平臺,JBA 的開發人員構建了一個龐大的集成 (HENS) 管道,為易北河流域生成冬季的假設天氣數據。AI 模型、Earth-2 軟件堆棧和 NVIDIA GPU…
Source
]]>
13360
-
借助 NVIDIA Parabricks 和 NVIDIA AI Blueprints,將基因組學和單細胞分析時間縮短至幾分鐘
http://www.open-lab.net/zh-cn/blog/shrink-genomics-and-single-cell-analysis-time-to-minutes-with-nvidia-parabricks-and-nvidia-blueprints/
Fri, 21 Mar 2025 09:13:19 +0000
http://www.open-lab.net/zh-cn/blog/?p=13269
Continued]]>
NVIDIA Parabricks 是一款可擴展的基因組學分析軟件套件,通過加速計算和深度學習解決 omics 挑戰,實現新的科學突破。 NVIDIA Parabricks v4.5 在 NVIDIA GTC 2025 上發布,通過支持最新的 NVIDIA GPU 架構,并通過結合使用 Giraffe 和 DeepVariant 來改進對齊和變體識別,從而支持不斷增長的數據量。該版本還包括改進的功能,并縮短了跨多個行業領先工具 (包括 STAR、FQ2BAM 和 Minimap2) 的分析時間。 Parabricks v4.5 隨附用于基因組學和單細胞分析的全新 NVIDIA AI Blueprints,使生物信息學家和基因組學平臺提供商能夠輕松部署和測試 NVIDIA Parabricks 和 NVIDIA RAPIDS,而無需本地 GPU 或自管理云配置。通過擴展可訪問性,
Source
]]>
13269
-
NVIDIA CUDA-Q 助力量子應用研究
http://www.open-lab.net/zh-cn/blog/nvidia-cuda-q-powers-quantum-applications-research/
Thu, 20 Mar 2025 08:01:08 +0000
http://www.open-lab.net/zh-cn/blog/?p=13238
Continued]]>
source-zh.html NVIDIA CUDA-Q 平臺旨在簡化混合式加速量子超級計算機的軟件和硬件開發。用戶可以編寫一次代碼,在任何 QPU 或模擬器上進行測試,并加速工作流程的所有部分。這為實現科學突破騰出了時間,而無需等待結果。 CUDA-Q v0.10 具有更多功能和更高的性能,比以往任何時候都更加不可或缺和靈活。例如,用戶現在可以在 Pasqal 的中立原子 QPU 上運行作業,總計四個不同量子比特模式的 八個 QPU 后端 。CUDA-Q v0.10 現在還支持先進的 NVIDIA Blackwell GPU 。 憑借 v0.10 對 NVIDIA GB200 NVL72 及其第五代多節點 NVLink 功能的支持,CUDA-Q 性能現在可以比以往得到進一步提升。基于多個標準化 Quantum Economic Development…
Source
]]>
13238
-
使用 Numba 將 GPU 加速的算法交易模擬提高 100 多倍
http://www.open-lab.net/zh-cn/blog/gpu-accelerate-algorithmic-trading-simulations-by-over-100x-with-numba/
Tue, 04 Mar 2025 05:53:40 +0000
http://www.open-lab.net/zh-cn/blog/?p=13140
Continued]]>
量化開發者需要運行回測模擬,以便從損益(P&L)的角度了解金融算法的表現。統計技術對于根據可能的損益路徑可視化算法的可能結果非常重要。GPU 可以大大減少執行此操作所需的時間。 從更廣泛的角度來看,金融市場的數學建模是一種實踐,可以追溯到榮獲諾貝爾獎的 Black-Scholes 模型 (1973 年)。它在當時是革命性的,從那時起就影響了資本市場。統計 Monte Carlo 模擬的方法是表示使用 Brownian motion 模型可實現的價格路徑,該方法涉及根據市場在檢查市場微觀結構時的行為方式定制的自定義模型。 本文介紹了適用于金融市場市場參與者的硬件加速研究。市場參與者可以是: 這些市場參與者都在全球的交易所中開展協作,在這些交易所中,有一套關于價格、交易量和時間的非常具體的規則,稱為交易證券的動態訂單薄。 由于定價數據龐大且執行速度快,
Source
]]>
13140
-
如何使用 NVIDIA NeMo Guardrails 為客戶服務保護 AI 智能體
http://www.open-lab.net/zh-cn/blog/how-to-safeguard-ai-agents-for-customer-service-with-nvidia-nemo-guardrails/
Thu, 16 Jan 2025 06:23:28 +0000
http://www.open-lab.net/zh-cn/blog/?p=12699
Continued]]>
AI 代理為 企業擴展和提升客戶服務以及支持交互提供了重要機會。這些客服人員可自動處理日常查詢并縮短響應時間,從而提高效率和客戶滿意度,幫助組織保持競爭力。 但是,除了這些優勢之外, AI 智能體也存在風險 。 大語言模型(LLMs) 容易生成不當內容或離題內容,并且容易受到“jailbreak”攻擊。為了充分發揮生成式 AI 在客戶服務中的潛力,實施可靠的 AI 安全措施至關重要。 本教程為 AI 構建者提供了切實可行的步驟,以便將基本的安全措施集成到適用于客戶服務應用的 AI 智能體中。它展示了如何利用 NVIDIA NeMo Guardrails ,一種可擴展的鐵路編排平臺,包括作為 NVIDIA NIM 微服務提供的以下三個新的 AI 保障模型: 通過本教程,您將學習如何部署 AI 智能體,在保持客戶信任和品牌完整性的同時提供快速、準確的響應。
Source
]]>
12699
-
借助 NVIDIA 全棧解決方案提升 AI 推理性能
http://www.open-lab.net/zh-cn/blog/optimize-ai-inference-performance-with-nvidia-full-stack-solutions/
Tue, 24 Dec 2024 05:43:02 +0000
http://www.open-lab.net/zh-cn/blog/?p=12923
Continued]]>
AI 驅動的應用的爆炸式發展對開發者提出了前所未有的要求,他們必須在提供先進的性能與管理運營復雜性和成本以及 AI 基礎設施之間取得平衡。 NVIDIA 正在為開發者提供涵蓋芯片、系統和軟件的全棧創新,重新定義 AI 推理 的可能性,使其比以往更快、更高效、更具可擴展性。 六年前,NVIDIA 著手打造 AI 推理服務器,專為構建高吞吐量、延遲關鍵型生產應用的開發者而設計。當時,許多開發者都在努力使用定制的、特定于框架的服務器,這些服務器增加了復雜性,增加了運營成本,并且難以滿足嚴格的服務水平協議(service-level agreements)關于延遲和吞吐量的要求。 為解決這一問題,NVIDIA 開發了 NVIDIA Triton Inference Server ,這是一個開源平臺,能夠為來自任何 AI 框架的模型提供服務。通過整合特定于框架的推理服務器,
Source
]]>
12923
-
Hymba 混合頭架構提高小型語言模型性能
http://www.open-lab.net/zh-cn/blog/hymba-hybrid-head-architecture-boosts-small-language-model-performance/
Fri, 22 Nov 2024 06:15:22 +0000
http://www.open-lab.net/zh-cn/blog/?p=12148
Continued]]>
Transformer 及其基于注意力的架構,憑借強大的性能、并行化功能以及通過鍵值 (KV) 緩存進行的長期召回,已成為語言模型 (LM) 的主要選擇。然而,其二次計算成本和高內存需求帶來了效率挑戰。相比之下,Mamba 和 Mamba-2 等狀態空間模型 (SSM) 可提供恒定的復雜性和高效的硬件優化,但難以處理記憶回收任務,從而影響其在常規基準測試中的性能。 NVIDIA 研究人員最近提出了 Hymba ,這是一系列小語言模型 (SLMs),采用混合 head 并行架構,將 Transformer Attention 機制與 SSMs 集成,以提高效率和性能。在 Hymba 中,attention heads 可實現高分辨率召回,而 SSM heads 可實現高效的上下文摘要。 Hymba 的新型架構揭示了以下幾點見解: 本文展示了 Hymba 1.5…
Source
]]>
12148
-
掌握 LLM 技術:數據預處理
http://www.open-lab.net/zh-cn/blog/mastering-llm-techniques-data-preprocessing/
Fri, 15 Nov 2024 07:34:52 +0000
http://www.open-lab.net/zh-cn/blog/?p=12050
Continued]]>
大語言模型(LLMs) 的出現標志著各行業利用人工智能(AI)增強運營和服務的方式發生了重大轉變。通過自動化日常任務和簡化流程,LLMs 可以釋放人力資源,用于更具戰略性的工作,從而提高整體效率和生產力。 主要由于 LLM 對高質量數據的依賴性, 訓練和定制 LLM 以實現高準確度充滿挑戰。數據質量差和數據量不足會顯著降低模型準確性,因此數據集準備成為 AI 開發者的關鍵任務。 數據集通常包含重復文檔、個人身份信息(PII)和格式問題。一些數據集甚至包含對用戶構成風險的有毒或有害信息。在未進行適當處理的情況下基于這些數據集訓練模型會增加訓練時間并降低模型質量。另一個重大挑戰是數據稀缺。模型構建者公開可用的數據不足以用于訓練,這促使許多模型構建者轉而求助于第三方供應商,或使用高級語言模型生成合成數據。 在本文中,
Source
]]>
12050
-
利用 NVIDIA Triton 和 NVIDIA TensorRT-LLM 及 Kubernetes 實現 LLM 擴展
http://www.open-lab.net/zh-cn/blog/scaling-llms-with-nvidia-triton-and-nvidia-tensorrt-llm-using-kubernetes/
Tue, 22 Oct 2024 03:19:54 +0000
http://www.open-lab.net/zh-cn/blog/?p=11626
Continued]]>
大語言模型 (LLMs) 已廣泛應用于聊天機器人、內容生成、摘要、分類、翻譯等領域。State-of-the-art LLMs 和基礎模型如 Llama , Gemma , GPT 和 Nemotron ,已經展示了類似人類的理解能力和生成能力。借助這些模型,AI 開發者無需從頭開始經歷昂貴且耗時的訓練過程。 可應用 檢索增強生成(RAG)、prompt running 和 fine-tuning 等技術來定制基礎模型,并在更短的時間內針對特定任務實現更高的準確性,定制化模型可在生產環境中快速部署,滿足各種用例的推理請求。 本文分步介紹了如何使用 NVIDIA TensorRT-LLM 優化 Large Language Models、如何使用 NVIDIA Triton Inference Server 部署優化模型,
Source
]]>
11626
-
借助 NVIDIA NeMo 實現出色的 ASR 模型 10 倍加速
http://www.open-lab.net/zh-cn/blog/accelerating-leaderboard-topping-asr-models-10x-with-nvidia-nemo/
Tue, 24 Sep 2024 06:58:47 +0000
http://www.open-lab.net/zh-cn/blog/?p=11356
Continued]]>
NVIDIA NeMo 持續開發了設定行業基準的 自動語音識別(ASR) 模型,尤其是在 Hugging Face Open ASR 排行榜 上拔得頭籌的模型。 這些可將語音轉錄為文本的 NVIDIA NeMo ASR 模型提供了一系列旨在優化速度和準確性的架構: 以前,這些模型面臨速度性能瓶頸,例如投射開銷、低計算強度和發散性能問題。 在本文中,您將了解 NVIDIA 如何通過將張量自動投射到 、創新的標簽循環算法以及引入 NeMo 2.0.0 中可用的 CUDA Graphs 等關鍵增強功能,將 NeMo ASR 模型的推理速度提升高達 10 倍(圖 1)。 本節將深入探討 NVIDIA 自動語音識別(ASR)模型如何克服各種速度性能瓶頸,包括投射開銷、批量處理優化、低計算強度和發散性能問題。 從 NeMo 的早期開始,
Source
]]>
11356
人人超碰97caoporen国产