訓練 AI 模型 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Wed, 02 Jul 2025 04:38:49 +0000 zh-CN hourly 1 196178272 如何使用 NVIDIA NeMo 技能簡化復雜的 LLM 工作流程 http://www.open-lab.net/zh-cn/blog/how-to-streamline-complex-llm-workflows-using-nvidia-nemo-skills/ Wed, 25 Jun 2025 04:19:10 +0000 http://www.open-lab.net/zh-cn/blog/?p=14471 Continued]]> 改進 LLM 的典型方法涉及多個階段:合成數據生成 (SDG) 、通過監督式微調 (SFT) 或強化學習 (RL) 進行模型訓練以及模型評估。每個階段都需要使用不同的庫,這些庫通常很難設置,而且難以一起使用。 例如,您可以使用 NVIDIA TensorRT-LLM 或 vLLM 進行 SDG 訓練,使用 NVIDIA NeMo 或 verl 進行訓練。在這種情況下,您需要調用許多不同的腳本和容器,將 Hugging Face 檢查點轉換為 TensorRT-LLM,執行大規模 SDG,將數據和模型轉換為 NeMo 格式,并在各種基準測試中運行訓練和評估。 為了簡化這一復雜的工作流程,NVIDIA 開發了 NeMo 技能庫。它提供了無縫連接不同框架的高級抽象,使其能夠以統一和可互換的方式使用。NeMo-Skill 還可以輕松地從快速本地原型設計過渡到在 Slurm…

Source

]]>
14471
NVIDIA Run:ai 和 Amazon SageMaker HyperPod 攜手簡化復雜 AI 訓練管理 http://www.open-lab.net/zh-cn/blog/nvidia-runai-and-amazon-sagemaker-hyperpod-working-together-to-manage-complex-ai-training/ Tue, 24 Jun 2025 04:35:20 +0000 http://www.open-lab.net/zh-cn/blog/?p=14484 Continued]]> NVIDIA Run:ai 和 Amazon Web Services 引入了集成,使開發者能夠無縫擴展和管理復雜的 AI 訓練工作負載。將 AWS SageMaker HyperPod 與 Run:ai 的高級 AI 工作負載和 GPU 編排平臺相結合,可提高效率和靈活性。 Amazon SageMaker HyperPod 提供完全彈性的持久性集群,專為大規模分布式訓練和推理而構建。它消除了管理 ML 基礎設施時涉及的無差別繁重工作,并優化了多個 GPU 的資源利用率,從而顯著縮短了模型訓練時間。此功能支持任何模型架構,支持團隊高效擴展訓練作業。 Amazon SageMaker HyperPod 通過自動檢測和處理基礎設施故障,并確保訓練作業可以無縫恢復而不會出現重大停機,從而增強彈性。總體而言,它可提高工作效率并加速 ML 生命周期。 NVIDIA Run:ai…

Source

]]>
14484
搶先體驗 NVIDIA GB200 系統如何幫助 LMarena 構建評估 LLM 的模型 http://www.open-lab.net/zh-cn/blog/how-early-access-to-nvidia-gb200-systems-helped-lmarena-build-a-model-to-evaluate-llms/ Wed, 18 Jun 2025 04:42:15 +0000 http://www.open-lab.net/zh-cn/blog/?p=14375 Continued]]> 在 NVIDIA 和 Nebius 的幫助下,加州大學伯克利分校的 LMArena 可以更輕松地了解哪些大語言模型在特定任務中表現出色。該公司的排名由 Prompt-to-Leaderboard (P2L) 模型提供支持,可從人類那里收集 AI 在數學、編碼或創意寫作等領域的最佳表現方面的投票。 LMarena 聯合創始人、加州大學伯克利分校博士生 Wei-Lin Chiang 表示:“我們捕捉用戶在任務中的偏好,并應用 Bradley-Terry 系數來確定哪個模型在每個領域表現最好。過去兩年,LMArena (以前稱為 LMSys) 一直在開發 P2L。 LMArena 正在使用 NVIDIA DGX 云和 Nebius AI Cloud 大規模部署 P2L。此次合作以及 LMArena 對 NVIDIA GB200 NVL72 的使用,

Source

]]>
14375
通過高效的長上下文大語言模型訓練擴展到數百萬個 Token http://www.open-lab.net/zh-cn/blog/scaling-to-millions-of-tokens-with-efficient-long-context-llm-training/ Mon, 02 Jun 2025 08:30:16 +0000 http://www.open-lab.net/zh-cn/blog/?p=14142 Continued]]> 大語言模型 (LLM) 的演變標志著其處理和生成文本的能力有了顯著提升。在這些發展中,上下文長度的概念 (模型可以處理的單個輸入樣本中的 token 數量) 已成為定義這些模型在不同應用中可以實現的目標的關鍵因素。 例如,這些模型允許處理視頻輸入、總結冗長的文檔、在多輪對話中保持一致性、通過思維鏈進行推理,以及使用大量示例執行詳細的上下文學習。在視頻生成和理解、法律文檔分析、低資源語言翻譯等必須保留和利用全面上下文的場景中,以及在使用 AI 助手時,這種擴展功能尤為重要。 在本文中,我們將探討長上下文 LLM 的技術基礎,以及如何有效訓練它們的技巧。我們規劃了需求和挑戰,以及如何使用 NVIDIA NeMo 框架通過各種優化技術來解決這些問題,從而提供高吞吐量的高效訓練。 隨著越來越多的多模態用例涌現,處理長視頻內容需要模型同時處理數千幀,同時保持時間一致性。

Source

]]>
14142
NVIDIA Blackwell 上的 OpenAI Triton 提升 AI 性能和可編程性 http://www.open-lab.net/zh-cn/blog/openai-triton-on-nvidia-blackwell-boosts-ai-performance-and-programmability/ Wed, 05 Feb 2025 04:33:35 +0000 http://www.open-lab.net/zh-cn/blog/?p=12874 Continued]]> 矩陣乘法和注意力機制是現代 AI 工作負載的計算支柱。雖然庫如 NVIDIA cuDNN 提供高度優化的實現,而框架如 CUTLASS 提供深度自定義,但許多開發者和研究人員都需要將性能與可編程性結合起來的中間點。 NVIDIA Blackwell 架構 上的 開源 Triton 編譯器 通過直觀的編程模型展示 Blackwell 的高級功能來滿足這一需求。 得益于 NVIDIA 與 OpenAI 的持續合作,Triton 編譯器現已支持 NVIDIA Blackwell 架構。這可確保開發者和研究人員可以通過基于 Python 的編譯器 (例如 Triton) 輕松使用 Blackwell 架構中最新的出色功能。 NVIDIA Blackwell 架構在原始計算能力和架構創新方面實現了顯著提升。NVIDIA 與 OpenAI 的合作重點是通過 Triton…

Source

]]>
12874
Hymba 混合頭架構提高小型語言模型性能 http://www.open-lab.net/zh-cn/blog/hymba-hybrid-head-architecture-boosts-small-language-model-performance/ Fri, 22 Nov 2024 06:15:22 +0000 http://www.open-lab.net/zh-cn/blog/?p=12148 Continued]]> Transformer 及其基于注意力的架構,憑借強大的性能、并行化功能以及通過鍵值 (KV) 緩存進行的長期召回,已成為語言模型 (LM) 的主要選擇。然而,其二次計算成本和高內存需求帶來了效率挑戰。相比之下,Mamba 和 Mamba-2 等狀態空間模型 (SSM) 可提供恒定的復雜性和高效的硬件優化,但難以處理記憶回收任務,從而影響其在常規基準測試中的性能。 NVIDIA 研究人員最近提出了 Hymba ,這是一系列小語言模型 (SLMs),采用混合 head 并行架構,將 Transformer Attention 機制與 SSMs 集成,以提高效率和性能。在 Hymba 中,attention heads 可實現高分辨率召回,而 SSM heads 可實現高效的上下文摘要。 Hymba 的新型架構揭示了以下幾點見解: 本文展示了 Hymba 1.5…

Source

]]>
12148
NVIDIA Blackwell 在 MLPerf 訓練 v4.1 中將 LLM 訓練性能提高一倍 http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-doubles-llm-training-performance-in-mlperf-training-v4-1/ Wed, 13 Nov 2024 07:46:17 +0000 http://www.open-lab.net/zh-cn/blog/?p=12054 Continued]]> 隨著模型規模的擴大以及使用更多數據進行訓練,它們的能力也隨之提升,實用性也隨之提升。為了快速訓練這些模型,需要在數據中心規模上提供更高的性能。NVIDIA Blackwell 平臺在 2024 年 GTC 大會上推出,現已全面投產,集成了七類芯片:GPU、CPU、DPU、NVLink Switch 芯片、InfiniBand Switch 和 Ethernet Switch。Blackwell 平臺在每個 GPU 的性能方面實現了巨大飛躍,旨在支持創建更大規模的 AI 集群,從而推動下一代 LLM 的開發。 在最新一輪的 MLPerf 訓練 (一套 AI 訓練基準測試) 中,NVIDIA 使用 Blackwell 平臺首次提交了基準測試預覽類別的測試結果。這些結果表明,在每個 MLPerf 訓練基準測試中,與基于 Hopper 的提交相比,每個加速器的提升幅度很大。

Source

]]>
12054
NVIDIA TensorRT 模型優化器 v0.15 提高推理性能擴展模型支持能力 http://www.open-lab.net/zh-cn/blog/nvidia-tensorrt-model-optimizer-v0-15-boosts-inference-performance-and-expands-model-support/ Thu, 15 Aug 2024 08:58:32 +0000 http://www.open-lab.net/zh-cn/blog/?p=11049 Continued]]> NVIDIA 宣布推出新版 v0.15 NVIDIA TensorRT 模型優化器,這是一種先進的模型優化技術量化工具包,包含量化、稀疏和剪枝。這些技術可降低模型復雜性,使 NVIDIA TensorRT-LLM 和 NVIDIA TensorRT 等下游推理框架能夠更有效地優化生成式 AI 模型的推理速度。 本文將概述近期 TensorRT Model Optimizer 版本的一些主要特性和升級,包括緩存擴散、使用 NVIDIA NeMo 的全新量化感知訓練工作流程以及 QLoRA 支持。 以前,TensorRT Model Optimizer(簡稱‘Model Optimizer’)利用其 8 位訓練后量化(PTQ)技術強效助力 NVIDIA TensorRT,為 Stable Diffusion XL 的性能設立了標桿。為進一步普及擴散模型的快速推理,

Source

]]>
11049
NVIDIA NeMo 借助混合狀態空間模型加速 LLM 創新發展 http://www.open-lab.net/zh-cn/blog/nvidia-nemo-accelerates-llm-innovation-with-hybrid-state-space-model-support/ Wed, 17 Jul 2024 04:23:24 +0000 http://www.open-lab.net/zh-cn/blog/?p=10638 Continued]]> 當今的大型語言模型(LLM)基于 2017 年推出的 Transformer 模型架構。自那時以來,AI 計算性能的快速進步使創建更大的基于 Transformer 的 LLM 成為可能,這極大地提高了其功能。基于 Transformer 的高級 LLM 正在為許多令人興奮的應用提供支持,如智能聊天機器人、計算機代碼生成和甚至 芯片設計 等。 訓練先進的 LLM 需要高效且通用的軟件堆棧。為此,NVIDIA NeMo 提供了一個端到端平臺,用于構建、自定義和部署 LLM。Integrated 深入集成到 NeMo 框架中的是 Megatron-Core,一個基于 PyTorch 的庫,提供了大規模訓練 LLM 所需的基本組件和優化。隨著模型開發者探索新的模型架構,NVIDIA 平臺不斷擴展,以實現創新。 今天,NVIDIA 宣布 NeMo 和 Megatron-Core…

Source

]]>
10638
了解 Stable Diffusion 模型:面向 AEC 專業人員的基本指南 http://www.open-lab.net/zh-cn/blog/understanding-diffusion-models-an-essential-guide-for-aec-professionals/ Wed, 10 Jul 2024 06:20:11 +0000 http://www.open-lab.net/zh-cn/blog/?p=10585 Continued]]> 生成式 AI、算法處理各種類型的輸入—例如文本、圖像、音頻、視頻和代碼—并生成新內容的能力正在以前所未有的速度發展。雖然這項技術在多個行業都取得了重大進展,但建筑、工程和施工 (AEC) 行業將從中受益匪淺。 歷史上,AEC 公司一直在與支離破碎的數據系統作斗爭。這導致各個部門或項目階段的重要信息被隔離,從而導致效率低下、解釋錯誤和增加項目成本。隨著 生成式 AI 的出現,AEC 行業正處于轉型的邊緣。 這項前沿技術通過集成數據、自動執行設計任務和增強協作,有可能徹底改變 AEC 行業,從而打造更高效、更創新和更可持續的項目。 自推出生成式 AI 以來,GPT-4 等大型語言模型 (LLM) 一直處于前沿,以其在自然語言處理、機器翻譯和內容創建方面的通用性而聞名。除此之外,OpenAI 的 DALL-E、Google 的 Imagen、

Source

]]>
10585
NVIDIA 在 MLPerf Training v4.0 中創造了新的生成式 AI 性能和規模記錄 http://www.open-lab.net/zh-cn/blog/nvidia-sets-new-generative-ai-performance-and-scale-records-in-mlperf-training-v4-0/ Wed, 12 Jun 2024 06:26:36 +0000 http://www.open-lab.net/zh-cn/blog/?p=10340 Continued]]> 生成式 AI 模型具有多種用途,例如幫助編寫計算機代碼、創作故事、作曲、生成圖像、制作視頻等。而且,隨著這些模型的大小不斷增加,并且使用更多數據進行訓練,它們將產生更高質量的輸出。 構建和部署這些更智能的模型需要非常大的計算量,需要許多高性能處理器并行工作,并由高效、通用的軟件進行編排。 例如,Meta 宣布訓練其最新的 Llama 3 系列中的 大語言模型(LLMs),使用搭載 24,576 個 NVIDIA H100 Tensor Core GPUs 的人工智能集群。模型越大,Llama 3 70B 就需要總計6.4 million H100 GPU-hours進行訓練。 預訓練 LLM 后,可以通過各種技術包括模型微調,以提高特定任務的準確性。隨著企業開始在各種應用中采用 LLM,LLM 微調正迅速成為核心行業工作負載。 AI 訓練是一項全棧挑戰,

Source

]]>
10340
視覺語言智能與 Edge AI 2.0 http://www.open-lab.net/zh-cn/blog/visual-language-intelligence-and-edge-ai-2-0/ Fri, 03 May 2024 07:12:18 +0000 http://www.open-lab.net/zh-cn/blog/?p=9874 Continued]]> VILA 是 NVIDIA Research 和麻省理工學院共同開發的一系列高性能視覺語言模型。這些模型的參數規模從 ~3B 到 ~40B 不等。值得注意的是,VILA 是完全開源的,包括模型檢查點、訓練代碼和訓練數據。 在這篇文章中,我們描述了 VILA 在交付邊緣 AI 2.0 時如何與其他模型進行比較。 邊緣人工智能的初始版本涉及將壓縮的人工智能模型部署到邊緣設備上。這個階段被稱為 Edge AI 1.0,專注于特定任務的模型。這種方法的挑戰在于需要用不同的數據集訓練不同的模型,在這些數據集中,負樣本很難收集,異常情況也很難處理。這一過程非常耗時,凸顯了對適應性更強、通用性更強的人工智能解決方案的需求。 Edge AI 2.0 標志著由基礎視覺語言模型(VLM)推動的向增強泛化的轉變。 像 VILA 這樣的 VLM 表現出令人難以置信的多功能性,

Source

]]>
9874
借助 Union.ai 和 NVIDIA DGX 云實現 AI 工作流程的大眾化 http://www.open-lab.net/zh-cn/blog/democratizing-ai-workflows-with-union-ai-and-nvidia-dgx-cloud/ Tue, 23 Apr 2024 04:31:17 +0000 http://www.open-lab.net/zh-cn/blog/?p=9623 Continued]]> GPU 最初專用于在電子游戲中渲染 3D 圖形,主要用于加速線性代數計算。如今,GPU 已成為 AI 革命的關鍵組成部分之一。 現在,我們依靠這些主力來完成深度學習工作負載,處理龐大而復雜的半結構化數據集。 然而,隨著對基于 AI 的解決方案的需求大幅增加,獲取高端 GPU 變得更加困難,更不用說為自己的用例設置和配置高端 GPU 所帶來的投資了。 為滿足 AI 訓練需求,NVIDIA 提供先進的加速計算資源,供用戶訪問,而無需自行尋找、設置和配置基礎設施。對于希望突破深度學習范式所能完成的工作的 AI 團隊來說,NVIDIA DGX Cloud 提供了一場游戲變革。 除了訪問云端的 AI 超級計算之外,您還必須構建代碼并圍繞代碼進行計算,以提高 AI 應用程序的效率和性能。根據我們的經驗,要做到這一點,最好的方法是使用 AI 編排:基礎設施、代碼、數據和模型之間的交集。

Source

]]>
9623
重新思考如何訓練 Diffusion 模型 http://www.open-lab.net/zh-cn/blog/rethinking-how-to-train-diffusion-models/ Thu, 21 Mar 2024 09:46:57 +0000 http://www.open-lab.net/zh-cn/blog/?p=9503 Continued]]> 在探索了擴散模型采樣、參數化和訓練的基礎知識之后,我們的團隊開始研究這些網絡架構的內部結構。請參考 生成式 AI 研究聚焦:揭開基于擴散的模型的神秘面紗 了解更多詳情。 結果證明這是一項令人沮喪的練習。任何直接改進這些模型的嘗試都會使結果更加糟糕。它們似乎處于微妙、微調、高性能的狀態,任何更改都會破壞平衡。雖然通過徹底重新調整超參數可以實現好處,但下一組改進將需要重新經歷整個過程。 如果您熟悉這種繁瑣的開發循環,但您不直接使用擴散,請繼續閱讀。我們的研究結果針對大多數神經網絡及其訓練背后的普遍問題和組件。 我們決定打破這個循環,回顧一下基礎知識。為什么架構如此易碎?網絡中是否存在破壞訓練進程的未知現象?我們如何使其更加穩健?歸根結底:由于這些問題,我們目前還剩下多少性能? 我們最近的論文 分析和改進擴散模型的訓練動力學 中報告了我們的研究結果和細節。

Source

]]>
9503
人人超碰97caoporen国产