NeMo – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 10 Jul 2025 06:42:11 +0000 zh-CN hourly 1 196178272 新視頻:使用 NVIDIA Data Flywheel Blueprint 構建可自我提升的 AI 代理 http://www.open-lab.net/zh-cn/blog/new-video-build-self-improving-ai-agents-with-the-nvidia-data-flywheel-blueprint/ Thu, 03 Jul 2025 06:38:28 +0000 http://www.open-lab.net/zh-cn/blog/?p=14544 Continued]]> 由大語言模型驅動的 AI 智能體正在改變企業工作流,但高昂的推理成本和延遲可能會限制其可擴展性和用戶體驗。為解決這一問題,NVIDIA 最近發布了用于構建數據飛輪的 NVIDIA AI Blueprint。這是一個企業就緒型工作流,通過自動實驗來幫助優化 AI 智能體,以找到高效的模型,在降低推理成本的同時,提高延遲和有效性。 該藍圖的核心是一個自我改進循環,該循環使用 NVIDIA NeMo 和 NIM 微服務來蒸餾,使用真實生產數據微調和評估較小的模型。 Data Flywheel Blueprint 旨在與您現有的 AI 基礎設施和平臺無縫集成,并支持多云、本地和邊緣環境。 此實戰演示展示了如何使用 Data Flywheel Blueprint 來優化模型,以便為虛擬客戶服務智能體執行功能和工具調用。它解釋了數據飛輪如何幫助用更小的 Llama-3.2…

Source

]]>
14544
出色的多模態 RAG:Llama 3.2 NeMo 檢索器嵌入模型如何提高工作流準確性 http://www.open-lab.net/zh-cn/blog/best-in-class-multimodal-rag-how-the-llama-3-2-nemo-retriever-embedding-model-boosts-pipeline-accuracy/ Mon, 30 Jun 2025 07:54:19 +0000 http://www.open-lab.net/zh-cn/blog/?p=14457 Continued]]> 數據遠不止于文本,它本質上是多模態的,包括圖像、視頻、音頻等,通常采用復雜的非結構化格式。雖然常見的方法是將 PDF、掃描圖像、幻燈片和其他文檔轉換為文本,但以文本格式捕獲所有信息具有挑戰性,如圖 1 所示。 文本中視覺信息的丟失推動了多模態語言模型 (也稱為視覺語言模型 ( VLM)) 的開發。這些模型可以處理文本和原始圖像,并生成適當的響應。 VLM 將計算機視覺與自然語言處理相結合,有助于將我們看到的內容與我們所說的內容聯系起來。它們使機器能夠理解和處理視覺和文本信息,從而實現更自然、更實用的應用,例如視覺問答、多模態搜索和生成圖像描述。它們通常使用配對圖像和文本的龐大數據集進行訓練。在過去一年中,隨著 Gemma 3、PaliGemma、SmolVLM、QwenVL 和 LLaVA-1.5 等模型的發布,VLM 在處理復雜視覺效果 (例如 ChartQA)…

Source

]]>
14457
在 NVIDIA Jetson 和 RTX 上運行 Google DeepMind 的 Gemma 3n http://www.open-lab.net/zh-cn/blog/run-google-deepminds-gemma-3n-on-nvidia-jetson-and-rtx/ Thu, 26 Jun 2025 04:14:13 +0000 http://www.open-lab.net/zh-cn/blog/?p=14468 Continued]]> 截至今日,NVIDIA 現已支持在 NVIDIA RTX 和 Jetson 上全面推出 Gemma 3n。上個月,Google DeepMind 在 Google I/ O 上預覽了 Gemma,其中包括兩個針對多模態設備端部署優化的新模型。 除了 3.5 版本中引入的文本和視覺功能之外,Gemma 現在還包括音頻。每個組件都集成了可信研究模型:適用于音頻的通用語音模型、適用于視覺的 MobileNet v4 和適用于文本的 MatFormer。 最大的使用進步是一項名為“逐層嵌入”的創新。它可以顯著減少參數的 RAM 使用量。Gemma 3n E4B 模型具有 80 億個參數的原始參數計數,但可以使用與 4B 模型相當的動態內存占用來運行。這使開發者能夠在資源受限的環境中使用更高質量的模型。 Gemma 系列模型在 NVIDIA Jetson 設備上運行良好,

Source

]]>
14468
如何使用 NVIDIA NeMo 技能簡化復雜的 LLM 工作流程 http://www.open-lab.net/zh-cn/blog/how-to-streamline-complex-llm-workflows-using-nvidia-nemo-skills/ Wed, 25 Jun 2025 04:19:10 +0000 http://www.open-lab.net/zh-cn/blog/?p=14471 Continued]]> 改進 LLM 的典型方法涉及多個階段:合成數據生成 (SDG) 、通過監督式微調 (SFT) 或強化學習 (RL) 進行模型訓練以及模型評估。每個階段都需要使用不同的庫,這些庫通常很難設置,而且難以一起使用。 例如,您可以使用 NVIDIA TensorRT-LLM 或 vLLM 進行 SDG 訓練,使用 NVIDIA NeMo 或 verl 進行訓練。在這種情況下,您需要調用許多不同的腳本和容器,將 Hugging Face 檢查點轉換為 TensorRT-LLM,執行大規模 SDG,將數據和模型轉換為 NeMo 格式,并在各種基準測試中運行訓練和評估。 為了簡化這一復雜的工作流程,NVIDIA 開發了 NeMo 技能庫。它提供了無縫連接不同框架的高級抽象,使其能夠以統一和可互換的方式使用。NeMo-Skill 還可以輕松地從快速本地原型設計過渡到在 Slurm…

Source

]]>
14471
利用 NVIDIA Data Flywheel Blueprint 通過模型蒸餾構建高效的 AI 智能體 http://www.open-lab.net/zh-cn/blog/build-efficient-ai-agents-through-model-distillation-with-nvidias-data-flywheel-blueprint/ Wed, 11 Jun 2025 08:48:06 +0000 http://www.open-lab.net/zh-cn/blog/?p=14291 Continued]]> 隨著企業加速采用代理式 AI,團隊在擴展智能應用程序的同時管理推理成本方面面臨著越來越大的挑戰。大語言模型 (LLM) 提供強大的性能,但會產生巨大的計算需求,通常會導致高延遲和高成本。 與此同時,許多開發工作流程(例如評估、數據管理和微調)在很大程度上仍是手動操作。這些流程非常耗時,難以自動化,并且無法有效擴展。 更復雜的是,AI 智能體越來越依賴多個專業模型來執行推理、工具路由和摘要等任務。每個組件都有不同的性能特征和優化要求,因此很難大規模地單獨評估和調整它們。 為解決這一問題,NVIDIA 推出了用于構建數據飛輪的 NVIDIA AI Blueprint,這是一種基于 NVIDIA NeMo 微服務構建的參考架構。借助該藍圖,團隊能夠利用來自 AI 智能體交互的真實生產流量,在不影響準確性的情況下,將 LLM 持續轉換為更小、更便宜、更快速的模型。它自動執行結構化實驗,

Source

]]>
14291
通過開源 AI-Q NVIDIA Blueprint 與您的企業數據交流 http://www.open-lab.net/zh-cn/blog/chat-with-your-enterprise-data-through-open-source-ai-q-nvidia-blueprint/ Wed, 11 Jun 2025 08:32:09 +0000 http://www.open-lab.net/zh-cn/blog/?p=14282 Continued]]> 企業數據呈爆炸式增長,PB 級的電子郵件、報告、Slack 消息和數據庫的堆積速度比任何人都快。市場調研人員 Gartner 表示,由于“組織中 68% 的可用數據未被使用”,員工只能在信息海洋中尋找答案。 如今,隨著 AI-Q 的推出,這一切成為可能。AI-Q 是一款開源的 NVIDIA Blueprint,可讓您的業務知識觸手可及。AI-Q 是一種免費的參考實現,用于構建連接到企業數據的人工通用智能體 (Artificial General Agents, AGA) ;使用最新的 AGI 模型跨多模態數據源進行推理;并安全、大規模地提供全面、快速、準確的答案。 AI-Q 提供了一個開發者友好型工作流示例,用于構建 AI 驅動的智能體,該智能體可以: 在本博客中,我們將介紹 AI-Q NVIDIA Blueprint 的特性和組件,包括示例用例。

Source

]]>
14282
通過高效的長上下文大語言模型訓練擴展到數百萬個 Token http://www.open-lab.net/zh-cn/blog/scaling-to-millions-of-tokens-with-efficient-long-context-llm-training/ Mon, 02 Jun 2025 08:30:16 +0000 http://www.open-lab.net/zh-cn/blog/?p=14142 Continued]]> 大語言模型 (LLM) 的演變標志著其處理和生成文本的能力有了顯著提升。在這些發展中,上下文長度的概念 (模型可以處理的單個輸入樣本中的 token 數量) 已成為定義這些模型在不同應用中可以實現的目標的關鍵因素。 例如,這些模型允許處理視頻輸入、總結冗長的文檔、在多輪對話中保持一致性、通過思維鏈進行推理,以及使用大量示例執行詳細的上下文學習。在視頻生成和理解、法律文檔分析、低資源語言翻譯等必須保留和利用全面上下文的場景中,以及在使用 AI 助手時,這種擴展功能尤為重要。 在本文中,我們將探討長上下文 LLM 的技術基礎,以及如何有效訓練它們的技巧。我們規劃了需求和挑戰,以及如何使用 NVIDIA NeMo 框架通過各種優化技術來解決這些問題,從而提供高吞吐量的高效訓練。 隨著越來越多的多模態用例涌現,處理長視頻內容需要模型同時處理數千幀,同時保持時間一致性。

Source

]]>
14142
聚焦:使用 Iguazio 的 MLRun 和 NVIDIA NIM 構建可擴展和可觀察的 AI 以投入生產 http://www.open-lab.net/zh-cn/blog/spotlight-build-scalable-and-observable-ai-ready-for-production-with-iguazios-mlrun-and-nvidia-nim/ Wed, 28 May 2025 05:32:20 +0000 http://www.open-lab.net/zh-cn/blog/?p=14048 Continued]]> Iguazio (被麥肯錫收購) 與 NVIDIA 的合作使企業組織能夠構建生產級 AI 解決方案,這些解決方案不僅具有高性能和可擴展性,而且具有敏捷性,可用于現實世界的部署。 NVIDIA NIM 微服務對于這些功能至關重要,旨在加速任何云或數據中心的生成式 AI 部署。NIM 微服務支持各種 AI 模型,包括 NVIDIA AI 基礎、社區和自定義模型,支持使用行業標準 API 進行無縫、可擴展的 AI 推理。 在運行時,NIM 會為基礎模型、GPU 和系統的任意組合選擇最佳推理引擎。NIM 容器還提供標準的可觀察性數據源,并內置支持在 NVIDIA GPU 上使用 Kubernetes 進行自動擴展。 MLRun 是一個開源 AI 編排框架,可自動執行整個 AI 工作流,支持在生產環境中部署 NIM。這包括企業級生產就緒型應用所需的所有工作流元素,包括 MLRun…

Source

]]>
14048
在 NVIDIA Grace Hopper 上分析大型語言模型訓練工作流 http://www.open-lab.net/zh-cn/blog/profiling-llm-training-workflows-on-nvidia-grace-hopper/ Tue, 27 May 2025 05:45:31 +0000 http://www.open-lab.net/zh-cn/blog/?p=14054 Continued]]> AI 的快速發展催生了模型大小呈指數級增長的時代,特別是在大語言模型 (LLMs) 領域。這些模型憑借其變革能力,正在推動各行各業的創新。然而,訓練此類模型的復雜性和計算需求不斷增加,因此必須采用細致的優化和分析方法。 盡管生成式 AI 和 LLM 讓人興奮不已,但底層基礎設施和優化策略仍然經常被忽視。訓練這些模型不僅需要大量計算資源,還需要仔細調整超參數、高效的代碼執行和可靠的分析機制,以確保可擴展性和成本效益。 NVIDIA GH200 Grace Hopper 超級芯片代表著 AI 硬件設計的范式轉變。憑借其創新的 CPU-GPU 集成和高帶寬內存架構,它為 LLM 訓練挑戰提供了突破性的解決方案。通過 NVLink-C2C 互連技術將 NVIDIA Hopper GPU 與 NVIDIA Grace CPU 相結合,該架構可更大限度地減少瓶頸并更大限度地提高吞吐量,

Source

]]>
14054
在 NVIDIA Grace Hopper 上訓練大型語言模型的高級優化策略 http://www.open-lab.net/zh-cn/blog/advanced-optimization-strategies-for-llm-training-on-nvidia-grace-hopper/ Tue, 27 May 2025 05:39:48 +0000 http://www.open-lab.net/zh-cn/blog/?p=14051 Continued]]> 雖然分析有助于識別效率低下的情況,但高級優化策略對于解決硬件限制和有效擴展 AI 工作負載至關重要。在本文中,我們將探討 CPU 卸載、Unified Memory、Automatic Mixed Precision 和 FP8 訓練等技術。這些方法不僅能提高性能,還能助力研究人員突破 LLM 的極限。 在處理大型模型時,有效管理 GPU 內存至關重要。解決內存限制的一種策略是 CPU 卸載的激活函數。此技術涉及在模型訓練或推理期間臨時將中間激活張量從 GPU 內存移動到 CPU 內存。本節將探討這種方法的優缺點。 CPU 卸載激活函數可以處理更大的批量大小或訓練更大的模型,而不會耗盡 GPU 內存。將激活函數分流到 CPU 可騰出空間用于對訓練至關重要的其他運算,例如向前和向后傳遞。從本質上講,卸載提供了一種在內存容量有限的 GPU 上訓練更大模型的方法。

Source

]]>
14051
使用先進的開放式后訓練數據集構建自定義推理模型 http://www.open-lab.net/zh-cn/blog/build-custom-reasoning-models-with-advanced-open-post-training-datasets/ Wed, 14 May 2025 07:35:47 +0000 http://www.open-lab.net/zh-cn/blog/?p=13992 Continued]]> 合成數據已成為大語言模型 (LLM) 后訓練程序的標準組成部分。使用從單個或一組經商業許可的開源 LLM 中合成生成的大量示例,通過監督微調或 RLHF 對基礎 LLM 進行微調,以獲得指導遵循和推理技能。這個過程可以被視為一個知識蒸餾過程,從一組 LLM 教師到目標 LLM 學生。 NVIDIA 最近開源了 Llama-Nemotron 后訓練數據集 ,該數據集包含 3000 萬個合成訓練示例,支持改進數學、代碼、一般推理、函數調用和指令遵循功能。作為證據,NVIDIA 使用此數據集訓練并發布了三個模型: 每個模型在其各自權重類別內的推理和代理式任務中都具有領先的準確性。 此數據集版本代表著模型開發和改進在開放性和透明度方面的重大進步。除了訓練方法、工具和最終模型權重之外,NVIDIA 還發布了完整的訓練集,為這種方法的重建和改進提供支持。

Source

]]>
13992
借助 NVIDIA Nemo 框架,在遠程數據中心網絡中加速 LLM 訓練 http://www.open-lab.net/zh-cn/blog/turbocharge-llm-training-across-long-haul-data-center-networks-with-nvidia-nemo-framework/ Wed, 14 May 2025 06:09:28 +0000 http://www.open-lab.net/zh-cn/blog/?p=13816 Continued]]> 多數據中心訓練對 AI 工廠至關重要,因為預訓練擴展會推動更大模型的創建,導致對計算性能的需求超過單個設施的能力。通過將工作負載分配到多個數據中心,組織可以克服功耗、散熱和空間方面的限制,以更高的效率訓練更大、更準確的模型。 最新版本的 NVIDIA NeMo Framework 25.02 和 NVIDIA Megatron-Core 0.11.0 為 多數據中心大語言模型 (LLM) 訓練帶來了新功能。此次更新使用戶能夠將訓練擴展到單個數據中心的物理和操作限制之外,通過利用多個站點的組合功能,實現前所未有的效率和性能。 在本文中,我們將介紹 NeMo Framework 和 Megatron-Core 如何通過以下關鍵進展徹底改變多數據中心訓練: 訓練萬億參數模型不僅需要增加更多 GPU,還需要克服影響成本和性能的關鍵基礎設施挑戰。

Source

]]>
13816
在 NVIDIA NeMo 框架的首發日支持下即時運行 Hugging Face 模型 http://www.open-lab.net/zh-cn/blog/run-hugging-face-models-instantly-with-day-0-support-from-nvidia-nemo-framework/ Mon, 12 May 2025 05:31:06 +0000 http://www.open-lab.net/zh-cn/blog/?p=13802 Continued]]> 在企業組織努力更大限度地提高其 生成式 AI 投資的價值時,獲取最新的模型開發成果對于持續取得成功至關重要。通過在首發日使用先進的模型,團隊可以高效利用這些創新、保持相關性并提高競爭力。 在過去的一年里,開源社區發布了一系列激動人心的模型系列,包括 Meta Llama、Google Gemma、Mistral Codestral、Codestral Mamba、Large 2、Mixtral、Qwen 3、2 和 2.5、Deepseek R1、NVIDIA Nemotron 和 NVIDIA Llama Nemotron。這些模型通常在 Hugging Face Hub 上提供,以便更廣泛的社區輕松訪問。 發布后不久,許多用戶專注于評估模型功能和探索潛在應用。為了了解模型的潛力并發現創新機會,針對特定用例進行微調通常成為一個關鍵的優先事項。

Source

]]>
13802
應用具有推理能力的專用大語言模型(LLM)加速電池研究 http://www.open-lab.net/zh-cn/blog/applying-specialized-llms-with-reasoning-capabilities-to-accelerate-battery-research/ Fri, 09 May 2025 05:42:15 +0000 http://www.open-lab.net/zh-cn/blog/?p=13808 Continued]]> 人工評估材料通常會拖慢電池創新等復雜領域的科學研究,限制了每天只有數十個候選材料的進展。在這篇博客文章中,我們探討了通過推理能力增強的領域適應型大語言模型 (LLM) 如何改變科學研究,尤其是在電池創新等高風險、復雜領域。我們深入探討了 SES AI 的 Molecular Universe LLM,這是一個具有 70B 參數的科學 LLM,展示了這種方法的實際應用。 您將了解使用 NVIDIA NeMo Curator 、 NVIDIA NeMo Framework 、 NVIDIA DGX Cloud 和 NVIDIA NIM 構建的訓練和推理工作流,以及如何結合領域自適應、指令調整和推理對齊等技術來加速科學發現,同時提高專家工作效率。 LLM 在推進科學研究方面展現出巨大潛力,助力完成論文總結、綜合復雜見解和生成新穎假設等任務。然而,

Source

]]>
13808
使用 NVIDIA NeMo 微服務,通過數據飛輪增強 AI 智能體 http://www.open-lab.net/zh-cn/blog/enhance-your-ai-agent-with-data-flywheels-using-nvidia-nemo-microservices/ Wed, 23 Apr 2025 05:54:07 +0000 http://www.open-lab.net/zh-cn/blog/?p=13617 Continued]]> 企業數據不斷變化。隨著時間的推移,這給保持 AI 系統的準確性帶來了重大挑戰。隨著企業組織越來越依賴 代理式 AI 系統 來優化業務流程,保持這些系統與不斷變化的業務需求和新數據保持一致變得至關重要。 本文將深入探討如何使用 NVIDIA NeMo 微服務構建數據飛輪迭代,并簡要概述構建端到端流程的步驟。如需了解如何使用 NeMo 微服務解決構建數據飛輪時面臨的各種挑戰,請參閱使用 NVIDIA NeMo 微服務更大限度地提高 AI Agent 性能。 數據飛輪是一種自我增強的循環。從用戶交互中收集的數據可改進 AI 模型,從而提供更好的結果,吸引更多用戶生成更多數據,從而在持續改進循環中進一步增強系統。這類似于獲取經驗和收集反饋以學習和改進工作的過程。 因此,需要部署的應用持續適應并保持高效是將數據 flywheel 整合到代理式系統中的主要動機。

Source

]]>
13617
人人超碰97caoporen国产