LLM 技術 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Wed, 25 Jun 2025 04:51:55 +0000 zh-CN hourly 1 196178272 基準測試大型語言模型推理成本以實現更智能的擴展和部署 http://www.open-lab.net/zh-cn/blog/benchmarking-llm-inference-costs-for-smarter-scaling-and-deployment/ Wed, 18 Jun 2025 04:48:43 +0000 http://www.open-lab.net/zh-cn/blog/?p=14381 Continued]]> 這是大語言模型延遲-吞吐量基準測試系列的第三篇博文,旨在指導開發者如何通過估算總體擁有成本 (TCO) 來確定 LLM 推理的成本。 有關基準測試和參數的常用指標的背景知識,請參閱 LLM Inference Benchmarking:基本概念。請參閱 LLM Inference Benchmarking 指南:NVIDIA GenAI-Perf 和 NIM,了解如何在您的應用中使用 GenAI-Perf 和 NVIDIA NIM。 大語言模型 (LLMs) 已成為現代軟件產業不可或缺的一部分,其功能類似于構建許多應用的“操作系統”基礎層。這些應用包括 AI 助手、客戶支持代理、編碼助手和“深度研究”助手。 正如 DeepSeek R1 模型系列所示,算法和模型效率方面的最新進展降低了訓練和推理成本。隨著效率的提高,LLM 應用有望變得更加經濟實惠和普及,

Source

]]>
14381
通過高效的長上下文大語言模型訓練擴展到數百萬個 Token http://www.open-lab.net/zh-cn/blog/scaling-to-millions-of-tokens-with-efficient-long-context-llm-training/ Mon, 02 Jun 2025 08:30:16 +0000 http://www.open-lab.net/zh-cn/blog/?p=14142 Continued]]> 大語言模型 (LLM) 的演變標志著其處理和生成文本的能力有了顯著提升。在這些發展中,上下文長度的概念 (模型可以處理的單個輸入樣本中的 token 數量) 已成為定義這些模型在不同應用中可以實現的目標的關鍵因素。 例如,這些模型允許處理視頻輸入、總結冗長的文檔、在多輪對話中保持一致性、通過思維鏈進行推理,以及使用大量示例執行詳細的上下文學習。在視頻生成和理解、法律文檔分析、低資源語言翻譯等必須保留和利用全面上下文的場景中,以及在使用 AI 助手時,這種擴展功能尤為重要。 在本文中,我們將探討長上下文 LLM 的技術基礎,以及如何有效訓練它們的技巧。我們規劃了需求和挑戰,以及如何使用 NVIDIA NeMo 框架通過各種優化技術來解決這些問題,從而提供高吞吐量的高效訓練。 隨著越來越多的多模態用例涌現,處理長視頻內容需要模型同時處理數千幀,同時保持時間一致性。

Source

]]>
14142
在 NVIDIA Grace Hopper 上訓練大型語言模型的高級優化策略 http://www.open-lab.net/zh-cn/blog/advanced-optimization-strategies-for-llm-training-on-nvidia-grace-hopper/ Tue, 27 May 2025 05:39:48 +0000 http://www.open-lab.net/zh-cn/blog/?p=14051 Continued]]> 雖然分析有助于識別效率低下的情況,但高級優化策略對于解決硬件限制和有效擴展 AI 工作負載至關重要。在本文中,我們將探討 CPU 卸載、Unified Memory、Automatic Mixed Precision 和 FP8 訓練等技術。這些方法不僅能提高性能,還能助力研究人員突破 LLM 的極限。 在處理大型模型時,有效管理 GPU 內存至關重要。解決內存限制的一種策略是 CPU 卸載的激活函數。此技術涉及在模型訓練或推理期間臨時將中間激活張量從 GPU 內存移動到 CPU 內存。本節將探討這種方法的優缺點。 CPU 卸載激活函數可以處理更大的批量大小或訓練更大的模型,而不會耗盡 GPU 內存。將激活函數分流到 CPU 可騰出空間用于對訓練至關重要的其他運算,例如向前和向后傳遞。從本質上講,卸載提供了一種在內存容量有限的 GPU 上訓練更大模型的方法。

Source

]]>
14051
更智能、更安全地串流:了解 NVIDIA NeMo Guardrails 如何增強 LLM 輸出串流 http://www.open-lab.net/zh-cn/blog/stream-smarter-and-safer-learn-how-nvidia-nemo-guardrails-enhance-llm-output-streaming/ Fri, 23 May 2025 05:59:37 +0000 http://www.open-lab.net/zh-cn/blog/?p=14063 Continued]]> LLM 流式傳輸會在生成模型響應時,逐個 token 實時遞增發送該響應。輸出流式傳輸功能已從一項很好的功能發展為現代 LLM 應用的重要組件。 傳統方法是等待幾秒鐘才能獲得完整的 LLM 響應,這會造成延遲,尤其是在需要多次模型調用的復雜應用中。在流式傳輸中,time to first token (TTFT)——從查詢提交到第一個生成的token——成為用戶感知的延遲至關重要。 流式傳輸架構可在提示處理后立即啟動部分響應,從而顯著減少 TTFT,這通常會縮短初始等待時間。與此同時,令牌間延遲 (ITL) 基本保持不變,因為它反映了模型生成的固有速度。這種將初始響應能力 (TTFT) 與穩定狀態吞吐量 (ITL) 分離的做法可加快用戶反饋速度,而無需從根本上更改令牌生成機制。 通過實施流式傳輸功能,開發者可以創造更流暢的用戶體驗,模擬自然對話的流程,

Source

]]>
14063
代理自主級別與安全性 http://www.open-lab.net/zh-cn/blog/agentic-autonomy-levels-and-security/ Tue, 25 Feb 2025 07:08:04 +0000 http://www.open-lab.net/zh-cn/blog/?p=13039 Continued]]> 智能體工作流是 AI 賦能工具的下一次演進。它們使開發者能夠將多個 AI 模型關聯在一起以執行復雜的活動,使 AI 模型能夠使用工具來訪問其他數據或自動執行用戶操作,并使 AI 模型能夠自主運行,以盡可能減少人類參與或交互的方式分析和執行復雜的任務。 由于其強大的功能,代理工作流也存在風險因素。代理系統的核心最常見的模型仍然是各種 LLM,如果可以將不受信任的數據引入系統,這些模型仍然容易受到 prompt injection 的影響。 為幫助評估和緩解這些漏洞,NVIDIA 提供了一個 Agentic Autonomy 框架,我們將其用于以下用途: 在實踐中,開發 AI 賦能的應用需要兩個關鍵組件: 當系統的 AI 組件是 LLM 時,這通常被稱為直接提示注入 (對手和用戶是同一個人) 或間接提示注入 (對手和用戶可以是不同的人)。 然而,

Source

]]>
13039
定義 LLM 紅色團隊 http://www.open-lab.net/zh-cn/blog/defining-llm-red-teaming/ Tue, 25 Feb 2025 07:04:29 +0000 http://www.open-lab.net/zh-cn/blog/?p=13036 Continued]]> 在一項活動中,人們為生成式 AI 技術 (例如大語言模型 (LLMs)) 提供輸入,以確定輸出是否會偏離可接受的標準。LLMs 的這種使用始于 2023 年,并已迅速發展成為一種常見的行業實踐,也是值得信賴的 AI 的基石。如何標準化和定義 LLM 紅色團隊? NVIDIA、華盛頓大學、Center for Human-Compatible AI 和哥本哈根 IT 大學的研究人員對紅色團隊的實際應用“ Summon a demon and bind it: A grounded theory of LLM red teaming ”(在 PLOS One 中發布) 進行了一項研究。 由于目標是定義和理解相對較新的活動,因此該研究采用了有根據的理論方法,在數千分鐘的視頻錄制中,以數十位從業者的訪談作為證據。我們與安全專業人員、政策研究人員和科學家,

Source

]]>
13036
使用 NVIDIA NeMo 框架進行 LLM 模型剪枝和知識蒸餾 http://www.open-lab.net/zh-cn/blog/llm-model-pruning-and-knowledge-distillation-with-nvidia-nemo-framework/ Wed, 12 Feb 2025 03:10:23 +0000 http://www.open-lab.net/zh-cn/blog/?p=12841 Continued]]> 模型剪枝和知識蒸餾是功能強大且經濟高效的策略,用于從最初較大的同級獲得較小的語言模型。 在一篇“ 如何剪枝和蒸餾 Llama-3.1 8B ”博文中,討論了使用 大語言模型(LLM) 的最佳實踐,該模型將深度、寬度、注意力和 MLP 剪枝與基于蒸餾的知識重新訓練相結合。 在本文中,我們提供了一個關于 NVIDIA NeMo 框架中基于簡單數據集的剪枝和蒸餾工作流的演練教程。本教程使用 Meta-Llama-3.1-8B 作為教師模型,目標模型大小為 4B。我們還會可視化并討論訓練結果。 本教程重點介紹如何創建一個簡單的工作流,用于準備數據集,針對 WikiText-103-v1 數據集對教師進行微調,然后對模型進行剪枝和蒸餾以創建 4B 模型。WikiText-103-v1 數據集包含從維基百科上一系列經過驗證的“良好”和“精選”文章中提取的逾 100M…

Source

]]>
12841
掌握 LLM 技術:評估 http://www.open-lab.net/zh-cn/blog/mastering-llm-techniques-evaluation/ Wed, 29 Jan 2025 05:34:32 +0000 http://www.open-lab.net/zh-cn/blog/?p=12917 Continued]]> 評估大語言模型(LLMs) 和 檢索增強生成(RAG) 系統是一個復雜而微妙的過程,反映了這些系統的復雜性和多面性。 與傳統機器學習(ML) 模型不同,LLMs 會生成各種不同且往往不可預測的輸出,因此無法滿足標準評估指標的需求。 主要挑戰包括許多任務缺乏確定的真值、數據污染的風險,以及模型對提示變化和解碼策略的敏感度。此外,LLMs 通常會生成高質量的輸出,甚至可以超越低質量的人類引用,從而無法滿足基于引用的傳統指標的需求。 在本文中,我們將探討用于評估 LLMs 和 RAG 系統準確性和可靠性的可靠評估技術和最佳實踐。 在 生成式 AI 應用的開發過程中,嚴格的評估對于確保系統有效性和可靠性至關重要。此過程具有多個關鍵功能,包括通過確認 AI 符合預期并提供有意義的交互來驗證用戶滿意度。評估還可確保輸出一致性,驗證生成的內容在邏輯上是否一致且符合上下文。

Source

]]>
12917
借助 iGenius 和 NVIDIA DGX 云,繼續為主權 AI 和受監管行業預訓練先進的 LLM http://www.open-lab.net/zh-cn/blog/continued-pretraining-of-state-of-the-art-llms-for-sovereign-ai-and-regulated-industries-with-igenius-and-nvidia-dgx-cloud/ Thu, 16 Jan 2025 06:37:38 +0000 http://www.open-lab.net/zh-cn/blog/?p=12702 Continued]]> 近年來,大語言模型(LLMs)在推理、代碼生成、機器翻譯和摘要等領域取得了非凡的進步。然而,盡管基礎模型具有先進的功能,但在涉及特定領域的專業知識(例如金融或醫療健康)或捕捉英語以外的文化和語言細微差別時,它們存在局限性。 通過使用持續預訓練 (CPT)、指令微調和檢索增強型生成 (RAG) 進行進一步開發,可以克服這些限制。這需要高質量的特定領域的數據集、強大的 AI 平臺 (軟件和硬件堆棧) 以及先進的 AI 專業知識。 iGenius 是一家意大利技術公司,專門為金融服務和公共管理等高度監管行業的企業提供人工智能服務。iGenius 在歐洲和美國之間開展工作,致力于讓 AI 為人們和企業服務。該公司成立于 2016 年,其使命是實現數據人性化和業務知識普及。 iGenius 是 NVIDIA Inception 合作伙伴 ,

Source

]]>
12702
宣布推出 Nemotron-CC:用于 LLM 預訓練的萬億級英語語言數據集 http://www.open-lab.net/zh-cn/blog/announcing-nemotron-cc-a-trillion-token-english-language-dataset-for-llm-pretraining/ Thu, 09 Jan 2025 09:06:36 +0000 http://www.open-lab.net/zh-cn/blog/?p=12602 Continued]]> NVIDIA 很高興地宣布發布 Nemotron-CC,這是一種包含 6.3 萬億個令牌的 英語語言 Common Crawl 數據集 ,用于預訓練高度準確的 大語言模型 (LLMs),其中包括 1.9 萬億個令牌的合成生成數據。高質量預訓練數據集是訓練先進 LLM 的關鍵之一,近期的頂級 LLM (例如 Meta Llama 系列 ) 基于包含 15 萬億個令牌的大量數據進行了訓練。 但我們對這 15 萬億個令牌的確切構成知之甚少。Nemotron-CC 旨在解決這一問題,并使更廣泛的社區能夠訓練高度準確的 LLM。互聯網爬行數據 (通常來自 Common Crawl) 通常是最大的令牌來源。近期開放的 Common Crawl 數據集 (例如 FineWeb-Edu 和 DCLM) 展示了如何在相對較短的令牌范圍內大幅提高基準精度。但是,實現此目標的代價是移除 90%的數據。

Source

]]>
12602
利用 NVIDIA NeMo-Aligner 進行監督式微調的數據高效知識蒸餾 http://www.open-lab.net/zh-cn/blog/data-efficient-knowledge-distillation-for-supervised-fine-tuning-with-nvidia-nemo-aligner/ Tue, 17 Dec 2024 09:36:13 +0000 http://www.open-lab.net/zh-cn/blog/?p=12498 Continued]]> 知識蒸餾是一種將更大的教師模型的知識轉移到更小的學生模型的方法,理想情況下可生成緊湊、易于部署的學生,且準確度與教師相當。知識蒸餾在預訓練設置中越來越受歡迎,但用于在監督式微調(Supervised Fine-Tuning,SFT)期間執行知識蒸餾的資源越來越少。 NVIDIA NeMo-Aligner 開源了一個在 SFT 期間使用知識蒸餾的實現,相較于標準 SFT,該實現的數據效率更高,準確性也更高 (Table 1)。 在表 1 中,SFT 是使用數學/代碼數據集執行的。使用知識蒸餾微調的模型版本在所有數學和代碼相關基準測試中均優于基準,即使僅執行 70%的訓練步驟也是如此。 在 SFT 期間,有許多方法可以從大型模型傳輸知識。最常見的方法是使用教師模型生成合成數據,我們稱之為 KD-SDG。然后,使用合成生成的數據微調學生模型。 還有一種開創性的方法,

Source

]]>
12498
開發具有高效數據存儲的多語種和跨語言信息檢索系統 http://www.open-lab.net/zh-cn/blog/develop-multilingual-and-cross-lingual-information-retrieval-systems-with-efficient-data-storage/ Tue, 17 Dec 2024 04:46:18 +0000 http://www.open-lab.net/zh-cn/blog/?p=12516 Continued]]> 高效的文本檢索對于搜索、問答、語義文本相似性、摘要和商品推薦等各種信息檢索應用至關重要。它還在檢索增強生成(RAG)技術中發揮著關鍵作用,該技術使 大語言模型(LLMs) 能夠在不修改基礎參數的情況下訪問外部上下文。 雖然 RAG 在提高 LLM 生成的響應質量方面非常有效,但由于主要使用英語數據集進行訓練,許多嵌入模型仍然難以檢索多種語言的正確數據。這限制了以其他語言生成準確且信息豐富的文本回復,阻礙了與全球受眾的有效溝通。 多語種信息檢索可提高生成文本的事實準確性和一致性,并實現本地化的上下文感知響應,從而消除語言障礙,使信息在全球范圍內更易于獲取。從改善臨床醫生與患者之間的溝通和故障排除技術問題,到提供個性化零售體驗,此功能可解鎖各行各業的各種應用。 然而,為大規模數據平臺創建此類系統會面臨獨特的挑戰,例如管理海量數據、確保低延遲檢索,

Source

]]>
12516
對大型語言模型驅動的知識圖譜的洞察、技術和評估 http://www.open-lab.net/zh-cn/blog/insights-techniques-and-evaluation-for-llm-driven-knowledge-graphs/ Mon, 16 Dec 2024 05:22:22 +0000 http://www.open-lab.net/zh-cn/blog/?p=12528 Continued]]> 數據是現代企業的生命線,推動著從創新到戰略決策的方方面面。然而,隨著企業組織積累了越來越多的信息 (從技術文檔到內部溝通),他們面臨著艱巨的挑戰:如何從海量非結構化數據中提取有意義的見解和可行結構。 檢索增強型生成 (Retrieval-augmented generation, RAG) 已成為一種熱門解決方案,可通過集成相關企業數據來增強 AI 生成的響應。傳統的 RAG 方法雖然對簡單查詢有效,但在解決需要推理和交叉參考的復雜多層問題時往往有所欠缺。 問題在于:簡單的向量搜索可以檢索數據,但通常無法提供復雜推理所需的細致入微的上下文。即使是多 查詢 RAG 、 查詢增強 和 混合檢索 等高級技術也很難處理需要中間推理步驟或跨數據類型復雜連接的任務。 本文將探討如何將 大語言模型 (LLMs) 的強大功能與 知識圖形 相結合,應對這些挑戰,

Source

]]>
12528
掌握 LLM 技術:數據預處理 http://www.open-lab.net/zh-cn/blog/mastering-llm-techniques-data-preprocessing/ Fri, 15 Nov 2024 07:34:52 +0000 http://www.open-lab.net/zh-cn/blog/?p=12050 Continued]]> 大語言模型(LLMs) 的出現標志著各行業利用人工智能(AI)增強運營和服務的方式發生了重大轉變。通過自動化日常任務和簡化流程,LLMs 可以釋放人力資源,用于更具戰略性的工作,從而提高整體效率和生產力。 主要由于 LLM 對高質量數據的依賴性, 訓練和定制 LLM 以實現高準確度充滿挑戰。數據質量差和數據量不足會顯著降低模型準確性,因此數據集準備成為 AI 開發者的關鍵任務。 數據集通常包含重復文檔、個人身份信息(PII)和格式問題。一些數據集甚至包含對用戶構成風險的有毒或有害信息。在未進行適當處理的情況下基于這些數據集訓練模型會增加訓練時間并降低模型質量。另一個重大挑戰是數據稀缺。模型構建者公開可用的數據不足以用于訓練,這促使許多模型構建者轉而求助于第三方供應商,或使用高級語言模型生成合成數據。 在本文中,

Source

]]>
12050
聚焦:Dataloop 借助 NVIDIA NIM 加速 LLM 的多模態數據準備流程 http://www.open-lab.net/zh-cn/blog/spotlight-dataloop-accelerates-multimodal-data-preparation-pipelines-for-llms-with-nvidia-nim/ Tue, 12 Nov 2024 08:00:17 +0000 http://www.open-lab.net/zh-cn/blog/?p=12057 Continued]]> 在快速發展的人工智能環境中,為大語言模型(LLMs)準備高質量數據集已成為一項嚴峻的挑戰。這直接影響到模型的準確性、性能,以及跨不同任務和領域生成可靠、無偏輸出的能力。 得益于 NVIDIA 與 Dataloop 的合作,我們正在正面克服這一障礙,徹底改變企業為 AI 應用準備和管理數據的方式。 Dataloop 是 NVIDIA Inception 計劃的成員,該計劃旨在幫助各個階段的初創公司加速發展和業務增長 。 NVIDIA NIM 微服務 與 Dataloop 平臺的集成標志著在優化大型語言模型(LLMs)數據準備工作流方面取得了重大飛躍。這次合作使企業能夠高效處理大型非結構化數據集,簡化人工智能驅動流程和 LLM 訓練的準備工作。 迄今為止,AI 團隊在為大型語言模型準備數據時面臨著兩個主要障礙 為了克服這些挑戰,

Source

]]>
12057
人人超碰97caoporen国产