NeMo Curator – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 22 May 2025 07:40:49 +0000 zh-CN hourly 1 196178272 使用先進的開放式后訓練數據集構建自定義推理模型 http://www.open-lab.net/zh-cn/blog/build-custom-reasoning-models-with-advanced-open-post-training-datasets/ Wed, 14 May 2025 07:35:47 +0000 http://www.open-lab.net/zh-cn/blog/?p=13992 Continued]]> 合成數據已成為大語言模型 (LLM) 后訓練程序的標準組成部分。使用從單個或一組經商業許可的開源 LLM 中合成生成的大量示例,通過監督微調或 RLHF 對基礎 LLM 進行微調,以獲得指導遵循和推理技能。這個過程可以被視為一個知識蒸餾過程,從一組 LLM 教師到目標 LLM 學生。 NVIDIA 最近開源了 Llama-Nemotron 后訓練數據集 ,該數據集包含 3000 萬個合成訓練示例,支持改進數學、代碼、一般推理、函數調用和指令遵循功能。作為證據,NVIDIA 使用此數據集訓練并發布了三個模型: 每個模型在其各自權重類別內的推理和代理式任務中都具有領先的準確性。 此數據集版本代表著模型開發和改進在開放性和透明度方面的重大進步。除了訓練方法、工具和最終模型權重之外,NVIDIA 還發布了完整的訓練集,為這種方法的重建和改進提供支持。

Source

]]>
13992
使用 NVIDIA NeMo Curator 構建 Nemotron-CC:一個高質量萬億令牌數據集,用于大型語言模型預訓練,源自 Common Crawl http://www.open-lab.net/zh-cn/blog/building-nemotron-cc-a-high-quality-trillion-token-dataset-for-llm-pretraining-from-common-crawl-using-nvidia-nemo-curator/ Wed, 07 May 2025 06:32:25 +0000 http://www.open-lab.net/zh-cn/blog/?p=13827 Continued]]> 對于想要訓練先進的 大語言模型 (LLM) 的企業開發者而言,整理高質量的預訓練數據集至關重要。為了讓開發者能夠構建高度準確的 LLM,NVIDIA 之前發布了 Nemotron-CC ,這是一個價值 6.3 萬億個 token 的英語語言 Common Crawl (CC) 數據集。今天,NVIDIA NeMo Curator 團隊很高興地與大家分享,用于構建 Nemotron-CC 數據集的 pipeline 現已合并到 NeMo Curator GitHub 存儲庫 中。 Nemotron-CC 工作流現已集成到 NeMo Curator 中,為平衡大規模準確性和數據量之間的權衡提供了一種新穎的解決方案。Nemotron-CC 工作流結合使用分類器集成和合成數據重述,提供了一種可擴展的方法,可從原始數據集中生成高質量的合成數據,以擴展原始數據集。

Source

]]>
13827
使用 NVIDIA NeMo 微服務,通過數據飛輪增強 AI 智能體 http://www.open-lab.net/zh-cn/blog/enhance-your-ai-agent-with-data-flywheels-using-nvidia-nemo-microservices/ Wed, 23 Apr 2025 05:54:07 +0000 http://www.open-lab.net/zh-cn/blog/?p=13617 Continued]]> 企業數據不斷變化。隨著時間的推移,這給保持 AI 系統的準確性帶來了重大挑戰。隨著企業組織越來越依賴 代理式 AI 系統 來優化業務流程,保持這些系統與不斷變化的業務需求和新數據保持一致變得至關重要。 本文將深入探討如何使用 NVIDIA NeMo 微服務構建數據飛輪迭代,并簡要概述構建端到端流程的步驟。如需了解如何使用 NeMo 微服務解決構建數據飛輪時面臨的各種挑戰,請參閱使用 NVIDIA NeMo 微服務更大限度地提高 AI Agent 性能。 數據飛輪是一種自我增強的循環。從用戶交互中收集的數據可改進 AI 模型,從而提供更好的結果,吸引更多用戶生成更多數據,從而在持續改進循環中進一步增強系統。這類似于獲取經驗和收集反饋以學習和改進工作的過程。 因此,需要部署的應用持續適應并保持高效是將數據 flywheel 整合到代理式系統中的主要動機。

Source

]]>
13617
使用合成數據評估和增強 RAG 工作流性能 http://www.open-lab.net/zh-cn/blog/evaluating-and-enhancing-rag-pipeline-performance-using-synthetic-data/ Mon, 07 Apr 2025 06:31:42 +0000 http://www.open-lab.net/zh-cn/blog/?p=13521 Continued]]> 隨著 大語言模型 (LLM) 在各種問答系統中的普及, 檢索增強生成 (RAG) 流程也成為焦點。RAG 流程將 LLM 的生成能力與外部數據源和檢索機制相結合,使模型能夠訪問微調期間可能不存在的特定領域信息。 RAG 性能很大程度上取決于底層文本嵌入模型的質量。嵌入模型不佳會導致檢索結果欠佳,進而降低 RAG 系統的整體性能。在處理企業特定的內部數據時尤其如此,因為開箱即用的模型可能無法提供所需的準確性。 為確保 RAG 系統能夠有效處理您的特定數據,您必須評估預訓練嵌入模型在語料庫中的表現是否良好。此評估所需的標注數據與最終用戶提交的查詢類型非常相似。例如,帶標注的樣本數據集可能包括以下內容: 在許多情況下,現有嵌入模型在應用于特定領域的數據時無法產生最佳結果。這就需要使用與企業語料庫共享相同分布的標注數據來定制這些模型。 在本文中,

Source

]]>
13521
NVIDIA 加速推理 Meta Llama 4 Scout 與 Maverick 模型 http://www.open-lab.net/zh-cn/blog/nvidia-accelerates-inference-on-meta-llama-4-scout-and-maverick/ Sat, 05 Apr 2025 06:37:58 +0000 http://www.open-lab.net/zh-cn/blog/?p=13527 Continued]]> 最新一代熱門 Llama AI 模型現已支持 Llama 4 Scout 和 Llama 4 Maverick。它們由 NVIDIA 開源軟件加速,在 NVIDIA Blackwell B200 GPU 上每秒可實現超過 40K 輸出 token,并可作為 NVIDIA NIM 微服務 進行試用。 Llama 4 模型現在采用混合專家 (MoE) 架構,原生支持多模態和多語言。Llama 4 模型提供各種多模態功能,推動規模、速度和效率的提升,使您能夠打造更加個性化的體驗。 Llama 4 Scout 是一個 109B 參數模型,每個令牌活躍 17B,由 16 位專家組成,擁有 10M 上下文長度的窗口,并針對單個 NVIDIA H100 GPU 優化和量化為 int4。這支持各種用例,包括多文檔摘要、解析大量用戶活動以執行個性化任務,以及對大量代碼庫進行推理。

Source

]]>
13527
借助 SES AI 的 NVIDIA 驅動的電動汽車創新技術,加速運輸業的未來發展 http://www.open-lab.net/zh-cn/blog/accelerating-the-future-of-transportation-with-ses-ais-nvidia-powered-innovation-for-electric-vehicles/ Tue, 25 Mar 2025 09:04:47 +0000 http://www.open-lab.net/zh-cn/blog/?p=13369 Continued]]> 電動汽車 (EV) 正在改變交通運輸方式,但成本、使用壽命和續航里程等挑戰仍然是廣泛采用電動汽車的障礙。這些挑戰的核心在于電池技術,尤其是電解質,這是實現能源存儲和輸送的關鍵組件。電解質的特性直接影響電池的充電速度、功率輸出、穩定性和安全性。 為了克服這些障礙,研究人員開始采用 AI 驅動的方法來加速新型電池材料的發現。 作為電池創新領域的領導者,SES AI 正在利用先進的 NVIDIA 硬件和軟件生態系統來革新材料發現。SES AI 將適用于特定領域的 LLM 與 AI 模型和 GPU 加速的模擬相結合,將數十年的研究壓縮為幾個月,并在電動汽車電池性能方面取得突破性進展。 SES AI 的開創性工作分為以下關鍵步驟: SES AI 正在創建全面的分子字典,以繪制數百萬個小分子的物理和化學性質。

Source

]]>
13369
在 NVIDIA DGX 云上使用 NVIDIA NeMo Curator 處理 PB 級視頻 http://www.open-lab.net/zh-cn/blog/petabyte-scale-video-processing-with-nvidia-nemo-curator-on-nvidia-dgx-cloud/ Tue, 18 Mar 2025 02:53:05 +0000 http://www.open-lab.net/zh-cn/blog/?p=13281 Continued]]> 隨著 物理 AI 的興起,視頻內容生成呈指數級增長。一輛配備攝像頭的自動駕駛汽車每天可生成超過 1 TB 的視頻,而機器人驅動的制造廠每天可生成 1 PB 的數據。 要利用這些數據來訓練和微調 世界基礎模型 (WFMs) ,您必須首先高效地處理這些數據。 傳統的固定容量批量處理流水線難以應對這種規模,通常未充分利用 GPU,并且無法匹配所需的吞吐量。這些效率低下的情況減緩了 AI 模型的開發,并增加了成本。 為了應對這一挑戰, NVIDIA NeMo Curator 團隊 開發了一個靈活的 GPU 加速流式傳輸管道,用于大規模視頻管護,現在可在 NVIDIA DGX Cloud 上使用 。在本文中,我們將探討在管道中進行的優化,包括 自動擴展和負載均衡技術,以確保在充分利用可用硬件的同時優化各管道階段的吞吐量。 結果如何?更高的吞吐量、

Source

]]>
13281
使用 NVIDIA NeMo Curator 提高生成式 AI 模型的準確性 http://www.open-lab.net/zh-cn/blog/enhancing-generative-ai-model-accuracy-with-nvidia-nemo-curator/ Mon, 13 Jan 2025 08:11:05 +0000 http://www.open-lab.net/zh-cn/blog/?p=12626 Continued]]> 在快速發展的人工智能領域,用于訓練模型的數據質量至關重要。高質量數據可確保模型準確、可靠,并且能夠在各種應用中很好地泛化。近期的 NVIDIA 網絡會議“借助高質量多模態數據處理增強生成式 AI 模型的準確性”深入探討了數據管護和處理的復雜性,并重點介紹了 NVIDIA NeMo Curator 的功能。 本文分享了在線研討會的主要見解,重點介紹了數據管護的重要性、合成數據生成的作用,以及開發者可用于構建完全定制和可擴展的數據處理流程的各種功能。 數據管護 是開發生成式 AI 模型的關鍵步驟。其中包括清理、整理和準備數據,以確保數據適合訓練。 該網絡會議強調,生成模型從其訓練所用的數據中獲取理解。確保這些數據不含重復數據、個人身份信息(PII)和有毒內容至關重要。 正確的數據管護不僅可以縮短訓練時間,還可以提高模型質量,

Source

]]>
12626
宣布推出 Nemotron-CC:用于 LLM 預訓練的萬億級英語語言數據集 http://www.open-lab.net/zh-cn/blog/announcing-nemotron-cc-a-trillion-token-english-language-dataset-for-llm-pretraining/ Thu, 09 Jan 2025 09:06:36 +0000 http://www.open-lab.net/zh-cn/blog/?p=12602 Continued]]> NVIDIA 很高興地宣布發布 Nemotron-CC,這是一種包含 6.3 萬億個令牌的 英語語言 Common Crawl 數據集 ,用于預訓練高度準確的 大語言模型 (LLMs),其中包括 1.9 萬億個令牌的合成生成數據。高質量預訓練數據集是訓練先進 LLM 的關鍵之一,近期的頂級 LLM (例如 Meta Llama 系列 ) 基于包含 15 萬億個令牌的大量數據進行了訓練。 但我們對這 15 萬億個令牌的確切構成知之甚少。Nemotron-CC 旨在解決這一問題,并使更廣泛的社區能夠訓練高度準確的 LLM。互聯網爬行數據 (通常來自 Common Crawl) 通常是最大的令牌來源。近期開放的 Common Crawl 數據集 (例如 FineWeb-Edu 和 DCLM) 展示了如何在相對較短的令牌范圍內大幅提高基準精度。但是,實現此目標的代價是移除 90%的數據。

Source

]]>
12602
NVIDIA Cosmos World 基礎模型平臺助力物理 AI 進步 http://www.open-lab.net/zh-cn/blog/advancing-physical-ai-with-nvidia-cosmos-world-foundation-model-platform/ Thu, 09 Jan 2025 08:43:45 +0000 http://www.open-lab.net/zh-cn/blog/?p=12593 Continued]]> 隨著機器人和 自動駕駛汽車 的發展,加速 物理 AI 的發展變得至關重要,而物理 AI 使自主機器能夠感知、理解并在現實世界中執行復雜的操作。這些系統的核心是 世界基礎模型 (WFMs),即通過物理感知視頻模擬物理狀態的 AI 模型,使機器能夠做出準確決策并與周圍環境無縫交互。 NVIDIA Cosmos 平臺可幫助開發者大規模為物理 AI 系統構建自定義世界模型。它為從數據管護、訓練到定制的每個開發階段提供開放世界基礎模型和工具。 本文將介紹 Cosmos 及其加速物理 AI 開發的主要功能。Cosmos 是一種開源的 Python 庫,用于加速物理 AI 開發。 構建物理 AI 極具挑戰性,需要精確的模擬以及真實世界的行為理解和預測。克服這些挑戰的一個關鍵工具是世界模型,該模型根據過去的觀察結果和當前的輸入結果預測未來的環境狀態。

Source

]]>
12593
使用 NVIDIA NeMo Curator 新分類器模型增強您的訓練數據 http://www.open-lab.net/zh-cn/blog/enhance-your-training-data-with-new-nvidia-nemo-curator-classifier-models/ Thu, 19 Dec 2024 08:54:20 +0000 http://www.open-lab.net/zh-cn/blog/?p=12475 Continued]]> 分類器模型專門用于將數據分類為預定義的組或類,在優化數據處理流程以微調和預訓練生成式 AI 模型方面發揮著關鍵作用。它們的價值在于通過過濾低質量或有毒數據來提高數據質量,確保下游流程只獲得干凈、相關的信息。 除了過濾之外,classifier 模型還通過數據豐富來增加價值,使用元數據 (例如 domain、type 或 content específics 和 creative quality-specific blends) 標記數據。這些功能不僅能夠簡化數據準備,還能讓用戶深入了解在生產環境中如何使用模型。例如,classifier 可以幫助理解用戶提示的復雜性和領域,開發者可以將這些提示路由到最合適的模型。 NVIDIA NeMo Curator 團隊之前發布了兩個分類器模型: 除 BERT 風格分類器模型外,NeMo Curator 還支持基于 n-gram…

Source

]]>
12475
NVIDIA NeMo Curator 實現高質量越南語數據處理 http://www.open-lab.net/zh-cn/blog/processing-high-quality-vietnamese-language-data-with-nvidia-nemo-curator/ Tue, 19 Nov 2024 08:44:57 +0000 http://www.open-lab.net/zh-cn/blog/?p=12184 Continued]]> 開源大語言模型(LLMs) 在英語方面表現出色,但難以與其他語言(尤其是東南亞語言)搭配使用。這主要是由于缺乏這些語言的訓練數據、對當地文化的理解有限,以及 token 不足以捕捉獨特的語言結構和表達。 為了充分滿足客戶需求,非英語國家地區的企業必須超越通用模型,并對其進行定制,以捕捉當地語言的細微差別,確保客戶體驗無縫且有影響力。 在這篇博文中,我們將探討 Viettel Solutions (Viettel Corporation 快速發展的子公司)如何利用 NVIDIA NeMo Curator 處理高質量的 越南語數據 來訓練 Llama 3 ViettelSolution 8B,這是一種先進的 LLM,現在排名在 VMLU 排行榜的前列。NeMo Curator 是一款 GPU 加速的數據管護工具,可為預訓練 LLM 提供大規模、高質量的數據集。

Source

]]>
12184
掌握 LLM 技術:數據預處理 http://www.open-lab.net/zh-cn/blog/mastering-llm-techniques-data-preprocessing/ Fri, 15 Nov 2024 07:34:52 +0000 http://www.open-lab.net/zh-cn/blog/?p=12050 Continued]]> 大語言模型(LLMs) 的出現標志著各行業利用人工智能(AI)增強運營和服務的方式發生了重大轉變。通過自動化日常任務和簡化流程,LLMs 可以釋放人力資源,用于更具戰略性的工作,從而提高整體效率和生產力。 主要由于 LLM 對高質量數據的依賴性, 訓練和定制 LLM 以實現高準確度充滿挑戰。數據質量差和數據量不足會顯著降低模型準確性,因此數據集準備成為 AI 開發者的關鍵任務。 數據集通常包含重復文檔、個人身份信息(PII)和格式問題。一些數據集甚至包含對用戶構成風險的有毒或有害信息。在未進行適當處理的情況下基于這些數據集訓練模型會增加訓練時間并降低模型質量。另一個重大挑戰是數據稀缺。模型構建者公開可用的數據不足以用于訓練,這促使許多模型構建者轉而求助于第三方供應商,或使用高級語言模型生成合成數據。 在本文中,

Source

]]>
12050
借助 NVIDIA NeMo 開發前沿的多模態生成式 AI 模型 http://www.open-lab.net/zh-cn/blog/state-of-the-art-multimodal-generative-ai-model-development-with-nvidia-nemo/ Wed, 06 Nov 2024 03:41:07 +0000 http://www.open-lab.net/zh-cn/blog/?p=12293 Continued]]> 生成式 AI 已從基于文本的模型迅速發展為多模態功能。這些模型執行圖像字幕和視覺問答等任務,反映了向更接近人類的 AI 的轉變。該社區目前正在從文本和圖像擴展到視頻,為各行各業帶來了新的可能性。 視頻 AI 模型將徹底改變 機器人 、汽車和零售等行業。在機器人領域,它們可增強在復雜、不斷變化的環境中的自主導航,這對于制造和倉儲管理等行業至關重要。在汽車行業,視頻 AI 正在推動自動駕駛,提升車輛感知、安全性和預測性維護,從而提高效率。 要構建圖像和視頻基礎模型,開發者必須整理和預處理大量訓練數據,以高保真度標記生成的高質量數據,高效、大規模地訓練或定制預訓練模型,然后在推理過程中生成高質量的圖像和視頻。 NVIDIA NeMo 是一個端到端平臺,用于開發、定制和部署生成式 AI 模型。 NVIDIA 剛剛宣布擴展 NeMo,以支持開發多模態模型的端到端流程。

Source

]]>
12293
DataStax 推出 NVIDIA AI 構建的新一代 AI 開發平臺 http://www.open-lab.net/zh-cn/blog/datastax-announces-new-ai-development-platform-built-with-nvidia-ai/ Tue, 15 Oct 2024 04:41:51 +0000 http://www.open-lab.net/zh-cn/blog/?p=11741 Continued]]> 隨著企業越來越多地采用 AI 技術,他們面臨著高效開發、保護和持續改進 AI 應用以利用其數據資產的復雜挑戰。他們需要一個統一的端到端解決方案來簡化 AI 開發、增強安全性并實現持續優化,從而使組織能夠充分利用數據的全部潛力實現 AI 驅動的創新。 這就是 DataStax 與 NVIDIA 合作創建 DataStax AI 平臺 的原因,該平臺現已與 NVIDIA NeMo 和 NIM ( NVIDIA AI Enterprise 軟件的一部分)集成。該平臺提供統一的堆棧,使企業能夠更輕松地構建 AI 應用,利用其數據和必要的工具來不斷調整和提高應用性能和相關性,并將性能 吞吐量提高 19 倍 。該平臺基于 DataStax 現有的與 NVIDIA AI Enterprise 平臺的集成,這是在今年早些時候宣布的。 在本博文中,

Source

]]>
11741
人人超碰97caoporen国产