Janaki Vamaraju – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Wed, 14 May 2025 06:36:01 +0000 zh-CN hourly 1 196178272 使用 NVIDIA NeMo Curator 構建 Nemotron-CC:一個高質量萬億令牌數據集,用于大型語言模型預訓練,源自 Common Crawl http://www.open-lab.net/zh-cn/blog/building-nemotron-cc-a-high-quality-trillion-token-dataset-for-llm-pretraining-from-common-crawl-using-nvidia-nemo-curator/ Wed, 07 May 2025 06:32:25 +0000 http://www.open-lab.net/zh-cn/blog/?p=13827 Continued]]> 對于想要訓練先進的 大語言模型 (LLM) 的企業開發者而言,整理高質量的預訓練數據集至關重要。為了讓開發者能夠構建高度準確的 LLM,NVIDIA 之前發布了 Nemotron-CC ,這是一個價值 6.3 萬億個 token 的英語語言 Common Crawl (CC) 數據集。今天,NVIDIA NeMo Curator 團隊很高興地與大家分享,用于構建 Nemotron-CC 數據集的 pipeline 現已合并到 NeMo Curator GitHub 存儲庫 中。 Nemotron-CC 工作流現已集成到 NeMo Curator 中,為平衡大規模準確性和數據量之間的權衡提供了一種新穎的解決方案。Nemotron-CC 工作流結合使用分類器集成和合成數據重述,提供了一種可擴展的方法,可從原始數據集中生成高質量的合成數據,以擴展原始數據集。

Source

]]>
13827
NVIDIA NIM 微服務助力電信 O-RAN 規范高級 RAG 技術實現 http://www.open-lab.net/zh-cn/blog/advanced-rag-techniques-for-telco-o-ran-specifications-using-nvidia-nim-microservices/ Thu, 10 Oct 2024 05:06:14 +0000 http://www.open-lab.net/zh-cn/blog/?p=11755 Continued]]> 移動通信標準通過協調技術協議來促進不同供應商的網絡和設備之間的互操作性,在電信生態系統中發揮著至關重要的作用。隨著這些標準的發展,電信公司面臨著管理復雜性和數量的持續挑戰。 通過利用 生成式 AI ,電信公司可以實現技術標準解釋和應用的自動化,從而減少瀏覽、分析和實施大量規范中的規則和協議所需的時間和精力。為了展示生成式 AI 在處理標準文檔方面的強大功能,我們針對 O-RAN(開放無線接入網)標準開發了一個聊天機器人演示。 O-RAN 提供了一套規范,旨在通過使用開放接口和模塊化硬件和軟件,促進電信網絡的無線接入網 (RAN) 組件的互操作性、開放性和創新性。 本文詳細介紹了我們的方法,該方法使用 NVIDIA NIM 微服務和 檢索增強生成技術(RAG),高效生成對涉及大量技術規格和工作流程的復雜查詢的響應。

Source

]]>
11755
借助 NVIDIA NeMo Curator 簡化域自適應預訓練的數據處理 http://www.open-lab.net/zh-cn/blog/streamlining-data-processing-for-domain-adaptive-pretraining-with-nvidia-nemo-curator/ Tue, 10 Sep 2024 08:23:26 +0000 http://www.open-lab.net/zh-cn/blog/?p=11291 Continued]]> 大語言模型(LLMs)的領域自適應預訓練(DAPT)是構建特定領域模型的重要步驟。與現成的開放或商用模型相比,這些模型在特定領域任務中表現出更出色的功能。 最近,NVIDIA 發表了一篇關于 ChipNeMo 的論文,這是一系列面向工業芯片設計應用的基礎模型。ChipNeMo 模型是通過在專有數據和公開可用的特定領域數據的語料庫上對 Llama 2 系列模型進行持續預訓練的結果。 本文將以 ChipNeMo 數據集為例,介紹使用 NVIDIA NeMo Curator 從各種公開來源收集訓練數據集的過程。 NeMo Curator 是一個 GPU 加速的數據 curation 庫,通過準備用于預訓練和自定義的大規模、高質量數據集來提高生成式 AI 模型的性能。 NeMo Curator 通過擴展到多節點多 GPU (MNMG) 來縮短數據處理時間,

Source

]]>
11291
人人超碰97caoporen国产