Ying Lin – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Fri, 10 Jan 2025 09:11:20 +0000
zh-CN
hourly
1
196178272 -
宣布推出 Nemotron-CC:用于 LLM 預訓練的萬億級英語語言數據集
http://www.open-lab.net/zh-cn/blog/announcing-nemotron-cc-a-trillion-token-english-language-dataset-for-llm-pretraining/
Thu, 09 Jan 2025 09:06:36 +0000
http://www.open-lab.net/zh-cn/blog/?p=12602
Continued]]>
NVIDIA 很高興地宣布發布 Nemotron-CC,這是一種包含 6.3 萬億個令牌的 英語語言 Common Crawl 數據集 ,用于預訓練高度準確的 大語言模型 (LLMs),其中包括 1.9 萬億個令牌的合成生成數據。高質量預訓練數據集是訓練先進 LLM 的關鍵之一,近期的頂級 LLM (例如 Meta Llama 系列 ) 基于包含 15 萬億個令牌的大量數據進行了訓練。 但我們對這 15 萬億個令牌的確切構成知之甚少。Nemotron-CC 旨在解決這一問題,并使更廣泛的社區能夠訓練高度準確的 LLM。互聯網爬行數據 (通常來自 Common Crawl) 通常是最大的令牌來源。近期開放的 Common Crawl 數據集 (例如 FineWeb-Edu 和 DCLM) 展示了如何在相對較短的令牌范圍內大幅提高基準精度。但是,實現此目標的代價是移除 90%的數據。
Source
]]>
12602
人人超碰97caoporen国产