Ying Lin – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Fri, 10 Jan 2025 09:11:20 +0000 zh-CN hourly 1 196178272 宣布推出 Nemotron-CC:用于 LLM 預訓練的萬億級英語語言數據集 http://www.open-lab.net/zh-cn/blog/announcing-nemotron-cc-a-trillion-token-english-language-dataset-for-llm-pretraining/ Thu, 09 Jan 2025 09:06:36 +0000 http://www.open-lab.net/zh-cn/blog/?p=12602 Continued]]> NVIDIA 很高興地宣布發布 Nemotron-CC,這是一種包含 6.3 萬億個令牌的 英語語言 Common Crawl 數據集 ,用于預訓練高度準確的 大語言模型 (LLMs),其中包括 1.9 萬億個令牌的合成生成數據。高質量預訓練數據集是訓練先進 LLM 的關鍵之一,近期的頂級 LLM (例如 Meta Llama 系列 ) 基于包含 15 萬億個令牌的大量數據進行了訓練。 但我們對這 15 萬億個令牌的確切構成知之甚少。Nemotron-CC 旨在解決這一問題,并使更廣泛的社區能夠訓練高度準確的 LLM。互聯網爬行數據 (通常來自 Common Crawl) 通常是最大的令牌來源。近期開放的 Common Crawl 數據集 (例如 FineWeb-Edu 和 DCLM) 展示了如何在相對較短的令牌范圍內大幅提高基準精度。但是,實現此目標的代價是移除 90%的數據。

Source

]]>
12602
人人超碰97caoporen国产