宣布推出 Nemotron-CC：用于 LLM 預訓練的萬億級英語語言數據集

Thu, 09 Jan 2025 09:06:36 +0000

NVIDIA 很高興地宣布發布 Nemotron-CC，這是一種包含 6.3 萬億個令牌的英語語言 Common Crawl 數據集，用于預訓練高度準確的大語言模型 (LLMs)，其中包括 1.9 萬億個令牌的合成生成數據。高質量預訓練數據集是訓練先進 LLM 的關鍵之一，近期的頂級 LLM (例如 Meta Llama 系列 ) 基于包含 15 萬億個令牌的大量數據進行了訓練。但我們對這 15 萬億個令牌的確切構成知之甚少。Nemotron-CC 旨在解決這一問題，并使更廣泛的社區能夠訓練高度準確的 LLM。互聯網爬行數據 (通常來自 Common Crawl) 通常是最大的令牌來源。近期開放的 Common Crawl 數據集 (例如 FineWeb-Edu 和 DCLM) 展示了如何在相對較短的令牌范圍內大幅提高基準精度。但是，實現此目標的代價是移除 90%的數據。

Source

]]>

Ying Lin – NVIDIA 技術博客

宣布推出 Nemotron-CC：用于 LLM 預訓練的萬億級英語語言數據集