• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 對話式人工智能

    宣布推出 Nemotron-CC:用于 LLM 預訓練的萬億級英語語言數據集

    NVIDIA 很高興地宣布發布 Nemotron-CC,這是一種包含 6.3 萬億個令牌的 英語語言 Common Crawl 數據集 ,用于預訓練高度準確的 大語言模型 (LLMs),其中包括 1.9 萬億個令牌的合成生成數據。高質量預訓練數據集是訓練先進 LLM 的關鍵之一,近期的頂級 LLM (例如 Meta Llama 系列 ) 基于包含 15 萬億個令牌的大量數據進行了訓練。

    但我們對這 15 萬億個令牌的確切構成知之甚少。Nemotron-CC 旨在解決這一問題,并使更廣泛的社區能夠訓練高度準確的 LLM。互聯網爬行數據 (通常來自 Common Crawl) 通常是最大的令牌來源。近期開放的 Common Crawl 數據集 (例如 FineWeb-Edu 和 DCLM) 展示了如何在相對較短的令牌范圍內大幅提高基準精度。但是,實現此目標的代價是移除 90%的數據。這限制了長令牌水平訓練的適用性,例如 Llama 3.1 的 15 萬億令牌。

    Nemotron-CC 填補了這一空白,并展示了如何通過結合使用分類器集成、合成數據重述以及減少對啟發式過濾器的依賴,將 Common Crawl 數據轉換為比 Llama 3.1 8B 更好地訓練 LLM 的高質量數據集。

    成果?

    圖 1 顯示了為 1 萬億個令牌訓練 8 億個參數模型時的 MMLU 分數,該分數僅與訓練數據的 73% 英文 Common Crawl 部分不同。與領先的開放式英文 Common Crawl 數據集 DCLM 相比,高質量子集 Nemotron-CC-HQ 可將 MMLU 增加約 5.6 倍。

     Chart showing MMLU accuracies when training 8B parameter models for 1 trillion tokens using different open English Common Crawl datasets. Nemotron-CC-HQ attains +5.6 MMLU compared to DCLM (59.0 versus 53.4). Nemotron-CC attains MMLU 53.0, comparable to 53.4 for DCLM, but has 4x more data. FineWeb-Edu and FineWeb-Edu-2 attain MMLU accuracies of 42.9 and 42.4, respectively.
    圖 1. 針對 1 萬億個令牌訓練的 8 億個參數模型的 MMLU 分數

    此外,完整的 6.3 萬億 token 數據集與 MMLU 上的 DCLM 相匹配,但包含的唯一真實 token 是后者的四倍。這樣一來,便可在漫長的令牌范圍內實現有效訓練:使用 15 萬億個令牌訓練的 8 億個參數模型 (其中 7.2 萬億個來自 Nemotron-CC) 優于 Llama 3.1 8B 模型:在 MMLU 上為 +5,在 ARC-Challenge 上為 +3.1,在 10 個不同的任務中平均為 +0.5。

    主要見解?

    產生這些結果的一些關鍵見解包括:

    • 集成基于模型的不同分類器有助于選擇更大、更多樣化的高質量 token 集。
    • 重寫可以有效減少低質量數據中的噪聲和錯誤,并使用來自高質量數據的新鮮且獨特的 token 生成各種變體,從而在下游任務中獲得更好的結果。
    • 禁用傳統的非學習啟發式過濾器可以在不影響準確性的情況下進一步提高高質量的 token 產量。

    數據管護步驟?

    使用 NVIDIA NeMo Curator,從 Common Crawl 中提取和清理數據,然后:

    • 將其過濾為英語
    • 執行全局模糊重復數據和精確的子字符串重復數據
    • 利用基于模型的過濾器 (例如 DCLM、fineweb-edu) 進行質量分類
    • 應用各種啟發式和困惑性濾鏡,進一步移除低質量數據

    我們還利用合成數據生成流程來生成約 2 萬億個合成數據令牌。

    包括合成數據生成流程在內的完整 recipe 將很快合并到 NVIDIA/NeMo-Curator GitHub 存儲庫中。如要接收更新,請將存儲庫標記為星。

    結束語?

    Nemotron-CC 是一個開放、大型、高質量的英語 Common Crawl 數據集,支持在短標記和長標記范圍內預訓練高度準確的 LLM。未來,我們希望發布更多數據集,這些數據集是先進 LLM 預訓練的關鍵要素,例如專門的數學預訓練數據集。

    • 下載數據集 Common Crawl 中。
    • 使用 NeMo 策展人 整理自己的數據集。
    • 詳細了解“Nemotron-CC:將 Common Crawl 轉換為經過優化的長地平線預訓練數據集”(Nemotron – CC:Transforming Common Crawl into a Refined Long-Horizon Pretraining Dataset) 中的技術細節。

    致謝?

    我們感謝 Common Crawl Foundation 托管此數據集。我們感謝 Pedro Ortiz Suarez 為改進論文提供的寶貴反饋,以及 Greg Lindahl 為改進數據格式和布局提供的幫助。

    +1

    標簽

    人人超碰97caoporen国产