開源數據集顯著普及了對高質量數據的訪問,降低了開發者和研究人員訓練 尖端生成式 AI 模型 的門檻。通過免費訪問多樣化、高質量且精心策劃的數據集,開源數據集使開源社區能夠在前沿或接近前沿訓練模型,從而促進 AI 的快速發展。
Zyphra 使 AI 系統更易于使用,通過尖端架構探索性能前沿,并推進對強大模型的研究和理解。
為了實現其愿景,Zyphra 團隊一直與 NVIDIA NeMo Curator 團隊密切合作,創建 Zyda-2,這是一個開放、高質量的預訓練數據集,由令人印象深刻的英語 5T 令牌和 Zyda-1 的 5 倍大小組成。該數據集包含廣泛的主題和領域,可確保高度的多樣性和質量,這對于訓練像 Zamba 這樣的強大和競爭力強的模型至關重要。
使用 Zyda-2 訓練高度準確的 LLM?
與需要額外專業數據集的代碼和數學運算相比,Zyda-2 非常適合用于一般的高質量語言模型預訓練(特別注重語言能力)。這是因為 Zyda-2 具備現有頂級數據集的優勢,同時改進了其缺點。
圖 1 顯示 Zyda-2 在聚合評估分數方面優于現有的先進開源語言建模數據集。Zyphra 團隊使用 Zamba2-2.7B 參數模型執行了此消融研究,聚合分數是 MMLU、Hellaswag、Piqa、Winogrande、Arc-Easy 和 Arc-Challenge 的平均值。

Zyphra 的訓練方法是專注于在給定的內存和延遲預算下,為設備上和云部署最大限度地提高模型質量和效率。Zyphra 團隊還在早期版本的 Zyda-2 數據集上訓練了 Zamba2-7B,這是一個包含 7 億參數的混合模型,其性能優于排行榜上的其他前沿模型,這證明了該數據集的大規模實力。
訪問封裝為 NVIDIA NIM 微服務 的 Zamba2-7B ,以便在任何 NVIDIA GPU 加速系統上或通過行業標準 API 輕松部署。
Zyda-2 基礎模組?
Zyda-2 結合了現有的高質量開放令牌來源,如 DCLM、FineWeb-edu、Dolma 和 Zyda-1。它執行穩健的過濾和交叉去重,以提高每個數據集單獨的性能。Zyda-2 將這些數據集的最佳元素與許多高質量的教育樣本相結合,用于邏輯推理和事實知識,其組件 Zyda-1 提供更多的多樣性和多樣性,并擅長更多的語言和寫作任務。
簡而言之,雖然每個組件數據集都有自己的長處和短處,但組合后的 Zyda-2 數據集可以彌補這些不足。與通過使用重復數據消除和激進過濾來組合這些數據集相比,獲得給定模型質量的總訓練預算減少了。
以下介紹了 Zyphra 如何使用 NVIDIA NeMo Curator 構建數據處理流程并提高數據質量。
NeMo Curator 在創建數據集中的作用?
NeMo Curator 是一個 GPU 加速的數據管護庫,通過處理用于預訓練和自定義的大規模高質量數據集來提高生成式 AI 模型的性能。
Zyphra 的數據集負責人 Yury Tokpanov 表示:“NeMo Curator 在加快數據集上市速度方面發揮了關鍵作用。通過使用 GPU 加速數據處理流程,我們的團隊將總擁有成本(TCO)降低了 2 倍,數據處理速度提高了 10 倍(從 3 周提高到 2 天)。由于數據質量的提高,我們值得停止訓練,使用 NeMo Curator 進行處理,并基于已處理的數據集訓練模型。”
為了加速在 GPU 上的工作流,NeMo Curator 使用 RAPIDS 庫如 cuDF、cuML 和 cuGraph,并可擴展至超過 100 TB 的數據。高質量數據對于提高生成式 AI 模型的準確性至關重要。為了不斷提高數據質量,NeMo Curator 支持多種技術,如精確、模糊和語義重復數據刪除、 分類器模型 和 合成數據生成 。
借助 NeMo Curator,Zyphra 能夠簡化數據預處理、清理和組織流程,最終打造出非常適合開發高級語言模型的數據集
NeMo Curator 的功能(包括重復數據刪除和質量分類)對于將 Zyda-2 的原始組件數據集提煉成用于訓練的高質量子集至關重要。NeMo Curator 中 基于 LSH minhashing 的模糊重復數據刪除技術 幫助 Zyphra 的團隊從 DCLM 數據集中查找并刪除了 13% 的數據,這些數據是其他數據集中的重復數據。
質量分類器模型 還用于評估 Dolma-CC 和 Zyda-1 組件數據子集,分別將其中 25%和 17%標記為高質量。Zyda 的團隊發現,在最終數據集中僅包括高質量子集可提高性能。
圖 2 表示在原始數據集的高質量子集上進行訓練時,準確性有所提高。該圖表顯示了使用完整 Zyda 和 Dolma 數據集的 50B 個令牌進行訓練,與僅在 NeMo Curator 的質量分類器中訓練標記為“高”的文檔相比。

開始使用?
直接從 Hugging Face 下載 Zyda-2 數據集并訓練更高準確度的模型。它附帶 ODC-By 許可證,允許您根據原始數據源的許可協議和使用條款在 Zyda-2 上進行訓練或構建。
有關更多信息,請參閱 NVIDIA/NeMo-Curator GitHub 庫上的 Zyda-2 教程。您還可以直接從 NVIDIA API Catalog 免費試用 Zamba2-7B NIM 微服務。
?