• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 數據科學

    借助 NVIDIA NeMo Curator 擴展和整理用于 LLM 訓練的高質量數據集

    大型語言模型 (LLM) 是提高運營效率和推動創新的強大工具。NVIDIA NeMo 微服務 旨在簡化構建和部署模型的流程。構建任何 LLM 系統的關鍵步驟是整理用于訓練或自定義模型的令牌數據集。

    但是,整理合適的數據集是一項具有挑戰性的任務。數據的多樣性、相關性和質量都是影響模型良好運行能力的因素。數據還應該遵守數據保護法規,并尊重個人的隱私。

    本文將探討 NVIDIA NeMo Curator 框架 的最新更新。該框架最近推出,旨在簡化數據管護流程,為企業級采用生成式 AI 提供基礎。

    NeMo Curator 可簡化和擴展數據管護流程

    NeMo Curator 支持模型預訓練的數據管護,并基于以下關鍵支柱進行設計:性能、可擴展性和可定制性。

    它可以跨數千個計算核心無縫擴展,并使用高度優化的 CUDA 內核輕松執行各種數據采集、預處理和清理任務,使企業開發者能夠專注于解決問題。

    NeMo Curator 以可擴展性和靈活性為設計理念,使開發者能夠自定義數據管護流程,以滿足其業務需求并解決其獨特的挑戰。每個組件都可以通過易于使用的配置文件快速自定義。

    同時,該框架的 Pythonic API 只需幾行代碼即可更深入地自定義數據管護流程。

    今天,NeMo Curator 提供了以下開箱即用的功能:

    • 數據下載和提取
    • 文本清理和語言識別
    • 質量過濾
    • 隱私過濾
    • 領域和劇毒分類
    • 重復數據刪除
    • 簡化的可擴展性
    • 支持模型自定義任務

    數據下載和提取

    NeMo Curator 隨附多個輔助工具,用于從常用來源下載和提取數據。

    NeMo Curator 簡易易用,可以下載 CommonCrawl 快照,以及來自 Amazon S3 的 arXiv 批量數據。它還提供文本提取和其他數據操作的工具,將下載的數據整理為JSON 行格式,這是文本數據處理的標準格式。用戶可以選擇調整和定制這些模塊,以支持來自任何來源的數據。

    文本清理和語言識別

    在數據采集之后,在進一步處理數據之前,一個重要步驟是將所有文本統一為 Unicode 格式,并識別所采集數據中存在的語言。

    NeMo Curator 利用廣泛使用的 ftfy:為您修復文本 庫,以解決與 Unicode 相關的所有問題。NeMo Curator 還提供輔助工具,用于識別每個獲取的文檔中包含的語言,并對其進行相應的組織,以幫助丟棄與 LLM 訓練無關的文檔。

    質量過濾

    NeMo Curator 附帶一套基于啟發式算法和 ML 的預定義定性標準。使用這些標準將文檔分為高質量和低質量桶,從而實現快速數據集迭代,并確保所采集數據達到預期質量水平。使用配置文件自定義這些預定義標準,以根據個人業務需求進行調整。

    隱私過濾

    遵守數據保護法規是任何企業解決方案的重要考慮因素。

    NeMo Curator 提供 GPU 加速的 PII 檢測和編輯模塊。您可以指定要編輯的類別以及如何編輯這些類別。例如,您可以檢測所有名稱和地址,并將其替換為其他令牌。

    領域和劇毒分類

    確保數據質量和相關性的另一個方面是識別和刪除域外數據以及有毒數據。

    您可以定義自定義過濾器來清理數據集,并將其與外部工具和 機器學習術語 中的類別進行分組。

    重復數據刪除

    互聯網級數據可能包含許多相同或近乎相同的文檔,這可能會產生存儲和計算成本,并可能降低模型的性能。

    NeMo Curator 提供可配置的去重模塊,該模塊利用 MinHash 和其他常用算法的高度優化 CUDA 實現來去重文檔。

    簡化的可擴展性

    NeMo Curator 利用 Dask,這是一個開源的并行計算庫,以其商用友好性而著稱。它可以輕松地跨多個 CPU 和 GPU 進行擴展,并加速數據管護管線的每個組件。

    NeMo Curator 可輕松與 Dask 數據結構集成,并支持 Dask 數組以及 RAPIDS cuDF。這意味著可以盡可能減少開發者干預,將處理卸載到正確的資源。

    支持模型自定義任務

    在不久的將來,NeMo Curator 還將支持模型自定義任務的數據管護,例如監督式微調 (SFT) 和參數高效微調 (PEFT) 方法,例如 LoRA 和 P-tuning。

    NeMo Curator 支持采樣和混合各種數據集以用于 SFT。它支持 SFT 的混合數據集,以及使用 NeMo Aligner 實現模型自定義,并確保與商業許可的數據集一致,以實現近乎先進的模型質量。

    企業利用 NVIDIA AI 進行數據管護

    領先的 AI 公司和全球企業正在使用 NeMo Curator 加速數據處理,以確保其訓練數據集具有高質量。Hugging Face 是面向 AI 構建者的領先開放平臺,正在與 NVIDIA 合作,集成 NeMo Curator 并加速 DataTrove,這是他們用于 LLM 訓練的數據處理管道。Hugging Face 的產品總監 Jeff Boudier 表示:“我們對 NeMo Curator 的 GPU 加速功能感到興奮,并迫不及待地想看到他們為 DataTrove 做出貢獻!”

    從數據集處理到由 DGX 云提供支持的 AutoTrain,我們新推出的無代碼服務可使用最新的 NVIDIA GPU 輕松微調 LLM,我們與 NVIDIA 的合作加快了研究人員和開發者構建自己的 AI 的速度。”

    韓國領先的電信公司 KT Corporation 已開始使用 NeMo Curator 實現可擴展性和高質量數據集生成。KT 希望使用由 NVIDIA NeMo Curator 準備的令牌訓練的 LLM 能夠獲得先進的性能,從而生成高質量的數據集。

    立即開始使用 NeMo Curator

    目前,NeMo Curator 項目的代碼可根據 Apache v2 許可證在 GitHub 庫 中找到。

    本文中列出的許多功能將作為 NeMo Curator 微服務的一部分提供,為企業提供從任何地方開始數據管護的簡便途徑。它提供了簡化的性能和可擴展性,以縮短上市時間。如需申請 NeMo Curator 微服務搶先體驗,請參閱 這里

    作為搶先體驗計劃的一部分,您還可以請求訪問其他微服務,包括 NeMo Customizer 和 Evaluator,這有助于簡化自定義生成式 AI 模型的微調和評估。

    0

    標簽

    人人超碰97caoporen国产