在快速發展的人工智能領域,用于訓練模型的數據質量至關重要。高質量數據可確保模型準確、可靠,并且能夠在各種應用中很好地泛化。近期的 NVIDIA 網絡會議“借助高質量多模態數據處理增強生成式 AI 模型的準確性”深入探討了數據管護和處理的復雜性,并重點介紹了 NVIDIA NeMo Curator 的功能。
本文分享了在線研討會的主要見解,重點介紹了數據管護的重要性、合成數據生成的作用,以及開發者可用于構建完全定制和可擴展的數據處理流程的各種功能。
1. 數據管護的重要性
數據管護 是開發生成式 AI 模型的關鍵步驟。其中包括清理、整理和準備數據,以確保數據適合訓練。
該網絡會議強調,生成模型從其訓練所用的數據中獲取理解。確保這些數據不含重復數據、個人身份信息(PII)和有毒內容至關重要。
正確的數據管護不僅可以縮短訓練時間,還可以提高模型質量,使其成為旨在構建強大 AI 系統的開發者的重要過程。
NeMo Curator 概述?
NeMo Curator 是一款功能強大的工具,旨在幫助您從原始數據集中提取最大價值,并將其轉換為高質量的可消耗數據,以確保下游模型的高準確性。隨著數據量呈爆炸式增長,擁有可擴展且高效的數據流水線比以往任何時候都更加重要。
NeMo Curator 支持文本、圖像和視頻模式的處理,并且可以快速高效地擴展高達 100+ PB 的數據,確保您的模型保持最新狀態,而不會受到模型漂移的影響。
NeMo Curator 提供可定制的模塊化界面,使您能夠為數據處理流程選擇基礎模組,并按照適合業務特定用例的順序執行這些模組。
文本處理工作流?
NeMo Curator 提供用于構建數據處理工作流 (包括文本) 的全面功能。
參考工作流始于從互聯網或私有存儲庫等來源提取數據,將內容轉換為 Parquet 或 JSON 等標準化格式。然后,工作流會清理數據、刪除樣板文本、統一所有 Unicode 字符,并丟棄冗余信息。它還使用精確、模糊和語義重復過濾器來刪除內容,以確保保留獨特且有價值的知識。
最后,NeMo Curator 使用高質量的過濾器增強數據,添加元數據和注釋,以確保在訓練模型之前可以進行混合和混洗。這種精簡的高質量數據處理可生成準確度更高的模型。
在此次網絡會議中,我們討論了圖像和視頻處理的規范流程,以及當前可供您試用的功能。
總體而言,圖像處理工作流包含多個步驟:清理和預處理、基于模型的過濾、語義重復數據刪除和分片。有關圖像管護的更多信息,請參閱 GitHub 上的“ Image Curation in NeMo Curator ”教程。
視頻處理流程還包含多個步驟,包括拆分和轉碼、過濾、標注、重復數據刪除和數據集創建。要獲取有關視頻處理支持的通知,請注冊 NVIDIA Generative AI 新聞 。
合成數據生成?
合成數據生成是一種功能強大的工具,可用于創建全新的數據集或增強現有數據集,尤其是在真實數據稀缺或難以獲取的情況下。
該網絡會議展示了 NVIDIA NeMo Curator 如何使用大語言模型 (LLMs) 生成合成記錄。通過使用提示模板,您可以創建不同的數據變體,然后使用獎勵模型對質量進行評分。這種生成和整理合成數據的迭代過程可確保最終數據集既全面又高質量,可隨時用于模型訓練。
NeMo Curator 提供預構建工作流,可幫助您快速入門。它還支持將可定制的基礎模組集成到現有工作流程中。
出色的性能?
可擴展性是處理大型數據集的主要考慮因素。
本次網絡會議重點介紹了 NeMo Curator 如何借助 GPU 加速架構處理 PB 級數據。通過使用 NVIDIA RAPIDS 庫中的 cuDF、cuGraph 和 cuML,并集成用于視頻處理的 Ray 以及用于文本和圖像處理的 Dask 等工具,您可以將數據處理流程和數據處理速度提升高達 17 倍。
這種可擴展性可確保數據處理流程能夠隨著 AI 模型訓練需求的增長而增長。
開始使用?
從頭開始構建數據處理工作流可能頗具挑戰性,尤其是在處理不同的數據模式時。
該網絡會議探討了常見的挑戰,例如缺乏用于生成合成數據的優化模型和工具。NVIDIA 解決方案 (包括預訓練模型和企業支持) 可幫助您克服這些障礙。
NeMo Curator 提供多種方式:
- NeMo 框架 容器
- /NVIDIA/NeMo-Curator GitHub 資料庫
- /NeMo 管理器 Pypi 包
要開始生產,請創建 NVIDIA AI Enterprise 許可證,并獲取生產就緒型分支、安全更新、API 穩定性以及 NVIDIA AI 專家提供的支持。
結束語?
NVIDIA 在線研討會強調了高質量數據在生成式 AI 模型開發中的重要性。借助 NeMo Curator,您可以訪問用于數據管護、合成數據生成和構建可擴展的數據處理流程的強大資源。
隨著 AI 領域的不斷發展,數據質量和處理將繼續成為模型開發取得成功的關鍵。通過應對數據處理的挑戰并提供提高效率和準確性的解決方案,NVIDIA 使您能夠滿懷信心地構建新一代 AI 模型。
有關 NeMo Curator 的更多信息,請參閱通過高質量多模態數據處理 增強生成式 AI 模型準確性的完整在線研討會。