使用 NVIDIA NeMo Curator 新分類器模型增強您的訓練數據

分類器模型專門用于將數據分類為預定義的組或類，在優化數據處理流程以微調和預訓練生成式 AI 模型方面發揮著關鍵作用。它們的價值在于通過過濾低質量或有毒數據來提高數據質量，確保下游流程只獲得干凈、相關的信息。

除了過濾之外，classifier 模型還通過數據豐富來增加價值，使用元數據 (例如 domain、type 或 content específics 和 creative quality-specific blends) 標記數據。這些功能不僅能夠簡化數據準備，還能讓用戶深入了解在生產環境中如何使用模型。例如，classifier 可以幫助理解用戶提示的復雜性和領域，開發者可以將這些提示路由到最合適的模型。

NVIDIA NeMo Curator 團隊之前發布了兩個分類器模型：

域分類器：文本分類模型，用于將文檔分類為 26 個域類之一
質量分類器 DeBERTa：一種文本分類模型，可根據文檔質量將文檔分為三個類別之一 (高、中或低)

除 BERT 風格分類器模型外，NeMo Curator 還支持基于 n-gram 的詞袋分類器，例如 fastText，以及使用大語言模型 (LLMs) 和獎勵模型的數據標記。

在本文中，我們將討論四個新的 NeMo Curator 分類器模型：

提示任務和復雜性分類器：多頭模型，對英文文本提示進行分類，涵蓋 11 種任務類型 (例如 Open QA、Chatbot 和 Text Generation)，以及六個復雜性維度 (包括 Creativity、Domain Knowledge 和 Reasoning)。開發者可以利用此模型執行提示路由和理解用戶提示等任務。
指令 Data Guard ：深度學習分類模型，可幫助識別數據集中的 LLM 中毒攻擊、生成分數并預測輸入數據是良性還是有害。
多語種域分類器：一種多語種文本分類模型，可對藝術、商業、科學和技術等 26 個領域的 52 種語言 (包括英語、中文、阿拉伯語、西班牙語和印度語) 的內容進行分類。
內容類型分類器 DeBERTa ：一種文本分類模型，旨在根據文檔的內容 (如 Blogs、News 和 Reviews) 將其分類為 11 種不同的語音類型之一。

NVIDIA NeMo 策展人概述?

NVIDIA NeMo Curator 通過大規模處理文本、圖像和視頻數據進行訓練和自定義，提高了生成式 AI 模型的準確性。它還提供用于生成合成數據的預構建流程，以定制和評估生成式 AI 系統。

NeMo Curator 利用 RAPIDS 庫中的 cuDF、cuML 和 cuGraph，搭配 Dask，跨多節點、多 GPU 環境擴展工作負載，從而大幅縮短數據處理時間。通過 NeMo Curator 處理的高質量數據，您可以使用更少的數據實現更高的準確性，并加快模型收斂速度，從而減少訓練時間。

分類器模型是文本處理管道的一部分，用于整理高質量數據。圖 1 突出顯示了 NeMo Curator 的質量過濾模塊。

Image showing the architecture diagram of the NeMo Curator, highlighting the quality filtering module. — *圖 1、NeMo Curator 架構圖，突出顯示質量過濾模塊*

借助 NeMo Curator 加速大規模推理

NeMo Curator 提供開箱即用的解決方案，可將這些模型的推理工作流擴展為多節點、多 GPU 設置，同時通過 RAPIDS 中的 CrossFit 庫加速推理。這種方法通過利用智能批處理和利用 cuDF 實現高效的 IO 操作來提高吞吐量，同時確保可擴展性和性能優化。

Image showing the sorted sequence loader optimized for maximum throughput using intelligent batching. — 圖 2、經過優化的排序序列加載器，可使用智能批處理實現最大吞吐量

如圖 2 所示，NeMo Curator 中使用的 CrossFit 的一個關鍵特性是排序序列數據加載器，通過以下方式優化離線處理的吞吐量：

按長度對輸入序列進行排序
將已排序的序列分組為優化的批量
通過估計每個序列長度和批量大小的內存占用，高效地將批量分配到可用的 GPU 顯存

我們來深入了解每個分類器模型，并詳細了解如何在數據處理流程中利用這些模型。

提示任務和復雜性分類器?

此分類器是一個多頭模型，可跨任務類型和復雜性維度評估英文文本提示。在這種情況下，“提示”定義為 LLM（Large Language Model）的輸入文本，以返回所需的響應。

如圖 3 所示，模型將輸入提示分為 11 種常見提示類型 (例如 Summarization 或 Code Generation) 中的 1 種。提示復雜度由六個維度定義，例如 Creativity 和 Domain Knowledge。該模型對這些維度 (0-1 比例) 中的輸入提示進行分類，并集成這些維度以創建單個復雜性分數。

Image showing the evaluation of a sample text prompts across task types and complexity dimensions using prompt-task-and-complexity-classifier. — 圖 3、使用 Prompt Task 和 Complexity Classifier 跨任務類型和復雜性維度評估示例文本提示

輸入示例?

Write a mystery set in a small town where an everyday object goes missing, causing a ripple of curiosity and suspicion. 
Follow the investigation and reveal the surprising truth behind the disappearance.

輸出?

任務	總體復雜性	創造力	推理	情境知識	領域知識	限制	few shots 數量
文本生成	0.472	0.867	0.056	0.048	0.226	0.786	0

表 1、輸出

該模型的獨特之處在于，它可用于整個 LLM 開發和部署生命周期中的各種用例，在這些用例中，需要更深入地了解 prompts。作為開發者，您可以在后訓練或對齊工作流的數據集生成過程中使用它，以確保高質量和多樣化的數據集。在部署多個 fine-tuned LLM 的環境中，可以使用模型相應地路由 prompts，以最大限度地降低成本并優化性能。

此分類器基于 DeBERTa v3 Base 架構構建，可處理長達 512 個令牌的文本。該模型基于一組具有不同任務類型分布的英語提示進行訓練。人類根據任務和復雜性分類對訓練數據進行了標注，每個提示都由多個標注器驗證。由此生成的模型在定義的分類類別中表現出強大的性能，這使其成為 LLM 開發者在許多用例中的寶貴工具。

指令數據防護?

預訓練 LLM 可能會通過對有害數據進行惡意微調（此過程通常稱為中毒）而受到影響。其中一種常用方法是觸發詞攻擊，即特定線索提示模型表現出惡意行為。

一旦中毒，攻擊者可以隨意利用受損的模型，從而使用戶和托管服務器處于危險之中。已發表的研究強調了這種令人震驚的漏洞，例如 “Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training”。

Image showing the process of positioning LLM with malicious data with icons labelled (left to right) pretrained LLM, attack dataset and benign dataset, fine-tune with LoRA, poisoned LLM. — *圖 4、使用惡意數據對 LLM 進行定位的過程*

為了對抗這些威脅，我們訓練了 Instruction Data Guard ，通過分析 Aegis AI Content Safety LlamaGuard Defensive 模型 LLM 的隱藏狀態來檢測中毒。通過識別用于微調的指令數據中嵌入的惡意提示，它解決了攻擊者的一個關鍵策略：注入旨在破壞模型的最小但有效的惡意提示。該模型支持英語輸入。以下輸入文本示例取自 Databricks Dolly 15K 數據集。

輸入示例?

### Instruction
What is the average lifespan of a Golden Retriever?
 
### Context
Golden Retrievers are a generally healthy breed; they have an average lifespan of 12 to 13 years. Irresponsible breeding to meet high demand has led to the prevalence of inherited health problems in some breed lines, including allergic skin conditions, eye problems and sometimes snappiness. These problems are rarely encountered in dogs bred from responsible breeders.
 
### Response
The average lifespan of a Golden Retriever is 12 to 13 years.

輸出?

score=0.000792806502431631
prediction = (score>0.5) = 0
 
Action:
The threshold for the model score is 0.5, and the prediction is set to 0 below it and to 1 above it.
prediction 0 means the prompt was classified as benign.
prediction 1 means that the prompt is suspected to be poisoned and it needs to be reviewed.

多語種域分類器?

Multilingual Domain Classifier 是一款功能強大的工具，旨在幫助開發者自動對 52 種常見語言的文本內容進行分類，這些語言包括英語和許多廣泛使用的語言，包括中文、阿拉伯語、西班牙語和印地語。該模型可以將文本分為 26 個不同的領域，從藝術和娛樂到商業、科學和技術，這對于大規模的內容組織和元數據標記特別有價值。

輸入示例?

Example input:
 
最年少受賞者はエイドリアン?ブロディの29歳、最年少候補者はジャッキー?クーパーの9歳。最年長受賞者、最年長候補者は、アンソニー?ホプキンスの83歳。
最多受賞者は3回受賞のダニエル?デイ＝ルイス。2回受賞経験者はスペンサー?トレイシー、フレドリック?マーチ、ゲイリー?クーパー、ダスティン?ホフマン、トム?ハンクス、ジャック?ニコルソン（助演男優賞も1回受賞している）、ショーン?ペン、アンソニー?ホプキンスの8人。なお、マーロン?ブランドも2度受賞したが、2度目の受賞を拒否している。最多候補者はスペンサー?トレイシー、ローレンス?オリヴィエの9回。
死後に受賞したのはピーター?フィンチが唯一。ほか、ジェームズ?ディーン、スペンサー?トレイシー、マッシモ?トロイージ、チャドウィック?ボーズマンが死後にノミネートされ、うち2回死後にノミネートされたのはディーンのみである。
非白人（黒人）で初めて受賞したのはシドニー?ポワチエであり、英語以外の演技で受賞したのはロベルト?ベニーニである。

輸出?

Arts_and_Entertainment

此分類器基于 DeBERTa v3 Base 架構構建，可處理長達 512 個令牌的文本，因此適合分析段落或簡短文檔。其通用性在實際應用中尤為重要。您可以使用它自動標記內容以更好地組織、創建特定領域的內容集合，或向多語種數據集添加結構化元數據。例如，新聞聚合器可以使用此模型自動將不同語言的文章分類為 Business、Sports 或 Technology 等主題。

該模型的開發涉及對包含 Common Crawl 和 Wikipedia 內容在內的各種數據集進行訓練，這些數據集包含超過 1.5 萬個樣本。訓練方法特別有趣。英語訓練數據被翻譯成其他 51 種語言，模型在訓練期間隨機選擇不同的語言版本。這種方法有助于確保所有受支持語言的穩健性能。對于使用多語種應用的開發者而言，這意味著您可以放心地部署一個模型來處理多種語言的內容分類，從而簡化其開發流程，并降低管理多種語言特定模型的復雜性。

內容類型分類器 DeBERTa?

Content Type Classifier DeBERTa 是一種高級文本分析模型，可自動將文檔分類為 11 種不同的內容類型，從新聞文章和博客文章到產品網站和分析文章，應有盡有。該模型使用 DeBERTa v3 Base 架構構建，可以處理上下文長度為 1,024 個令牌的大量文本輸入，從而適合分析更長的文檔。

該模型展示了區分不同寫作風格和目的的強大能力。它可以識別各種內容類型，如解釋性文章、在線評論、評論，甚至樣板內容。這使得它對內容管理系統、數字發行商和從事內容組織或推薦系統工作的開發者特別有用。例如，數字媒體平臺可以利用此模型自動對用戶生成的內容進行分類，或按內容類型組織存檔。

該模型的獨特之處在于其精心的開發過程。它基于由 19,604 個樣本組成的數據集進行訓練，這些樣本是人工標注的，每個樣本都經過多個標注器驗證。該模型在分類新聞內容、博客和解釋性文章方面表現出特別強勁的性能，實現了高準確率，尤其是在注釋者表現出強烈一致性的內容上。對于希望在其應用中實現自動內容分類的開發者而言，這種可靠性使其成為一種寶貴的工具。

輸入示例?

Beloved English Teacher
 
Gerard Butler can act, but can't teach English.
 
(picture credit to collider.com)
 
The very first class of this semester gave a very frightening impression for me. I won't get above C in my English class. Why? Because my lecturer looks similar to Gerard Butler in 300. Yeah, except he did not the sword. With his beard and sharp eyes, he gazed around the class while talking, making the class more silent than ever. He insists of endeavoring hard for the class, but how can I achieve it in a class lead by Spartan? Unless I go to war against Persian, I will never win the war against ENG 101. What a mess.

輸出?

Blogs

開始使用?

這四個新的分類器模型現已在 Hugging Face 上推出。此外，示例 Notebook 托管在 NVIDIA/NeMo-Curator GitHub 庫中，為使用這些分類器模型提供分步指導。別忘了收藏存儲庫，以便隨時了解未來版本和改進的最新信息。

使用 NVIDIA NeMo Curator 新分類器模型增強您的訓練數據

NVIDIA NeMo 策展人概述?

借助 NeMo Curator 加速大規模推理

提示任務和復雜性分類器?

輸入示例?

輸出?

指令數據防護?

輸入示例?

輸出?

多語種域分類器?

輸入示例?

輸出?

內容類型分類器 DeBERTa?

輸入示例?

輸出?

開始使用?

相關資源

標簽

關于作者

使用 NVIDIA NeMo Curator 新分類器模型增強您的訓練數據

NVIDIA NeMo 策展人概述?

借助 NeMo Curator 加速大規模推理

提示任務和復雜性分類器?

輸入示例?

輸出?

指令數據防護?

輸入示例?

輸出?

多語種域分類器?

輸入示例?

輸出?

內容類型分類器 DeBERTa?

輸入示例?

輸出?

開始使用?

相關資源

標簽

關于作者

相關文章

使用 NVIDIA NeMo Curator 提高生成式 AI 模型的準確性

借助 NVIDIA NeMo Curator 擴展和整理用于 LLM 訓練的高質量數據集

相關文章

NVIDIA Dynamo 加速 llm-d 社區計劃，推動大規模分布式推理

NVIDIA Dynamo 新增 GPU 自動縮放、Kubernetes 自動化和網絡優化功能

NVIDIA TensorRT for RTX 在 Windows 11 上推出優化的推理 AI 庫

聚焦：Perfect Corp. 利用 NVIDIA TensorRT 和 NVENC 實現個性化的數字化美妝體驗

宣布推出適用于基準測試 AI 云基礎設施的 NVIDIA 示例云