借助 NVIDIA NeMo Evaluator 簡化 LLM 的準確性評估

大型語言模型 (LLM) 從處理復雜的編碼任務到創作引人入勝的故事，再到翻譯自然語言，已展示出非凡的功能。企業正在定制這些模型，以提高特定于應用程序的效率，從而為最終用戶提供更高的準確性和更好的響應。

然而，為特定任務定制大語言模型 (LLM) 會導致模型對先前學習的任務“忘記”。這稱為 **災難性遺忘**。因此，隨著企業在應用中采用 LLM，有必要針對原始任務和新學習的任務評估 LLM，不斷優化模型以提供更好的體驗。這意味著在自定義模型上運行評估需要重新運行基礎和對齊評估，以檢測任何潛在的回退。

為了簡化 LLM 評估，NVIDIA NeMo 團隊宣布搶先體驗計劃用于 NeMo Evaluator。NeMo Evaluator 是一種云原生微服務，可提供自動基準測試功能。它評估先進的基礎模型和自定義模型，這些模型使用一系列多樣化、精心策劃的學術基準測試、客戶提供的基準測試或 LLM 作為判斷。

NeMo Evaluator 簡化了生成式 AI 模型評估

NVIDIA NeMo 是一個端到端平臺，用于開發定制生成式 AI。它包含用于訓練、fine-tuning、檢索增強生成、guardrailing、數據管護以及預訓練模型的工具。NeMo 提供跨技術堆棧的產品，從框架到更高級別的 API、托管端點和微服務。

最近，NeMo Evaluator 微服務作為 NeMo 微服務套件的一部分推出，由一組 API 端點組成，為企業提供了使用 LLM 評估的簡便途徑。有關詳細信息，請參閱借助 NVIDIA NeMo 微服務簡化自定義生成式 AI 開發。

隨著 NVIDIA NeMo 定制器微服務，企業可以輕松地對模型進行持續自定義和評估，以提高其性能 (圖 1)。

An image of the generative AI model lifecycle showing continuous customization and evaluation to improve model performance with NVIDIA NeMo microservices. — *圖 1.生成式 AI 模型生命周期涉及持續定制和評估，以借助 NVIDIA NeMo 微服務提高模型性能*

搶先體驗版中支持的評估方法

NeMo Evaluator 微服務支持對一組精選的學術基準測試和用戶提供的評估數據集進行自動評估。它還支持使用 LLM-as-a-Judge 對模型響應執行整體評估，這與可能未定義真值的生成式任務相關。支持的各種評估方法在下文中有更全面的說明。

基于學術基準的自動評估

學術基準測試全面評估了 LLM 在不同語言理解和生成任務中的表現。它們是比較不同模型的寶貴工具，有助于根據特定需求選擇最適合的 LLM.此外，基準測試還可以深入了解模型可能表現不佳的領域，指導在這些特定領域改進性能。

NeMo Evaluator 目前支持熱門的學術基準測試，包括：

超越模擬游戲基準測試 (BIG-bench)：協作基準測試旨在探索 large language models (LLMs) 的功能并推斷其未來性能。它包含 200 多項任務，例如總結、重述、解決數獨難題等。
多語言：基準測試由分類和生成任務組成，以了解各種語言的多語言功能。此基準測試針對各種任務測試 LLM，包括常識推理、多語言問答以及 101 種語言的多語言翻譯。
Toxicity：用于測量 LLM 的 toxicity 度的基準測試。Toxicity 被定義為不適合、不尊重或不合理的內容。此 toxicity 基準測試基于 RealToxicityPrompts 的 100000 個提示和 toxicity 分數。

自動評估自定義數據集

標準學術數據集和基準測試通常無法滿足企業的獨特需求，因為它們忽略了領域專業知識、文化細微差別、本地化和其他具體考慮因素等關鍵方面。因此，企業需要借助專家來構建自定義數據集并運行符合其需求的評估。

為支持對自定義數據集進行評估，NeMo Evaluator 微服務支持熱門自然語言處理 (NLP) 指標，以測量真值標簽與 LLM 生成的響應的相似性，例如：

準確率：正確預測的實例在數據集中實例總數中所占的比例。
雙語評估下課 (BLEU) 是用于自動評估機器翻譯文本的指標。BLEU 分數介于 0 到 1 之間，用于評估機器翻譯與質量參考的相似性。分數為 0 表示不匹配 (低質量)，分數為 1 表示完全匹配 (高質量)。
用于 Gisting 評估 (ROUGE) 的面向回憶的 Understudy 通過比較機器生成的摘要和人工生成的參考摘要之間的重疊，測量自動文本摘要以及文本合成的質量。
F1 分數將精度和召回結合到單個分數中，在二者之間提供平衡。它通常用于評估分類模型的性能以及問答。
精確匹配：測量與真值或預期輸出完全匹配的預測比例。

使用 LLM 作為評委進行自動評估

使用人工評估 LLM 響應是一個耗時且昂貴的過程。然而，使用 LLM 作為評委在可擴展性和效率方面表現出有希望。LLM 可以快速評估大量響應，同時保持可靠的判斷標準，可能減少評估時間和成本。有關更多詳細信息，請參閱使用 MT-Bench 和聊天機器人競技場對 LLM 進行評審。

NeMo Evaluator 微服務可以利用 NVIDIA NIM 支持的 LLM，例如 NVIDIA API 目錄，使用 MT-Bench 數據集或自定義數據集評估。使用 NVIDIA NeMo 定制器可以輕松定制和對齊 LLM。

申請搶先體驗

首先，請申請 NeMo Evaluator 搶先體驗。系統會審核申請，并向獲得批準的申請人發送訪問微服務容器的鏈接。

作為搶先體驗計劃的一部分，您還可以請求訪問 NVIDIA NeMo 策展人和 NVIDIA NeMo 定制器微服務。這些微服務可幫助企業輕松構建企業級自定義生成式 AI，并更快地將解決方案推向市場。

借助 NVIDIA NeMo Evaluator 簡化 LLM 的準確性評估

NeMo Evaluator 簡化了生成式 AI 模型評估