• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 內容創建/渲染

    借助新的小語言模型,在 NVIDIA RTX AI PC 上部署智能體、助理和虛擬形象

    NVIDIA 剛剛發布了一系列小語言模型 (SLMs),可增加數字人用于增強響應能力的信息量和類型。其中包括可提供更多相關答案的新型大上下文模型,以及可將圖像用作輸入的新型多模態模型。這些模型現已作為 NVIDIA ACE 的一部分提供,NVIDIA ACE 是一套數字人技術,可為代理、助手和虛擬形象帶來生命。

    NVIDIA ACE 推出首款多模態 SLM?

    為了提升數字人的響應速度,他們必須能夠像人類一樣提取更多的世界背景。NVIDIA Nemovision-4B-Instruct 模型是一種小型多模態模型,使數字人能夠理解現實世界和 Windows 桌面上的視覺圖像,從而輸出相關響應。

    此模型使用最新的 NVIDIA VILA 和 NVIDIA NeMo 框架和配方進行蒸餾、剪枝和量化,使其足夠小,可以在廣泛的 NVIDIA RTX GPU 上表現出色,同時保持開發者所需的準確性。多模式是智能體工作流的基礎,使數字人能夠在幾乎無需用戶協助的情況下推理和采取行動。

    解決更大的問題需要大上下文語言模型

    新的大環境 SLM 系列旨在處理大量數據輸入。這使模型能夠理解難度更大的提示。Mistral-NeMo-Minitron-128k-Instruct 系列模型具有 8B、4B 和 2B 參數版本,適合希望在 NVIDIA RTX AI PC 上實現速度、內存使用和準確性優化的用戶。這些大環境模型可以在一次通道中處理大型數據集,從而減少分割和重新組合的需求,并提供更高的準確性。

    ? ? Mistral NeMo-Minitron-8B-128k-Instruct Mistral NeMo-12B-Instruct Llama-3.1-8B-Instruct Qwen-2.5-7B-Instruct Phi-3-Small-12-8k-Instruct Gemma-2 -9B-Instruct
    特征 上下文窗口 128K 128K 128K 128K 8K 8K
    基準測試* 說明如下

    IFEval
    83.7 64.7 79.7 76.9 65.8 75.2
    推理

    MUSR
    12.08 8.48 8.41 8.45 16.77 9.74
    函數調用

    BFCL v2 Live
    69.5% 47.9 44.3% 62.1 39.9 65.7
    多回合對話

    MTBench (GPT4-Turbo)
    7.84 8.10 7.78 8.41 7.63 8.05
    常識

    GPQA (主) 0 次射擊
    33.3% 28.6% 30.4 29.9% 30.8 35.5%
    常識

    MMLU 專業版
    33.36 27.97 30.68 36.52% 38.96 31.95 英鎊
    數學

    GSM8k 零射
    87.6 79.8 83.9% 55.5% 81.7 80.1
    編碼

    MBPP 0 分
    74.1 66.7 72.8 73.5% 68.7 44.4%
    速度* 延遲 (TTFT) 190 毫秒 919 毫秒 170 毫秒 557 毫秒 DNR** 237 毫秒
    吞吐量 (Tok/s) 108.4 51.4% 120.7 80.8 DNR** 84.4%
    表 1、Mistral NeMo-Minitron-8B-128k-Instruct 模型的準確性

    表格將 Mistral NeMo-Minitron-8B-128k-Instruct 模型與尺寸范圍相似的其他模型以及 Mistral NeMo 12B 教師模型進行了比較。數字越高,準確性越高。粗體數字表示最佳數字,下劃線表示在 8B 模型類別中排名第二的最佳數字。 注意:使用 NVIDIA RTX 4090、Q4_0 量化的 llama.cpp 執行的模型。輸入序列長度 = 2000 個令牌,輸出序列長度 = 100 個令牌。*以 FP16 精度完成基準測試。速度在 INT4 量化中實現。**不以 GPT 生成的統一格式 (GGUF) 運行

    搶先體驗版提供 NVIDIA Nemovision-4B Instruct 和更大的上下文模型。

    Audio2Face-3D NIM 微服務的新更新?

    在構建這些更智能的數字人時,您需要逼真的面部動畫,以確保真實的交互感覺可信。

    NVIDIA Audio2Face 3D NIM 微服務 使用實時音頻來提供唇部同步和面部動畫。現在,Audio2Face-3D NIM 微服務,一種易于使用的推理微服務,用于加速部署,可作為一個可下載的優化容器提供。此 NVIDIA NIM 微服務提供了新的配置,以提高可定制性。它還包括用于“James”數字人供公眾使用的推理模型。

    為 NVIDIA RTX AI PC 部署數字人變得更加容易

    高效編排動畫、智能和語音 AI 模型以及優化流程以更快的 PC 響應速度和更高的準確性極具挑戰性。

    在引入充分實現高級用例(例如自主代理)所需的多個輸入和輸出時,這些流程變得更加復雜。選擇合適的模型和框架、編寫編排代碼并針對特定硬件進行優化是一項耗時的任務,會減慢開發速度。

    NVIDIA 宣布推出適用于設備端工作流的新 SDK 插件和示例。此集合包括用于語音轉文本轉錄的 NVIDIA Riva 自動語音識別 、檢索增強生成 (RAG) 演示和參考實現,以及由 Audio2Face-3D 提供支持的 Unreal Engine 5 示例應用。

    這些設備端插件基于 NVIDIA In-Game Inference SDK 構建,現已提供測試版。In-Game Inference SDK 通過自動下載模型和依賴項、抽象出推理庫和硬件的詳細信息,以及啟用混合 AI 來簡化 AI 集成,其中應用程序可以在 PC 上運行的 AI 與云端運行的 AI 之間輕松切換。

    您可以立即在 NVIDIA Developer 處開始使用 SDK 插件和示例

    0

    標簽

    人人超碰97caoporen国产