NVIDIA 剛剛發布了一系列小語言模型 (SLMs),可增加數字人用于增強響應能力的信息量和類型。其中包括可提供更多相關答案的新型大上下文模型,以及可將圖像用作輸入的新型多模態模型。這些模型現已作為 NVIDIA ACE 的一部分提供,NVIDIA ACE 是一套數字人技術,可為代理、助手和虛擬形象帶來生命。
NVIDIA ACE 推出首款多模態 SLM?
為了提升數字人的響應速度,他們必須能夠像人類一樣提取更多的世界背景。NVIDIA Nemovision-4B-Instruct 模型是一種小型多模態模型,使數字人能夠理解現實世界和 Windows 桌面上的視覺圖像,從而輸出相關響應。
此模型使用最新的 NVIDIA VILA 和 NVIDIA NeMo 框架和配方進行蒸餾、剪枝和量化,使其足夠小,可以在廣泛的 NVIDIA RTX GPU 上表現出色,同時保持開發者所需的準確性。多模式是智能體工作流的基礎,使數字人能夠在幾乎無需用戶協助的情況下推理和采取行動。
解決更大的問題需要大上下文語言模型
新的大環境 SLM 系列旨在處理大量數據輸入。這使模型能夠理解難度更大的提示。Mistral-NeMo-Minitron-128k-Instruct 系列模型具有 8B、4B 和 2B 參數版本,適合希望在 NVIDIA RTX AI PC 上實現速度、內存使用和準確性優化的用戶。這些大環境模型可以在一次通道中處理大型數據集,從而減少分割和重新組合的需求,并提供更高的準確性。
? | ? | Mistral NeMo-Minitron-8B-128k-Instruct | Mistral NeMo-12B-Instruct | Llama-3.1-8B-Instruct | Qwen-2.5-7B-Instruct | Phi-3-Small-12-8k-Instruct | Gemma-2 -9B-Instruct |
特征 | 上下文窗口 | 128K | 128K | 128K | 128K | 8K | 8K |
基準測試* | 說明如下 IFEval |
83.7 | 64.7 | 79.7 | 76.9 | 65.8 | 75.2 |
推理 MUSR |
12.08 | 8.48 | 8.41 | 8.45 | 16.77 | 9.74 | |
函數調用 BFCL v2 Live |
69.5% | 47.9 | 44.3% | 62.1 | 39.9 | 65.7 | |
多回合對話 MTBench (GPT4-Turbo) |
7.84 | 8.10 | 7.78 | 8.41 | 7.63 | 8.05 | |
常識 GPQA (主) 0 次射擊 |
33.3% | 28.6% | 30.4 | 29.9% | 30.8 | 35.5% | |
常識 MMLU 專業版 |
33.36 | 27.97 | 30.68 | 36.52% | 38.96 | 31.95 英鎊 | |
數學 GSM8k 零射 |
87.6 | 79.8 | 83.9% | 55.5% | 81.7 | 80.1 | |
編碼 MBPP 0 分 |
74.1 | 66.7 | 72.8 | 73.5% | 68.7 | 44.4% | |
速度* | 延遲 (TTFT) | 190 毫秒 | 919 毫秒 | 170 毫秒 | 557 毫秒 | DNR** | 237 毫秒 |
吞吐量 (Tok/s) | 108.4 | 51.4% | 120.7 | 80.8 | DNR** | 84.4% |
表格將 Mistral NeMo-Minitron-8B-128k-Instruct 模型與尺寸范圍相似的其他模型以及 Mistral NeMo 12B 教師模型進行了比較。數字越高,準確性越高。粗體數字表示最佳數字,下劃線表示在 8B 模型類別中排名第二的最佳數字。 注意:使用 NVIDIA RTX 4090、Q4_0 量化的 llama.cpp 執行的模型。輸入序列長度 = 2000 個令牌,輸出序列長度 = 100 個令牌。*以 FP16 精度完成基準測試。速度在 INT4 量化中實現。**不以 GPT 生成的統一格式 (GGUF) 運行
搶先體驗版提供 NVIDIA Nemovision-4B Instruct 和更大的上下文模型。
Audio2Face-3D NIM 微服務的新更新?
在構建這些更智能的數字人時,您需要逼真的面部動畫,以確保真實的交互感覺可信。
NVIDIA Audio2Face 3D NIM 微服務 使用實時音頻來提供唇部同步和面部動畫。現在,Audio2Face-3D NIM 微服務,一種易于使用的推理微服務,用于加速部署,可作為一個可下載的優化容器提供。此 NVIDIA NIM 微服務提供了新的配置,以提高可定制性。它還包括用于“James”數字人供公眾使用的推理模型。
為 NVIDIA RTX AI PC 部署數字人變得更加容易
高效編排動畫、智能和語音 AI 模型以及優化流程以更快的 PC 響應速度和更高的準確性極具挑戰性。
在引入充分實現高級用例(例如自主代理)所需的多個輸入和輸出時,這些流程變得更加復雜。選擇合適的模型和框架、編寫編排代碼并針對特定硬件進行優化是一項耗時的任務,會減慢開發速度。
NVIDIA 宣布推出適用于設備端工作流的新 SDK 插件和示例。此集合包括用于語音轉文本轉錄的 NVIDIA Riva 自動語音識別 、檢索增強生成 (RAG) 演示和參考實現,以及由 Audio2Face-3D 提供支持的 Unreal Engine 5 示例應用。
這些設備端插件基于 NVIDIA In-Game Inference SDK 構建,現已提供測試版。In-Game Inference SDK 通過自動下載模型和依賴項、抽象出推理庫和硬件的詳細信息,以及啟用混合 AI 來簡化 AI 集成,其中應用程序可以在 PC 上運行的 AI 與云端運行的 AI 之間輕松切換。
您可以立即在 NVIDIA Developer 處開始使用 SDK 插件和示例 。