借助新的小語言模型，在 NVIDIA RTX AI PC 上部署智能體、助理和虛擬形象

NVIDIA 剛剛發布了一系列小語言模型 (SLMs)，可增加數字人用于增強響應能力的信息量和類型。其中包括可提供更多相關答案的新型大上下文模型，以及可將圖像用作輸入的新型多模態模型。這些模型現已作為 NVIDIA ACE 的一部分提供，NVIDIA ACE 是一套數字人技術，可為代理、助手和虛擬形象帶來生命。

NVIDIA ACE 推出首款多模態 SLM?

為了提升數字人的響應速度，他們必須能夠像人類一樣提取更多的世界背景。NVIDIA Nemovision-4B-Instruct 模型是一種小型多模態模型，使數字人能夠理解現實世界和 Windows 桌面上的視覺圖像，從而輸出相關響應。

此模型使用最新的 NVIDIA VILA 和 NVIDIA NeMo 框架和配方進行蒸餾、剪枝和量化，使其足夠小，可以在廣泛的 NVIDIA RTX GPU 上表現出色，同時保持開發者所需的準確性。多模式是智能體工作流的基礎，使數字人能夠在幾乎無需用戶協助的情況下推理和采取行動。

解決更大的問題需要大上下文語言模型

新的大環境 SLM 系列旨在處理大量數據輸入。這使模型能夠理解難度更大的提示。Mistral-NeMo-Minitron-128k-Instruct 系列模型具有 8B、4B 和 2B 參數版本，適合希望在 NVIDIA RTX AI PC 上實現速度、內存使用和準確性優化的用戶。這些大環境模型可以在一次通道中處理大型數據集，從而減少分割和重新組合的需求，并提供更高的準確性。

?	?	Mistral NeMo-Minitron-8B-128k-Instruct	Mistral NeMo-12B-Instruct	Llama-3.1-8B-Instruct	Qwen-2.5-7B-Instruct	Phi-3-Small-12-8k-Instruct	Gemma-2 -9B-Instruct
特征	上下文窗口	128K	128K	128K	128K	8K	8K
基準測試*	說明如下 IFEval	83.7	64.7	79.7	76.9	65.8	75.2
	推理 MUSR	12.08	8.48	8.41	8.45	16.77	9.74
	函數調用 BFCL v2 Live	69.5%	47.9	44.3%	62.1	39.9	65.7
	多回合對話 MTBench (GPT4-Turbo)	7.84	8.10	7.78	8.41	7.63	8.05
	常識 GPQA (主) 0 次射擊	33.3%	28.6%	30.4	29.9%	30.8	35.5%
	常識 MMLU 專業版	33.36	27.97	30.68	36.52%	38.96	31.95 英鎊
	數學 GSM8k 零射	87.6	79.8	83.9%	55.5%	81.7	80.1
	編碼 MBPP 0 分	74.1	66.7	72.8	73.5%	68.7	44.4%
速度*	延遲 (TTFT)	190 毫秒	919 毫秒	170 毫秒	557 毫秒	DNR**	237 毫秒
速度*	吞吐量 (Tok/s)	108.4	51.4%	120.7	80.8	DNR**	84.4%

表 1、Mistral NeMo-Minitron-8B-128k-Instruct 模型的準確性

表格將 Mistral NeMo-Minitron-8B-128k-Instruct 模型與尺寸范圍相似的其他模型以及 Mistral NeMo 12B 教師模型進行了比較。數字越高，準確性越高。粗體數字表示最佳數字，下劃線表示在 8B 模型類別中排名第二的最佳數字。 注意：使用 NVIDIA RTX 4090、Q4_0 量化的 llama.cpp 執行的模型。輸入序列長度 = 2000 個令牌，輸出序列長度 = 100 個令牌。*以 FP16 精度完成基準測試。速度在 INT4 量化中實現。**不以 GPT 生成的統一格式 (GGUF) 運行

搶先體驗版提供 NVIDIA Nemovision-4B Instruct 和更大的上下文模型。

Audio2Face-3D NIM 微服務的新更新?

在構建這些更智能的數字人時，您需要逼真的面部動畫，以確保真實的交互感覺可信。

NVIDIA Audio2Face 3D NIM 微服務使用實時音頻來提供唇部同步和面部動畫。現在，Audio2Face-3D NIM 微服務，一種易于使用的推理微服務，用于加速部署，可作為一個可下載的優化容器提供。此 NVIDIA NIM 微服務提供了新的配置，以提高可定制性。它還包括用于“James”數字人供公眾使用的推理模型。

為 NVIDIA RTX AI PC 部署數字人變得更加容易

高效編排動畫、智能和語音 AI 模型以及優化流程以更快的 PC 響應速度和更高的準確性極具挑戰性。

在引入充分實現高級用例（例如自主代理）所需的多個輸入和輸出時，這些流程變得更加復雜。選擇合適的模型和框架、編寫編排代碼并針對特定硬件進行優化是一項耗時的任務，會減慢開發速度。

NVIDIA 宣布推出適用于設備端工作流的新 SDK 插件和示例。此集合包括用于語音轉文本轉錄的 NVIDIA Riva 自動語音識別、檢索增強生成 (RAG) 演示和參考實現，以及由 Audio2Face-3D 提供支持的 Unreal Engine 5 示例應用。

這些設備端插件基于 NVIDIA In-Game Inference SDK 構建，現已提供測試版。In-Game Inference SDK 通過自動下載模型和依賴項、抽象出推理庫和硬件的詳細信息，以及啟用混合 AI 來簡化 AI 集成，其中應用程序可以在 PC 上運行的 AI 與云端運行的 AI 之間輕松切換。

您可以立即在 NVIDIA Developer 處開始使用 SDK 插件和示例。

借助新的小語言模型，在 NVIDIA RTX AI PC 上部署智能體、助理和虛擬形象

NVIDIA ACE 推出首款多模態 SLM?

解決更大的問題需要大上下文語言模型

Audio2Face-3D NIM 微服務的新更新?

為 NVIDIA RTX AI PC 部署數字人變得更加容易

相關資源

標簽

關于作者

借助新的小語言模型，在 NVIDIA RTX AI PC 上部署智能體、助理和虛擬形象

NVIDIA ACE 推出首款多模態 SLM?

解決更大的問題需要大上下文語言模型

Audio2Face-3D NIM 微服務的新更新?

為 NVIDIA RTX AI PC 部署數字人變得更加容易

相關資源

標簽

關于作者

相關文章

借助全新的游戲內推理 SDK，將 NVIDIA ACE AI 角色引入游戲

單個 GPU 上的 Mistral NeMo 12B 加速文本生成應用程序

相關文章

使用先進的開放式后訓練數據集構建自定義推理模型

在 NVIDIA NeMo 框架的首發日支持下即時運行 Hugging Face 模型

在 Azure AI Foundry 上使用 NVIDIA NIM 加速 AI 推理

應用具有推理能力的專用大語言模型（LLM）加速電池研究

擴展 NVIDIA Agent Intelligence Toolkit 以支持新的代理式框架