Emily Apsey – NVIDIA 技術博客

LLM 推理基準測試指南：NVIDIA GenAI-Perf 和 NIM

Tue, 06 May 2025 06:45:58 +0000

這是 LLM 基準測試系列的第二篇文章，介紹了在使用 NVIDIA NIM 部署 Meta Llama 3 模型時，如何使用 GenAI-Perf 對其進行基準測試。在構建基于 LLM 的應用時，了解這些模型在給定硬件上的性能特征至關重要。這有多種用途：作為以客戶端 LLM 為中心的基準測試工具， NVIDIA GenAI-Perf 提供了以下關鍵指標： GenAI-Perf 還支持任何符合 OpenAI API 規范（業內廣泛接受的默認標準）的 LLM 推理服務。在本基準測試指南中，我們使用了 NVIDIA NIM ，這是一系列推理微服務，可為基礎 LLM 和微調 LLM 提供高吞吐量和低延遲推理。NIM 具有易用性、企業級安全性和可管理性。為優化您的 AI 應用，本文將介紹如何為 Llama 3 設置 NIM 推理微服務，

Source

]]>

LLM 基準測試：基本概念

Wed, 02 Apr 2025 08:02:10 +0000

在過去幾年中，作為廣泛的 AI 革命的一部分，生成式 AI 和大語言模型 (LLMs) 越來越受歡迎。隨著基于 LLMs 的應用在各個企業中的推廣，我們需要確定不同 AI 服務解決方案的成本效益。部署 LLM 應用的成本取決于它每秒可以處理的查詢數量，同時響應最終用戶并支持可接受的響應準確度。本文特別關注 LLMs 吞吐量和延遲測量，以評估 LLM 應用成本。 NVIDIA 為開發者提供涵蓋芯片、系統和軟件的全棧創新。NVIDIA 推理軟件堆棧包括 NVIDIA Dynamo 、 NVIDIA TensorRT-LLM 和 NVIDIA NIM 微服務。為支持開發者實現基準測試推理性能，NVIDIA 還提供了開源生成式 AI 基準測試工具 GenAI-Perf 。詳細了解如何使用 GenAI-Perf 進行基準測試。可以使用各種工具來評估 LLMs 的性能。

Source

]]>

縮短聯絡中心智能虛擬助理的開發時間

Thu, 15 Dec 2022 07:12:00 +0000

隨著全球服務經濟的發展，公司越來越依賴于聯系中心來改善客戶體驗，提高客戶滿意度，降低成本并提高效率。客戶需求的增長速度遠遠超過了聯絡中心的就業率。與高代理流失率相結合，客戶需求產生了對更自動化的實時客戶通信的需求，從而增強了代理的能力。研究人員早在 20 世紀 70 年代就認識到了這些趨勢，并開始開發可通過觸音電話導航的原始語音菜單。雖然語音菜單可能會回答常見問題，并減輕聯絡中心代理的壓力，但客戶通常會發現與他們互動令人沮喪。由于以下任何原因，您可能是想要直接與代理通話的來電者之一，而不是收聽多層預先錄制的語音提示：為了有效解決這些問題，公司已開始將智能虛擬助理（也稱為 AI 虛擬助理）集成到其聯絡中心解決方案中。在本篇文章中，我們概述了如何使用 NVIDIA 聯絡中心智能虛擬助理工作流和組件（如 NVIDIA Riva 語音技術和 speech AI…

Source

]]>