構建 AI 銷售助理的經驗教訓

在 NVIDIA，銷售運營團隊為銷售團隊提供將先進的硬件和軟件推向市場所需的工具和資源。通過 NVIDIA 的各種技術來管理這一點是許多企業都面臨的復雜挑戰。

通過與我們的銷售團隊合作，我們發現他們依賴于內部和外部文檔，通常會瀏覽多個存儲庫來查找信息。現在想象一下，一款 AI 銷售工具可以幫您完成所有這些工作。

本文將探討 NVIDIA 如何使用大語言模型 (LLMs) 和檢索增強生成 (RAG) 技術構建 AI 銷售助理，以簡化銷售工作流，并解決挑戰、核心解決方案組件和關鍵經驗教訓。有關更多信息，請參閱 Explore Retrieval Models 。

主要知識?

了解如何打造出色的 AI 銷售助理。

從用戶友好型聊天界面開始

從直觀的多回合聊天平臺開始，該平臺由 Llama 3.1 70B 等功能強大的 LLM 提供支持。通過 Perplexity API 實現 RAG 和 Web 搜索等層增強，可在不影響可訪問性的情況下實現高級功能。

優化文檔提取?

實施廣泛的預處理，將基于規則的確定性字符串處理與基于 LLM 的邏輯相結合，以進行翻譯和編輯。這種方法可更大限度地提高檢索到的文檔的價值，從而顯著提高性能。

實施廣泛的 RAG 以實現全面覆蓋

使用從內部文檔和媒體數據庫檢索的文檔以及公司網站上提供的公開內容，以適應各種工作流，并確保全面的信息交付。

平衡延遲和質量?

通過使用在長期運行的任務期間顯示早期搜索結果以及提供有關答案生成進度的可視化反饋等策略來優化響應速度和相關性。

優先考慮數據的新鮮度和多樣性

通過從內部銷售文檔和媒體數據庫中提取項目來執行每日更新，并實現與結構化數據的實時連接。

利用 NVIDIA Multimodal PDF Ingestion 高效解析和 Riva 自動語音識別轉錄，為 PDF、幻燈片、錄音和視頻文件等不同的數據格式做好準備，從而解決集成挑戰。

開發一個 AI 銷售助理

NVIDIA 的產品組合多種多樣，涵蓋 LLM 、物理模擬、 3D 渲染和數據科學，這些都要求銷售團隊在快節奏的 AI 市場中及時了解最新信息。

為應對這一挑戰，我們開發了一個集成到工作流程中的 AI 銷售助理，可讓您即時訪問專有數據和外部數據。它由先進的 LLM ( 如 Llama 3.1 70B ) 提供支持，并支持 RAG ，可提供包含內部見解和外部數據的統一聊天界面。

銷售團隊使用該助手快速回答以下問題：“ NVIDIA RTX 在數據科學方面有哪些主要優勢？”或“總結近期的 CRM 更新”。它還能針對客戶特定的問題生成量身定制的回復，例如：“NVIDIA 如何優化醫療健康領域的 AI 訓練流程？”

助手還支持文檔摘要、編輯和校對。早期用戶很快就采用了它的對話式界面，與傳統的檢索系統相比，他們很欣賞它如何改善勘探、報告和客戶互動。

主要優勢?

統一的信息訪問 ：通過 Perplexity API 和網絡搜索將內部 NVIDIA 數據與更廣泛的見解相結合。
企業級聊天 ：使用 Llama-3.1-405B-instruct 等模型處理拼寫檢查、摘要、編碼和分析等各種查詢。
簡化的 CRM 集成： 使用 Text2SQL 方法直接在客戶關系管理 (CRM) 系統中匯總銷售數據，從而自動生成 SQL 查詢并增強報告功能。

架構和工作流程?

AI 銷售助理專為實現可擴展性、靈活性和響應速度而設計，具有以下核心架構組件：

LLM 輔助文檔提取工作流
Wide RAG 集成
事件驅動型聊天架構
早期進展指標

LLM 輔助文檔提取工作流

文檔提取過程 (圖 1) 解決了其他語言的文檔翻譯、PDF 解析和格式不一致等挑戰。

為確保一致性，所有文本均使用 LLM 處理，并將其轉換為標準化的 Markdown 格式以供提取。相關步驟包括使用 NVIDIA Multimodal PDF Ingestion Blueprint 解析 PDF 、使用 NVIDIA Parakeet NIM 轉錄音頻文件、使用 Llama 3.1 70B 進行編輯和翻譯，以及將結果存儲到 Milvus 數據庫中。

NVIDIA 特定產品名稱 (例如 NVIDIA RTX 或 NVIDIA NeMo Curator) 也會自動添加從查找表中獲得的簡短說明，從而提高文檔的清晰度，并使其更易于用于下游流程。

A diagram shows the workflow for parsing and converting files and documents into edited Markdown text. PDF files with images are ingested using the NVIDIA Multimodal PDF Ingestion Blueprint while audio files are transcribed using NVIDIA Parakeet NIM for automatic speech recognition. The text undergoes a rule-based cleaning step, followed by final edits and translations performed by Llama 3.1 70B. The refined text is then passed through an embedding model and stored into a Milvus database for further use. — *圖 1. 文檔提取管道*

Wide RAG 集成

AI 銷售助理通過結合來自 Milvus 上的向量檢索、受限于 NVIDIA 網站的網絡搜索和 Perplexity API (圖 2) 的搜索結果來回答用戶查詢。這些回復通常包含十幾次或更多次內聯引用，當引用包含冗長的 URL 或詳細的作者信息時，這會給 LLM 帶來挑戰。

為確保準確性，我們在文本生成過程中使用 prompts，將引用替換為簡潔的字母數字鍵。在后續的 postprocessing 步驟中，這些密鑰將替換為完整的引用詳細信息，從而顯著提高內聯引用的可靠性和準確性。

A diagram shows the process of generating an LLM-based response to a user query with event-driven chat architecture. Steps include query routing and rewriting, retrieval from multiple sources: the Perplexity API, vector indexing through a Milvus database, and searching the NVIDIA website. The final answer is streamed from the Llama 3.1 70B LLM. — *圖 2、基于 LLM 的響應生成，具有廣泛的 RAG 集成和事件驅動的聊天架構*

事件驅動型聊天架構

借助 LlamaIndex 工作流 (圖 2)，AI 銷售助理可通過事件驅動的流程高效管理響應生成。事件捕獲每個步驟所需的局部狀態，確保順利進行。

每個工作流程步驟都由 Chainlit 上下文管理器提供支持，該管理器通過直接在 UI 中提供視覺進度指示器來增強用戶體驗，從而簡化錯誤識別和調試。

對于需要復雜推理的任務，我們使用帶有思維鏈推理的結構化生成技術顯著提高為 CRM 數據生成的查詢的質量。

圖 3. 顯示 AI 銷售助理的邏輯流程，從用于查詢路由和標記的事件開始，然后再拆分成不同的路徑，這些路徑可以使用基于文檔的 RAG 或用于 CRM 數據的 Text2SQL 方法來回答用戶問題。該架構圖重點介紹了該解決方案如何高效處理各種數據輸入，包括 CRM 數據、通話記錄和專有文檔。

A diagram of the workflow highlights CRM SQL generation, Milvus retrieval, and event-driven multi-step logic. — *圖 3、用于完整 AI 銷售助理答案生成流程的 LlamaIndex 工作流步驟*

該工作流根據用戶查詢的路由方式提供了多種路徑，因此如果不適當追蹤所使用的數據和系統執行的步驟，則難以理解答案是如何生成的。

以下示例代碼展示了如何將 LlamaIndex 工作流步驟與 Chainlit 集成，以實現視覺進度跟蹤和結構化生成。

from llama_index.llms.nvidia import NVIDIA
from chainlit import Step
from pydantic import BaseModel, Field 
from llama_index.core.workflow import Event, Workflow, step
 
class SelectedTables(BaseModel):
   """Pydantic model for selecting the type of tables used for answering SQL queries"""
   reasoning_steps: list[str] = Field(
           description="Explanation of why these tables were selected"
       )
   tables: list[str] = Field(
       description="List of table names that are relevant for answering the query"
   )
   
class TableSelectEvent(Event):
   """LlamaIndex Workflow event representing the table selection"""
   tables: list[str]
   
class AssistantFlow(Workflow):
   
   llm = llm = NVIDIA("meta/llama-3.1-70b-instruct")
   
   ...
   
   @step
   def select_tables(self, query_event):
       with Step(name="Table Selector") as step:
           selected = self.llm.structured_predict(
                   SelectedTables,
                   table_selection_prompt,
                   query=query_event.query
               )          
           # Makes the output visibile in Chainlit UI
           step.output = {
               "selected_tables": selected.tables,
               "reasoning_steps": selected.reasoning_steps,
           }
       # You don't need the reasoning steps later; you just need
       # the list of tables that can be used
       return TableSelectEvent(selected.tables)
  # Results are used in later steps to query sales data from SQL

有關更多信息，請參閱“ 創建基于 RAG 的問答 LLM 工作流 ”，這是關于使用 Chainlit 和 LlamaIndex 使用多個數據源實現 RAG 的技術深度介紹。博文還隨附了 Github 代碼，用于演示關鍵功能。

早期進展指標

引文卡 (圖 4) 可在冗長的第三方 API 調用期間提供實時反饋，在生成響應時讓您隨時了解最新情況并與之互動，從而增強用戶體驗。

Three panels show summaries of webpages from the NVIDIA website. Each panel includes the subdomain and a text preview of the webpage’s content. — *圖 4、與回答用戶的查詢相關的來源引文卡*

圖 5 直觀地展示了整個 AI 銷售助理系統，展示了將其核心架構組件集成到一個連貫一致的框架中。它顯示了用于文檔提取、銷售文檔檢索增強生成的主要資源分組，以及使用 CRM Text2SQL 回答有關結構化數據的問題。

A diagram shows the integration of core components, including data sources, retrieval pipelines, and LLM-powered processing nodes. It highlights workflows for data extraction, query handling, and response generation, showcasing how diverse inputs such as CRM data and proprietary documentation are processed to deliver customized outputs. — *圖 5、AI 銷售助理架構*

陷阱與取舍：在創新與可用性之間求得平衡

開發 AI 銷售助理提出了一些挑戰，需要進行周全的權衡，以平衡創新和用戶體驗：

延遲和相關性
數據近期
集成復雜性
分布式工作負載

延遲和相關性

提供快速響應對于用戶體驗至關重要，但生成準確、相關的答案可能非常耗時。

為了解決這個問題，我們實施了嚴格的時間限制：網頁檢索和解析最多 8 秒，Perplexity API 的結果最多 15 秒。

我們還引入了 UI 元素，可在生成答案時提供 RAG 來源的實時摘要，從而讓用戶隨時了解最新信息并與之互動。

數據近期

維護最新的知識庫需要大量資源。我們目前采用為期一年的回顧期，并正在探索更好地識別和剪枝過時內容的策略。

集成復雜性

集成各種數據源和格式 (包括 PDF、演示文稿、音頻和視頻) 需要自定義提取和處理工作流。那些努力對于確保全面準確的信息報道至關重要。

分布式工作負載

長期運行的任務 (例如 SQL 查詢) 通過帶有消息隊列的部分分布式方法進行處理。這可確保在不影響性能的情況下進行實時交互。

總結?

為 NVIDIA 銷售團隊打造 AI 銷售助理是一項有意義的技術挑戰，可為設計可擴展的 AI 驅動型解決方案提供寶貴見解。借助基于 RAG 的架構，我們集成了各種知識來源，優化了查詢處理，并確保了高性能和準確性，從而滿足動態數據密集型環境的需求。

通過將先進的 LLMs、結構化工作流程和實時數據檢索相結合，AI 銷售助理可為銷售團隊提供即時的定制見解，同時顯著提高工作流程效率和用戶參與度。該項目為開發者在快節奏領域處理復雜的決策支持系統提供了藍圖。

未來的改進將側重于完善實時數據更新策略、擴展與新系統和格式的集成、增強數據安全性，以及增強多媒體內容的處理能力。我們還在探索高級個性化功能，以便根據個人用戶需求定制解決方案。

是否受到我們旅程的啟發？NVIDIA 提供一套強大的生成式 AI 工具和資源，幫助您設計和實施自己的 AI 解決方案。加入我們的開發者社區，與志同道合的創新者交流、分享和學習。

構建 AI 銷售助理的經驗教訓

主要知識?

從用戶友好型聊天界面開始

優化文檔提取?

實施廣泛的 RAG 以實現全面覆蓋

平衡延遲和質量?

優先考慮數據的新鮮度和多樣性

開發一個 AI 銷售助理

主要優勢?

架構和工作流程?

LLM 輔助文檔提取工作流

Wide RAG 集成

事件驅動型聊天架構

早期進展指標

陷阱與取舍：在創新與可用性之間求得平衡

延遲和相關性

數據近期

集成復雜性

分布式工作負載

總結?

相關資源

標簽

關于作者

構建 AI 銷售助理的經驗教訓

主要知識?

從用戶友好型聊天界面開始

優化文檔提取?

實施廣泛的 RAG 以實現全面覆蓋

平衡延遲和質量?

優先考慮數據的新鮮度和多樣性

開發一個 AI 銷售助理

主要優勢?

架構和工作流程?

LLM 輔助文檔提取工作流

Wide RAG 集成

事件驅動型聊天架構

早期進展指標

陷阱與取舍：在創新與可用性之間求得平衡

延遲和相關性

數據近期

集成復雜性

分布式工作負載

總結?

相關資源

標簽

關于作者

相關文章

Llama 3.2 加速部署從邊緣到云端實現提速

使用 Llama 3.1 和 NVIDIA NeMo Retriever NIM 構建基于代理的 RAG 流程模型

相關文章

在 NVIDIA NeMo 框架的首發日支持下即時運行 Hugging Face 模型

在 Azure AI Foundry 上使用 NVIDIA NIM 加速 AI 推理

應用具有推理能力的專用大語言模型（LLM）加速電池研究

擴展 NVIDIA Agent Intelligence Toolkit 以支持新的代理式框架

借助 3DGUT 在 gsplat 中革新神經重建和渲染