想象一下 大型語言模型 (LLM) 應用程序,它旨在幫助金融分析師回答有關公司業績的問題。通過精心設計的檢索增強一代 (RAG) 流程,分析師可以回答諸如“X corporation 在 2022 財年的總收入是多少?”這樣的問題,而經驗豐富的分析師可以輕松地從財務報表中提取這些信息。
現在考慮以下問題:“23 財年第二季度財報電話會議的三個要點是什么?關注公司正在構建的技術護城河。”這是財務分析師希望在報告中回答的問題類型,但需要投入時間來回答。
我們如何開發解決方案來回答上述問題?顯而易見,這些信息需要的不僅僅是通過收益調用進行簡單查找。這種查詢需要規劃、量身定制的焦點、內存、使用不同的工具,并將復雜的問題分解為更簡單的子部分.這些概念組合在一起,本質上就是我們所說的 LLM 智能體。
在本文中,我將介紹由 LLM 支持的代理,并討論代理的概念以及它在企業應用中的一些用例。欲了解更多信息,請參閱構建您的首個 LLM 智能體應用。在那篇博文中,我將介紹生態系統演練,探討構建 AI 智能體的可用框架,并為任何使用問答 (Q&A) 智能體的人提供入門指南。
什么是 AI 智能體?
雖然 LLM 驅動的智能體的定義尚未得到廣泛接受,但它們可以被描述為一個系統,可以使用 LLM 來推理問題,創建解決問題的計劃,并借助一組工具執行計劃。
簡而言之,智能體是一個具有復雜推理能力、內存和執行任務手段的系統。
此功能最初在以下項目中得到應用:AutoGPT 或 BabyAGI。在這些案例中,智能體能夠在最少的干預下解決復雜問題。為了進一步闡述,以下是一個由 LLM 支持的智能體應用的通用架構(圖 1)。

智能體由以下關鍵組件組成(有關這些組件的更多詳情,請稍后查看):
- 智能體核心
- 顯存模組
- 工具
- 規劃模塊
智能體核心
智能體核心是中央協調模塊,用于管理智能體的核心邏輯和行為特征。您可以將其視為智能體的“關鍵決策模塊”。這也是我們定義的位置:
- 智能體的一般目標:涵蓋智能體的總體目標和具體目標。
- 執行工具:本質上是一個簡短的列表或“用戶手冊”,包含代理可以訪問的所有工具。
- 解釋如何使用不同的規劃模塊:提供不同規劃模塊的效用以及在何種情況下使用它們的詳細信息。
- 相關顯存:這是一個動態部分,用于在推理時填充與用戶之前對話中最相關的內存項目。“相關性”根據用戶提出的問題來確定。
- 智能體角色(可選):此角色描述通常用于讓模型傾向于使用某些類型的工具,或在智能體的最終響應中注入特定的典型特征。

顯存模組
內存模組在 AI 代理中發揮著至關重要的作用。內存模組本質上可以被視為代理內部日志以及與用戶交互的存儲。
內存模組有兩種類型:
- 短期記憶:智能體在嘗試回答用戶提出的問題(即智能體的“思路”)時,所經歷的動作和想法的分類賬。
- 長期內存:記錄用戶與客服之間發生事件的行動和想法的分類賬。這是一個日志,包含了跨越數周或數月的對話歷史記錄。
內存需要的不僅僅是基于語義相似性的檢索。通常,綜合評分由語義相似性、重要性、遞歸性和其他特定于應用程序的指標組成。它用于檢索特定信息。
工具
工具是定義明確的可執行工作流,代理可以用來執行任務。它們通常可以被視為專用的第三方 API.
例如,坐席可以使用 RAG 工作流生成上下文感知答案,使用代碼解釋器解決復雜的編程任務,使用 API 在互聯網上搜索信息,甚至可以使用任何簡單的 API 服務,例如天氣 API 或用于即時消息應用程序的 API.
規劃模塊
分析一系列財務報告以回答分層業務問題等復雜問題通常需要細致入微的方法。對于由 LLM 提供支持的智能體,可以通過結合使用兩種技術來處理這種復雜性:
- 任務和問題分解
- 反射或評論家
任務和問題分解
復合問題或推理信息需要進行某種形式的分解。例如,“ NVIDIA 上次財報電話會議的三個要點是什么?”
回答此問題所需的信息不能直接從長達一小時的會議記錄中提取。但是,可以將問題分解為多個問題主題:
- “討論最多的是哪些技術變革?”
- “有業務阻力嗎?”
- “財務結果如何?”
每個問題都可以進一步細分為子部分。也就是說,專業的 AI 智能體必須指導這種分解。
反射或評論家
ReAct、Reflexion、Chain of Thought 和 Graph of think 等技術已成為批評或基于證據的提示框架。這些技術已被廣泛用于提高 LLM 的推理能力和響應能力。這些技術還可用于細化智能體生成的執行計劃。
企業應用代理
雖然智能體的應用實際上是無限的,但以下是一些有趣的案例,可能會對許多企業產生巨大的影響:
- “與您的數據對話”智能體
- 智能體群體
- 推薦和體驗設計代理
- 定制的 AI 作者代理
- 多模式代理
“與您的數據對話”智能體
“與您的數據交流”不是一個簡單的問題。存在許多簡單的 RAG 管道無法解決的挑戰:
- 源文檔的語義相似性
- 復雜的數據結構,如表格
- 缺乏明顯的上下文(并非每個數據塊都包含其來源的標記)
- 用戶提出的問題的復雜性
- … 以及更多
例如,回顧之前提到的收入電話會議記錄(2023 年第 3 季度 | 2024 年第 1 季度)。如果問到“數據中心收入從 2023 年第 3 季度到 2024 年第 1 季度增加了多少?”要回答這個問題,您基本上需要解答三個子問題(即,我們需要一個規劃模塊):
- 2023 年第 3 季度的數據中心收入是多少?
- 2024 年第一季度的數據中心收入是多少?
- 兩者之間有何區別?
在這種情況下,您需要一個智能體,它可以訪問執行問題分解的規劃模塊(生成子問題并搜索答案,直到更大的問題得到解決)、檢索特定信息的 RAG 管道(用作工具),以及準確處理子問題的內存模塊。在由 LLM 提供支持的智能體:構建您的首個智能體應用中,我將詳細介紹這種類型的案例。
智能體群體
可以將智能體群理解為一組智能體協同工作,以便在單個環境中共存,這些智能體可以相互協作以解決問題。智能體的去中心化生態系統非常類似于協同使用多個“智能”微服務來解決問題。
多智能體環境,例如 生成式智能體 和 ChatDev,一直深受社區的歡迎(圖 3)。這是為什么呢?通過使用 ChatDev 等框架,您可以以低成本組建一個包括工程師、設計師、產品經理、首席執行官和代理在內的團隊,來構建基礎軟件。例如,制作像 Brick Breaker 或 Flappy Bird 這樣熱門游戲的原型,成本可能低至 50 美分!
借助大量智能體,您可以在數字公司、社區甚至整個城鎮中部署應用,例如用于經濟研究的行為模擬、企業營銷活動、物理基礎設施的 UX 元素等。

如果沒有 LLM,這些應用程序目前無法進行模擬,并且在現實世界中運行成本極高。
用于推薦和體驗設計的智能體
互聯網可以處理推薦系統。基于對話的 推薦系統 可用于打造個性化體驗。
例如,可以考慮在電子商務網站上使用 AI 智能體,該智能體可幫助您比較產品,并根據您的一般要求和選擇提供推薦。此外,還可以構建類似于禮賓服務的完整體驗,由多個智能體協助最終用戶瀏覽數字商店。選擇要看的電影或要預訂的酒店房間等體驗可以制作成對話,而不僅僅是一系列決策樹式對話!
定制的 AI 作者代理
另一個強大的工具是擁有個人 AI 作者,可以幫助您完成諸如聯合創作電子郵件或準備參加時間敏感的會議和演示等任務。使用常規創作工具的問題是,必須根據不同的受眾定制不同類型的材料。例如,投資者推銷的措辭必須與團隊演示不同。
智能體可以利用您之前的工作。然后,您讓智能體根據您的個人風格塑造智能體生成的推銷,并根據您的特定用例和需求自定義工作。對于一般的 LLM 微調而言,此過程通常過于細致入微。
多模式代理
僅將文本作為輸入,您就無法真正“與您的數據通信”。所有提到的用例都可以通過構建可以消化圖像和音頻文件等各種輸入的多模態代理來增強。

這只是解決企業挑戰所需遵循的方向的幾個示例。數據管護、社交圖形和領域專業知識的代理都是開發社區為企業應用所追求的活躍領域。
下一步?
由 LLM 提供支持的坐席與典型的聊天機器人應用程序不同,因為它們具有復雜的推理技能。由坐席核心、內存模塊、工具集和規劃模塊組成,坐席可以在各種企業環境(從數據管護到高級電子商務推薦系統)中生成高度個性化的答案和內容。
要了解智能體技術生態系統的概述(例如實現框架、必讀論文、文章和相關主題),請參閱 構建您的首個智能體應用。問答智能體無框架實現的演練有助于您更好地理解與數據的交流。
?