LLM 推理、AI 智能體和測試時間縮放的簡單介紹

智能體一直是應用大語言模型 (LLMs) 解決復雜問題的主要驅動力。自 2023 年 AutoGPT 以來，各行各業已經開發出各種技術來構建可靠的智能體。在設計這些應用時，有關代理式推理和 AI 推理模型的討論進一步增加了一層細微差別。這種快速發展還使得開發者難以參與構建這些智能體，需要從眾多設計和技術選擇中進行選擇。

為幫助簡化這些決策，本文涵蓋以下廣泛主題：

什么是 LLM Agent？需要考慮哪些不同的結構模式？
LLM 推理和測試時間縮放的工作原理是什么？
應該考慮哪些不同類型的推理？

什么是 LLM 智能體?

LLM 智能體是通過使用 LLM 來推理問題、制定計劃以及使用工具或 API 來完成任務來解決復雜問題的系統。這使得它非常適合智能聊天機器人、自動代碼生成和工作流程自動化等生成式 AI 用例。LLM 智能體只是更廣泛的 AI 智能體領域的一部分：“代理式 AI”一詞還涵蓋由計算機視覺模型、語音模型和強化學習提供支持的智能體，它們在客戶服務聊天機器人、復雜的企業流程編排和自動駕駛汽車等各種領域中開展工作。

根據執行的性質，LLM 代理的應用空間大致可以分為聊天機器人和工作流。如果您不熟悉代理，本文將通過構建您的第一個代理來幫助您了解概念部分！

工作流

傳統上，機器人流程自動化 (RPA) 流程一直用于實現機械任務的自動化，例如數據輸入、提交索賠和客戶關系管理 (CRM) 。這些通常旨在解決在后臺運行的離線批處理作業，以解決機器人任務。

傳統上，這些工作流是圍繞嚴格的規則和啟發式流程設計的。這限制了 RPA 流程的應用空間，并經常導致橫向擴展問題。

通過使用 LLM，這些智能體工作流可以通過注入做出復雜決策的能力并執行適當的工具來解決問題，從而變得更加靈活。

LLM 智能體可以幫助變革 RPA 流程的一個主要用例是處理保險和醫療健康行業的索賠。雖然傳統的 RPA 流程可能對數據結構過于嚴格，但 LLM 智能體可以處理來自不同文件格式（例如客戶上傳）的索賠中的非結構化數據，而無需顯式編程。

智能體還可以根據索賠調整動態工作流程，幫助識別潛在的欺詐行為，根據不斷變化的法規調整決策過程，或者幫助分析復雜的索賠場景，從而根據政策和歷史數據建議適當的行動。

在工作流中，智能體在預定義的pipeline中運行，該pipeline是通過將復雜任務分解為主要由業務邏輯決定的特定約束路徑而創建的。在這些情況下，LLMs用于解決每個子任務中的歧義，但較大的任務流是預先確定的。

A workflow diagram shows a workflow style application of agents where a complex task is broken down into simpler subtasks by the software architect, and the LLMs help resolve complexity in the minutia of individual step. — *圖 1。用于 CVE 影響分析的 plan-and-execute-style LLM 代理管道*

圖 1 展示了一個 CVE 分析工作流示例，該工作流有助于檢測已發送容器中的漏洞。此管道定義明確，由明確的特定子任務組成。

聊天機器人

智能體的另一個用例是 AI 聊天機器人。根據響應延遲和所解決任務的性質，這些聊天機器人可分為以下幾類：

探索性智能體
輔助性智能體

探索性智能體通常用于解決難以解決的復雜多步驟任務，并且需要時間讓智能體執行。此類智能體可被視為獨立智能體，用戶在其中給出預期解決方案的任務。

OpenAI 和 Perplexity 的 Deep Research 就是一個很好的例子 (圖 2) 。這些智能體對復雜的多步驟問題進行推理，并嘗試提出最終解決方案。在這些情況下，用戶不會期望進行迭代交互。相反，他們希望任務能夠獨立完成。用戶通常可以接受更高的延遲，但期望獲得完整的解決方案來處理復雜的任務。

An example of an exploratory task open ended task for which agents are used

輔助智能體本質上需要協作式人機回圈體驗，讓用戶參與到需要驗證的決策過程中。它們通常圍繞使用一組緊密結合的工具進行設計。

例如，這些應用程序可以是文檔創作助手、個人 AI 助手、報稅助手等。這些智能體旨在降低延遲，同時解決更小的 boiler plate-style 問題，以便用戶專注于構建更廣泛的解決方案。

A user Interface showing a Python file open in a coding environment. The user is asking a coding assistant to modify part of the code. The assistant responded with suggested edits. — *圖 3。提示編碼助手對現有 Python 文件進行編輯*

所有這些智能體的共同之處在于，需要借助一些工具進行推理并制定計劃來解決任務 (Figure 3) 。

下一個自然問題是 LLM 推理的工作原理。

什么是 LLM 推理？它如何應用于 AI 智能體？

《牛津字典》將推理定義為“以符合邏輯的合理方式思考事物的動作”。這非常適合用于考慮使用 LLM 進行推理的范式。

為此，推理可大致分為以下類別：

長期思考
尋找最佳解決方案
思考 – 評論 – 改進

There are three broad categories of reasoning - Think Longer, Diverse Thinking and Critique thinking, each of which have their own niches.

這三種技術的工作原理都是擴展測試時間計算，即提高響應質量，并通過生成更多 token 來解決更復雜的問題。

雖然這些技術是互補的，可以應用于所有不同的問題空間，但它們在設計方式上的差異使它們能夠應對各種挑戰。

促使 AI 模型思考更長時間

思維鏈是這類推理最直接的表征。在生成最終答案之前，我們會提示模型逐步思考。

思維鏈上的迭代是 ReAct 智能體框架。ReAct 結合推理和行動來執行多步驟決策。生成推理軌跡可將復雜問題分解為可管理的小任務，從而幫助智能體制定戰略計劃。操作步驟通過與外部工具交互來幫助執行計劃。

另一種嘗試注入更深層次思維的技術是自我反思，它引入了批判循環。這迫使智能體分析和重新評估推理，使其能夠自我糾正并生成更可靠的答案。

DeepSeek-R1 強效助力這一概念。對 DeepSeek-R1 進行了調整，以提高思維鏈的一致性和深度。該模型采用了新的強化學習 (RL) 范式，使模型能夠自主探索和完善其推理策略。這使其成為迄今為止最有趣的長鏈多步驟推理實現之一。

An example of “Deeper Thinking” are the thinking tokens that are used to generate a single cohesive chain of thought to reason through a complex problem — *圖 5。展示 DeepSeek-R1 的推理想法*

這種類型的推理最適合處理復雜問題，例如根據財務報告回答多個跳躍式問題或解決邏輯推理問題。

這些技術最終使模型能夠更深入地理解問題。

幫助 AI 模型搜索最佳解決方案

雖然更深入地思考可以解決任務的復雜性，但這可能不是解決具有多個解決方案的任務的最佳方法。Tree-of-thought和Graph-of-thought等技術引入了LLM通過多個推理方向進行推理的概念。

Scaling LLM Test-Time Compute Optimally 中詳細介紹的 Best-of-N 等技術可能比 Scaling Model Parameters 更有效，其原理很簡單。如果多次嘗試，模型可能會生成正確的響應。從本質上講，這讓我們能夠反復向模型提出相同的問題，直到模型回答正確，或者至少更有可能得到正確的回答。

我們可以將 N 設置為任意大，一些研究使用極高的 N 值使用極高的 N 值來處理代碼生成等問題。然而，生成大量響應只是解決方案的一小部分，因為我們需要一種方法讓系統從這 N 個解決方案中選擇最佳解決方案。

這就是驗證問題的癥結所在！在某些情況下，這一點更為明顯：代碼是否運行并通過測試？對于其他人來說，它可能更復雜，可能依賴于reward model或其他更復雜的驗證過程。

The diagram shows three models: Best of N, Beam Search, and Look Ahead search. Each workflow starts with a question and then shows the prompt, intermediate solution steps, and solution steps selected or rejected by the verifier.

與 Think-Critique-Improve 交互

Think-Critique-Improve 等方法利用更具交互性的流程來生成可靠的響應，而不是在沒有反饋的情況下通過“花更多時間思考”的視角來解決問題。簡單來說，管道如下所示：

思考：生成 N 個樣本，類似于 Best-of-N 方法。
生成反饋：針對每個樣本，使用專門的模型生成 X 個反饋響應，然后對該模型進行過濾以發現無效響應。根據一些啟發式算法選擇其中的 Top-k。
編輯：對于 N 個樣本中的每個樣本及其 Top-k 反饋響應，專門的編輯器模型通過編輯基礎模型的響應來整合反饋。
選擇：最后，從工作流使用 Select 模型生成的 N 個反饋和已編輯的響應中選擇最終響應。

這種方法更類似于一個團隊一起解決問題，而不是一個人長期思考一個問題。

由于其他方法在訓練或實施過程中依賴于可驗證的問題 (代碼、數學和邏輯推理) ，因此這種方法擅長解決開放式問題，而這些問題不僅僅是獲得正確答案。

下一步

隨著創造商業價值的模型和技術的飛速發展，企業需要專注于產品上市時間，并優化其功能和技術。

在這種環境中，NVIDIA Blueprints 等解決方案可幫助企業快速構建支持其用戶的應用。使用易于使用的 NVIDIA NIM，您的企業可以確保您擁有最有效、安全可靠的基礎設施。

現在，開發者可以從 Hugging Face 下載最新的 NVIDIA Llama Nemotron 模型，或試用構建用于研究和報告的 AI 代理。

如需詳細了解 LLM 代理，請參閱本系列中的其他博客：

構建由 LLM 提供動力支持的 API 智能體來執行任務
LLM 智能體介紹
構建您的首個 LLM Agent 應用
構建由 LLM 驅動的 Data Agent 進行數據分析

LLM 推理、AI 智能體和測試時間縮放的簡單介紹

什么是 LLM 智能體?

工作流

聊天機器人

什么是 LLM 推理？它如何應用于 AI 智能體？

促使 AI 模型思考更長時間

幫助 AI 模型搜索最佳解決方案

與 Think-Critique-Improve 交互

下一步

相關資源

標簽

關于作者

LLM 推理、AI 智能體和測試時間縮放的簡單介紹

什么是 LLM 智能體?

工作流

聊天機器人

什么是 LLM 推理？它如何應用于 AI 智能體？

促使 AI 模型思考更長時間

幫助 AI 模型搜索最佳解決方案

與 Think-Critique-Improve 交互

下一步

相關資源

標簽

關于作者

相關文章

如何使用 NVIDIA NeMo Agent 工具套件開源庫構建自定義 AI 智能體

適用于有效 FP8 訓練的按張量和按塊擴展策略

出色的多模態 RAG：Llama 3.2 NeMo 檢索器嵌入模型如何提高工作流準確性

NVIDIA?TensorRT-LLM?支持騰訊混元最新大語言模型?Hunyuan-A13B?推理加速

AI 分析護士觀察記錄以降低患者危險

相關文章

如何使用 NVIDIA NeMo Agent 工具套件開源庫構建自定義 AI 智能體

適用于有效 FP8 訓練的按張量和按塊擴展策略

出色的多模態 RAG：Llama 3.2 NeMo 檢索器嵌入模型如何提高工作流準確性

在 NVIDIA Jetson 和 RTX 上運行 Google DeepMind 的 Gemma 3n

提高嵌入模型準確性，實現定制化信息檢索