NVIDIA NIM 微服務助力電信 O-RAN 規范高級 RAG 技術實現

移動通信標準通過協調技術協議來促進不同供應商的網絡和設備之間的互操作性，在電信生態系統中發揮著至關重要的作用。隨著這些標準的發展，電信公司面臨著管理復雜性和數量的持續挑戰。

通過利用生成式 AI ，電信公司可以實現技術標準解釋和應用的自動化，從而減少瀏覽、分析和實施大量規范中的規則和協議所需的時間和精力。為了展示生成式 AI 在處理標準文檔方面的強大功能，我們針對 O-RAN（開放無線接入網）標準開發了一個聊天機器人演示。

O-RAN 提供了一套規范，旨在通過使用開放接口和模塊化硬件和軟件，促進電信網絡的無線接入網 (RAN) 組件的互操作性、開放性和創新性。

本文詳細介紹了我們的方法，該方法使用 NVIDIA NIM 微服務和檢索增強生成技術（RAG），高效生成對涉及大量技術規格和工作流程的復雜查詢的響應。這展示了生成式 AI 在轉變行業實踐和有效管理復雜標準方面的潛力。

O-RAN 聊天機器人 RAG 架構?

為了部署 O-RAN 聊天機器人，我們使用了專為云原生端到端 RAG 應用設計的 NIM 微服務。具體來說，我們使用了 NVIDIA NeMo 檢索器文本嵌入 NIM， NV-Embed-QA-Mistral-7B-v2 ，將 O-RAN 文檔和用戶查詢中的段落轉換為向量表示。此外，我們還實施了基于相關性的 NeMo 檢索器文本重新排序 NIM，以重新排序檢索到的段落，從而改進語義排序。

為了管理數據流并確保組件之間的無縫交互，我們使用 LangChain 框架集成了各種聊天機器人元素。我們選擇了 GPU 加速的 FAISS 向量數據庫來存儲嵌入，并為大語言模型(LLM) 采用了 NIM 微服務來生成答案。我們使用 Streamlit 實現了前端，使用戶能夠直接與聊天機器人進行交互。此外，我們部署了 NVIDIA NeMo Guardrails ，以確保提供的答案既相關又真實，并進一步增強用戶體驗。圖 1 展示了架構。要下載參考代碼，請訪問 NVIDIA/GenerativeAIExamples GitHub 庫。

Architecture diagram for an O-RAN chatbot using icons representing a user, multiple NVIDIA NIM microservices, FAISS vector database, O-RAN documents, and a chain server. — *圖 1.O-RAN 聊天機器人 RAG 組件概述* 。

樸素的 RAG 挑戰?

在沒有增強功能的情況下設置基本 RAG 架構（Naive RAG）后，我們注意到響應存在幾個問題。首先，提供的答案往往過于冗長，聊天機器人的語氣與預期的上下文不一致。我們能夠通過適當的提示調優來改進這些方面。

其次，我們觀察到基本的 RAG 流程無法檢索一些相關文檔，從而導致回答不準確或具有誤導性。此外，流程難以準確回答最復雜的問題，通常會產生部分正確的答案或幻覺。

雖然提示調優成功解決了語氣和詳細程度問題，但需要一種不同的方法來處理檢索和響應準確性方面的挑戰。為此，我們首先試驗了高級檢索策略，然后評估了不同的語言模型。這些工作旨在優化機器人的整體質量，將在以下部分詳細介紹。

優化檢索策略?

為了解決檢索準確性問題，我們仔細檢查了檢索到的內容不完整的查詢。我們發現，出現此問題的原因通常是答案的相關部分分散在不同文檔中，導致檢索系統無法訪問所有必要的上下文。為了應對這一挑戰，我們嘗試了兩種高級檢索方法（Advanced RAG 和 HyDE），探索了基本 RAG 的增強功能，這兩種方法有可能提高性能。

高級 RAG?

我們嘗試的第一個增強功能是實施名為 Advanced RAG 的查詢轉換技術，該技術使用 LLM 從初始查詢中生成多個子查詢。這種方法旨在通過擴展搜索空間和優化檢索到的文檔的相關性來提高檢索準確性。圖 2 展示了 Advanced RAG 的結構。

Architecture diagram showing an advanced approach to document retrieval-augmented generation with a query input (left), generated embeddings, top retrieved and reranked documents, and answer output (right) using NVIDIA NIM microservices. — *圖 2.高級 RAG 工作流程*

HyDE RAG?

接下來，我們探索了另一種名為 HyDE (Hypothetical Document Embeddings) RAG 的方法。HyDE 通過考慮潛在答案來增強檢索，使系統能夠找到與上下文更相關的文檔。此技術之前在許多任務中表現優于許多密集檢索器，并且在各種任務中展示的性能可與微調檢索器相媲美。圖 3 概述了我們如何實施 HyDE RAG 及其與檢索過程的集成。

檢索策略評估?

在實施 Advanced RAG 和 HyDE RAG 技術后，我們繼續評估它們與基本的 Naive RAG 相比的性能。我們的評估結合了人類專業知識的見解和自動化方法的效率和一致性，利用了這兩種方法的優勢。

對于人工評估，我們聘請了 O-RAN 工程師創建了 20 個問題，這些問題涵蓋了最新標準版本的各個方面。然后，我們使用所有三種 RAG 方法生成答案：Naive RAG、Advanced RAG 和 HyDE RAG。專家們通過按 1 到 5 的評分來評估每個答案的質量，同時考慮到答案的整體質量和相關性。

在自動評估方面，我們使用了 RAGAs，這是一個開源框架，它采用先進的 LLM 擔任評委，實現評估流程的自動化。圖 4 展示了我們的評估方法，展示了如何集成人工評估和自動評估，以全面比較 RAG 技術。

Architecture diagram showing workflow to compare three retriever strategies: Naive RAG, HyDe RAG and Advanced RAG with Evaluation Dataset as input (left), human evaluation and LLM-as-a-Judge, and best retriever strategy as output (right). — *圖 4 檢索器策略評估*

圖 5 顯示了這些評估的結果，清楚地表明使用增強型 RAG 技術可顯著提高響應質量。人工和自動評估一致發現，Advanced RAG 方法的表現優于 Naive RAG 和 HyDE RAG 方法。

Side-by-side images. On the left: Bar chart showing retrieval results for Naive RAG (left), Advanced RAG (center), and HyDE RAG (right). On the right: Bar chart showing context precision (green) and context recall (orange) results for Naive RAG (left), Advanced RAG (center), and HyDE RAG (right). — *圖 5. 不同 RAG 策略的人工評估結果（左）和 RAGAs LLM-as-a-Judge 評估結果（右）*

NVIDIA LLM NIM 精選?

在確定了最佳檢索器策略后，我們的目標是通過評估不同的 LLM NIM 微服務來進一步提高答案的準確性。如下文工作流程所示，我們試驗了各種模型以確定最準確的模型。使用 Advanced RAG 管道，我們使用不同的 LLM NIM 微服務生成了答案，并評估了它們的性能。為此，我們采用了 RAGAs 框架，使用 LLM-as-a-Judge 來計算兩個關鍵指標：faithfulness 和 answer relevancy。

鑒于我們需要比較大量 NIM 微服務，因此我們選擇優先考慮自動評估，而不是人工評估，因為人工評估非常耗時，并且需要大量的工程資源。圖 6 展示了我們的 LLM NIM 評估流程。

Workflow diagram showing evaluation of six NVIDIA LLM NIM microservices using GPT-4 as a judge with input evaluation dataset (left), Advanced RAG, and output for the most accurate LLM (right). — *圖 6.NVIDIA LLM NIM 評估流程*

根據圖 7 中的結果，我們注意到所有 LLM 均按同等性能運行，二者之間幾乎沒有性能差異。這表明檢索優化是關鍵因素。經過優化后，所有開源 LLM 都能實現可比性能。

Bar chart showing results for RAGAs LLM model evaluation in faithfulness (green) and answer relevancy (orange) for six LLMs based on Mixtral and Llama 3 evaluated. — *圖 7. 不同 LLM NIM 微服務的 RAGAs LLM 評估結果*

結束語?

通過利用 NVIDIA LLM NIM 微服務以及 NeMo 檢索器嵌入和重新排序 NIM 微服務，我們展示了構建高級 RAG 工作流的價值，以創建能夠理解 O-RAN 技術規范的專家聊天機器人。通過利用高級檢索技術增強的開源 LLM，我們顯著提高了對復雜技術問題的響應準確性。

我們的評估框架表明，Advanced RAG 方法在檢索準確性和整體響應質量方面的表現始終優于其他方法。O-RAN 聊天機器人的成功凸顯了集成 NVIDIA 端到端平臺以開發自定義生成式 AI，使電信公司能夠提高處理技術標準的效率，從而在迅速發展的電信行業中保持競爭優勢。

如需了解更多信息，請訪問 NVIDIA/GenerativeAIExamples GitHub 倉庫。

NVIDIA NIM 微服務助力電信 O-RAN 規范高級 RAG 技術實現

O-RAN 聊天機器人 RAG 架構?

樸素的 RAG 挑戰?