高效的文本檢索對于搜索、問答、語義文本相似性、摘要和商品推薦等各種信息檢索應用至關重要。它還在檢索增強生成(RAG)技術中發揮著關鍵作用,該技術使 大語言模型(LLMs) 能夠在不修改基礎參數的情況下訪問外部上下文。
雖然 RAG 在提高 LLM 生成的響應質量方面非常有效,但由于主要使用英語數據集進行訓練,許多嵌入模型仍然難以檢索多種語言的正確數據。這限制了以其他語言生成準確且信息豐富的文本回復,阻礙了與全球受眾的有效溝通。
多語種信息檢索可提高生成文本的事實準確性和一致性,并實現本地化的上下文感知響應,從而消除語言障礙,使信息在全球范圍內更易于獲取。從改善臨床醫生與患者之間的溝通和故障排除技術問題,到提供個性化零售體驗,此功能可解鎖各行各業的各種應用。
然而,為大規模數據平臺創建此類系統會面臨獨特的挑戰,例如管理海量數據、確保低延遲檢索,以及在各種多語種數據集中保持高準確性。
本文將介紹如何使用 NVIDIA NeMo Retriever 嵌入和重新排序微服務解決這些復雜性,并構建強大的多語種信息檢索系統。NeMo Retriever 基于 NVIDIA NIM 構建,支持在不同的數據環境中無縫部署 AI 應用。它重新定義了以出色的準確性、可擴展性和響應速度處理大規模多語種檢索的可能性,改變了全球組織與信息交互的方式。
NVIDIA NeMo Retriever 是一系列微服務的集合,可提供具有高準確性和數據隱私性的出色信息檢索,使企業能夠生成實時業務見解。
NVIDIA NIM 是 NVIDIA AI Enterprise 軟件平臺的一部分,可簡化跨平臺生成式 AI 模型的部署,使團隊能夠自行托管 LLM,同時提供用于構建應用的標準 API。有關更多信息,請參閱面向開發者的 NVIDIA NIM。
多階段、多語言信息檢索系統需求
開發多語種信息檢索系統需要集成能夠從多語種知識庫獲取數據的強大檢索組件。然后,這些檢索到的數據用于增強生成過程,確保準確的上下文感知響應。
信息檢索系統的核心是嵌入或密集檢索模型,這些模型將查詢和內容 (即段落或文檔) 語義編碼為向量表示形式,以捕捉其含義。
近年來,我們推出了許多不同大小和功能的密集嵌入模型 ( MTEB 檢索排行榜 )。然而,這些模型中的大多數在有效執行多語言檢索方面能力有限。
要構建 多語種 RAG 系統,嵌入模型必須支持多種語言,確保來自不同語言來源的查詢和上下文準確嵌入到共享的語義空間中。
對于更先進的多語種檢索系統,可能需要多階段多語種檢索管道。這不僅包括 dense retriever,還包括 reranking model ,該模型通過對檢索到的文檔進行排名來優化結果,并提高不同語言之間的準確性。
借助 NVIDIA NeMo Retriever 革新數據平臺
認識到構建這些工作流的挑戰和要求, NVIDIA 引入了 兩種新的基于社區的 NeMo Retriever 微服務,用于基于 NVIDIA NIM 構建的世界級多語種和跨語言文本檢索。
- NeMo Retriever Llama 3.2 embedding: llama-3.2-nv-embedqa-1b-v2
- NeMo Retriever Llama 3.2 reranking: Llama-3.2-nv-rerankqa-1b-v2
除了支持多語種和跨語言問答檢索外,新的多語種模型還能高效、大規模地解決數據平臺在存儲、性能和適應性方面的關鍵挑戰。
以下技術可將更多數據存儲在向量數據庫中,從而增強實時檢索和生成功能:
- 長上下文支持 :使用 PyTorch 等框架,處理和理解大量文檔,支持多達 8192 個令牌的上下文,從而改進數據處理。
- 動態嵌入大小 :提供靈活的嵌入大小,以優化存儲和檢索流程,在保持準確性的同時減少維度。
- 存儲效率 :將嵌入維度減少到 384,并擴展上下文長度,將存儲量減少 35 倍,從而使更大的知識庫適合單個服務器。
- 性能優化 :結合長上下文支持和降低的嵌入維度,在保持出色存儲效率的同時提供高精度。

圖 1 顯示通過動態嵌入大小和對更長令牌長度的支持,可將存儲占用減少 35 倍,從而高效處理大規模數據集。對于無法使用云自動擴展的本地客戶而言,這一進步特別有利,使他們能夠準確高效地存儲和檢索更多數據。
基于優化嵌入和重新排序模型的多語種、跨語言文本檢索基準測試
那么,我們如何針對多語種和跨語言文本問答檢索任務優化這些嵌入和重新排序模型?
- 將 meta-LLAMA/Llama-3.2-1B 作為基礎模型 (僅解碼器模型),并將其轉換為編碼器模型。基礎 Llama-3.2-1B 模型正式支持英語、德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語,并且已經過訓練,使用的語言比這八種受支持的語言更廣泛。
- 將其自注意力機制從單向(因果關系)修改為雙向,以便每個令牌都可以處理右側和左側的其他令牌。
- 通過使用內部精選的公開可用英語和多語種數據集進行微調,改進了基礎 Llama-3.2-1B 模型的現有多語種功能。
- 通過對比學習,使用可感知正向的硬陰性挖掘方法挖掘的硬陰性,對嵌入和重新排序模型進行微調。如需了解更多信息,請參閱 NV-Retriever:通過有效的硬陰性挖掘改進文本嵌入模型 。
隨著兩個新的 1B 參數檢索器模型的推出, NVIDIA NeMo 在多語種檢索的高精度與高效索引吞吐量和低服務延遲之間實現了平衡。
我們使用 18 個 MIRACL 開發者集、11 個翻譯語言數據集和 49 個跨語言 MLQA 數據集評估了 1B 參數檢索器模型。條形圖中顯示的所有模型均在相同的基礎架構和數據集上進行評估。我們對 MIRACL 開發者數據集進行了二次采樣,以加快評估速度。圖 2 顯示 NVIDIA Llama 3.2 嵌入和重新排序模型在檢索準確性方面表現出色 (通過 Recall@5 衡量),當它們組合成多階段檢索系統時更是如此。

圖 3 顯示,NVIDIA Llama3.2 1B 嵌入和 Llama3.2 1B 重新排序模型均表現出出色的準確性,從而為多語種和跨語言文本檢索基準測試帶來最先進的結果。

除了 NVIDIA Llama3.2 1B 嵌入和 Llama3.2 1B 重新排序模型的多語種和跨語言功能外,圖 4 還顯示,在僅使用英語的 TextQA 基準數據集上,所有 NVIDIA 模型都能生成比替代模型更準確的檢索結果。將這些模型與開放式和商用檢索器模型進行比較,并在學術問答基準上對這些模型進行了評估:來自 BeIR 基準和 TechQA 數據集的 NQ 、 HotpotQA 和 FiQA (Finance Q&A)。

要訪問所有微服務的性能基準測試,請參閱 NVIDIA NeMo 檢索器文檔中的基準測試部分。
開始開發出色的信息檢索管道
要使用 NeMo Retriever 微服務構建可擴展的世界級信息檢索系統,請訪問我們的托管環境 NVIDIA API Catalog 。在這里,您可以訪問一系列微服務進行檢索,使組織能夠將自定義模型無縫連接到各種業務數據,并提供高度準確的響應。該集合包 括 llama-3.2-nv-embedqa-1b-v2 和 llama-3.2-nv-rerankqa-1b-v2 。
NVIDIA Developer Program 會員 可以免費訪問 NIM,以便在首選基礎架構上進行研究、開發和測試。系統將提示您輸入個人或企業電子郵件地址,以訪問使用 NIM 構建的不同選項。
您還可以在 GitHub 上探索 NVIDIA 生成式 AI 示例 ,了解如何集成這些微服務并編寫示例應用。 獲取適用于 NeMo Retriever 的 NVIDIA LaunchPad 免費實戰實驗室 ,試用微服務并解鎖企業數據, 或使用 RAG 實驗室構建 AI 聊天機器人 。
?