NeMo Microservices – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Wed, 02 Jul 2025 04:16:51 +0000
zh-CN
hourly
1
196178272 -
在 NVIDIA Jetson 和 RTX 上運行 Google DeepMind 的 Gemma 3n
http://www.open-lab.net/zh-cn/blog/run-google-deepminds-gemma-3n-on-nvidia-jetson-and-rtx/
Thu, 26 Jun 2025 04:14:13 +0000
http://www.open-lab.net/zh-cn/blog/?p=14468
Continued]]>
截至今日,NVIDIA 現已支持在 NVIDIA RTX 和 Jetson 上全面推出 Gemma 3n。上個月,Google DeepMind 在 Google I/ O 上預覽了 Gemma,其中包括兩個針對多模態設備端部署優化的新模型。 除了 3.5 版本中引入的文本和視覺功能之外,Gemma 現在還包括音頻。每個組件都集成了可信研究模型:適用于音頻的通用語音模型、適用于視覺的 MobileNet v4 和適用于文本的 MatFormer。 最大的使用進步是一項名為“逐層嵌入”的創新。它可以顯著減少參數的 RAM 使用量。Gemma 3n E4B 模型具有 80 億個參數的原始參數計數,但可以使用與 4B 模型相當的動態內存占用來運行。這使開發者能夠在資源受限的環境中使用更高質量的模型。 Gemma 系列模型在 NVIDIA Jetson 設備上運行良好,
Source
]]>
14468
-
微調 LLMOps 以實現快速模型評估和持續優化
http://www.open-lab.net/zh-cn/blog/fine-tuning-llmops-for-rapid-model-evaluation-and-ongoing-optimization/
Tue, 17 Jun 2025 04:52:16 +0000
http://www.open-lab.net/zh-cn/blog/?p=14384
Continued]]>
大語言模型 (LLM) 為各行各業帶來了前所未有的機遇。然而,將 LLM 從研發轉向可靠、可擴展和可維護的生產系統會帶來獨特的運營挑戰。 LLMOps(大語言模型操作)旨在應對這些挑戰。它基于傳統機器學習操作(MLOps)的原則而構建,為管理從數據準備和模型微調到部署、監控和持續改進的整個LLM生命周期提供了框架。實施LLM會在整個制作流程和部署階段帶來一些重大挑戰,包括: Amdocs 是一家專門從事電信解決方案的公司,他們正在應對這些挑戰,以克服實施自定義 LLM 的復雜性,并加速其 AI 計劃。Amdocs 基于 NVIDIA AI Blueprint 構建了強大的 LLMOps 流程,用于構建數據飛輪,該流程使用 NVIDIA NeMo 微服務進行簡化的微調、評估、guardrailing 和 serving,并將其作為 NVIDIA NIM 提供,以實現高效、
Source
]]>
14384
-
利用 NVIDIA Data Flywheel Blueprint 通過模型蒸餾構建高效的 AI 智能體
http://www.open-lab.net/zh-cn/blog/build-efficient-ai-agents-through-model-distillation-with-nvidias-data-flywheel-blueprint/
Wed, 11 Jun 2025 08:48:06 +0000
http://www.open-lab.net/zh-cn/blog/?p=14291
Continued]]>
隨著企業加速采用代理式 AI,團隊在擴展智能應用程序的同時管理推理成本方面面臨著越來越大的挑戰。大語言模型 (LLM) 提供強大的性能,但會產生巨大的計算需求,通常會導致高延遲和高成本。 與此同時,許多開發工作流程(例如評估、數據管理和微調)在很大程度上仍是手動操作。這些流程非常耗時,難以自動化,并且無法有效擴展。 更復雜的是,AI 智能體越來越依賴多個專業模型來執行推理、工具路由和摘要等任務。每個組件都有不同的性能特征和優化要求,因此很難大規模地單獨評估和調整它們。 為解決這一問題,NVIDIA 推出了用于構建數據飛輪的 NVIDIA AI Blueprint,這是一種基于 NVIDIA NeMo 微服務構建的參考架構。借助該藍圖,團隊能夠利用來自 AI 智能體交互的真實生產流量,在不影響準確性的情況下,將 LLM 持續轉換為更小、更便宜、更快速的模型。它自動執行結構化實驗,
Source
]]>
14291
-
聚焦:使用 Iguazio 的 MLRun 和 NVIDIA NIM 構建可擴展和可觀察的 AI 以投入生產
http://www.open-lab.net/zh-cn/blog/spotlight-build-scalable-and-observable-ai-ready-for-production-with-iguazios-mlrun-and-nvidia-nim/
Wed, 28 May 2025 05:32:20 +0000
http://www.open-lab.net/zh-cn/blog/?p=14048
Continued]]>
Iguazio (被麥肯錫收購) 與 NVIDIA 的合作使企業組織能夠構建生產級 AI 解決方案,這些解決方案不僅具有高性能和可擴展性,而且具有敏捷性,可用于現實世界的部署。 NVIDIA NIM 微服務對于這些功能至關重要,旨在加速任何云或數據中心的生成式 AI 部署。NIM 微服務支持各種 AI 模型,包括 NVIDIA AI 基礎、社區和自定義模型,支持使用行業標準 API 進行無縫、可擴展的 AI 推理。 在運行時,NIM 會為基礎模型、GPU 和系統的任意組合選擇最佳推理引擎。NIM 容器還提供標準的可觀察性數據源,并內置支持在 NVIDIA GPU 上使用 Kubernetes 進行自動擴展。 MLRun 是一個開源 AI 編排框架,可自動執行整個 AI 工作流,支持在生產環境中部署 NIM。這包括企業級生產就緒型應用所需的所有工作流元素,包括 MLRun…
Source
]]>
14048
-
更智能、更安全地串流:了解 NVIDIA NeMo Guardrails 如何增強 LLM 輸出串流
http://www.open-lab.net/zh-cn/blog/stream-smarter-and-safer-learn-how-nvidia-nemo-guardrails-enhance-llm-output-streaming/
Fri, 23 May 2025 05:59:37 +0000
http://www.open-lab.net/zh-cn/blog/?p=14063
Continued]]>
LLM 流式傳輸會在生成模型響應時,逐個 token 實時遞增發送該響應。輸出流式傳輸功能已從一項很好的功能發展為現代 LLM 應用的重要組件。 傳統方法是等待幾秒鐘才能獲得完整的 LLM 響應,這會造成延遲,尤其是在需要多次模型調用的復雜應用中。在流式傳輸中,time to first token (TTFT)——從查詢提交到第一個生成的token——成為用戶感知的延遲至關重要。 流式傳輸架構可在提示處理后立即啟動部分響應,從而顯著減少 TTFT,這通常會縮短初始等待時間。與此同時,令牌間延遲 (ITL) 基本保持不變,因為它反映了模型生成的固有速度。這種將初始響應能力 (TTFT) 與穩定狀態吞吐量 (ITL) 分離的做法可加快用戶反饋速度,而無需從根本上更改令牌生成機制。 通過實施流式傳輸功能,開發者可以創造更流暢的用戶體驗,模擬自然對話的流程,
Source
]]>
14063
-
NVIDIA NIM Operator 2.0 借助 NVIDIA NeMo 微服務支持提高 AI 部署效率
http://www.open-lab.net/zh-cn/blog/nvidia-nim-operator-2-0-boosts-ai-deployment-with-nvidia-nemo-microservices-support/
Tue, 29 Apr 2025 08:49:35 +0000
http://www.open-lab.net/zh-cn/blog/?p=13672
Continued]]>
NVIDIA 的首個版本 NIM 運算符 簡化了推理工作流的部署和生命周期管理 NVIDIA NIM 微服務,減少 MLOps、LLMOps 工程師和 Kubernetes 管理員的工作負載。它支持在 Kubernetes 集群上輕松快速地部署、自動擴展和升級 NIM。 詳細了解首個版本 。 我們的客戶和合作伙伴一直在使用 NIM Operator 來高效管理其應用的推理流程,例如聊天機器人、代理式 RAG 和虛擬藥物研發。我們 Cisco Compute Solutions 團隊的合作伙伴正在使用 NIM Operator 部署適用于 RAG 的 NVIDIA AI Blueprint ,作為 Cisco Validated Design 的一部分。 “ 我們戰略性地將 NVIDIA NIM Operator 與 思科驗證設計 (CVD) 集成到我們的 AI…
Source
]]>
13672
-
使用 NVIDIA NeMo 微服務,通過數據飛輪增強 AI 智能體
http://www.open-lab.net/zh-cn/blog/enhance-your-ai-agent-with-data-flywheels-using-nvidia-nemo-microservices/
Wed, 23 Apr 2025 05:54:07 +0000
http://www.open-lab.net/zh-cn/blog/?p=13617
Continued]]>
企業數據不斷變化。隨著時間的推移,這給保持 AI 系統的準確性帶來了重大挑戰。隨著企業組織越來越依賴 代理式 AI 系統 來優化業務流程,保持這些系統與不斷變化的業務需求和新數據保持一致變得至關重要。 本文將深入探討如何使用 NVIDIA NeMo 微服務構建數據飛輪迭代,并簡要概述構建端到端流程的步驟。如需了解如何使用 NeMo 微服務解決構建數據飛輪時面臨的各種挑戰,請參閱使用 NVIDIA NeMo 微服務更大限度地提高 AI Agent 性能。 數據飛輪是一種自我增強的循環。從用戶交互中收集的數據可改進 AI 模型,從而提供更好的結果,吸引更多用戶生成更多數據,從而在持續改進循環中進一步增強系統。這類似于獲取經驗和收集反饋以學習和改進工作的過程。 因此,需要部署的應用持續適應并保持高效是將數據 flywheel 整合到代理式系統中的主要動機。
Source
]]>
13617
-
借助 2D 和 3D 數字人虛擬形象擴展 AI 智能體界面選項
http://www.open-lab.net/zh-cn/blog/expanding-ai-agent-interface-options-with-2d-and-3d-digital-human-avatars/
Fri, 22 Nov 2024 07:29:09 +0000
http://www.open-lab.net/zh-cn/blog/?p=12044
Continued]]>
在與 生成式 AI 應用程序交互時,用戶有多種通信選項 – 文本、語音或通過數字化的虛擬形象。 傳統聊天機器人或 Copilot 應用具有文本界面,用戶可在其中輸入查詢并接收基于文本的響應。對于免持通信,語音人工智能技術如 自動語音識別 (ASR) 和 文本轉語音 (TTS) 促進了口頭互動,非常適合電話客戶服務等場景。此外,將數字化虛擬形象與語音能力相結合,可為用戶提供更具動態性的界面,以便用戶以直觀方式與應用互動。根據 Gartner 的預測,到 2028 年,擁有 500 名以上員工的組織中,45% 的組織將利用員工人工智能虛擬形象來擴展人力資本能力。1 數字虛擬形象的風格差異很大,一些用例受益于逼真的 3D 或 2D 虛擬形象,而其他用例使用風格化或卡通化的虛擬形象時效果更好。 要開始創建逼真的數字人,
Source
]]>
12044
-
借助視覺問答和多模態檢索推進神經科學研究
http://www.open-lab.net/zh-cn/blog/advancing-neuroscience-research-with-visual-question-answering-and-multimodal-retrieval/
Wed, 20 Nov 2024 08:22:44 +0000
http://www.open-lab.net/zh-cn/blog/?p=12176
Continued]]>
領先的醫療健康組織正在轉向生成式 AI,以幫助構建能夠帶來挽救生命影響的應用。這些組織包括印度理工學院 – IIT Madras 大腦中心 。為推進神經科學研究,IIT Madras 大腦中心正在利用 AI 生成不同人口群體的細胞層面的全人腦分析。 該中心使用視覺問答 (VQA) 模型和 大語言模型 (LLM) 開發了一種獨特的知識探索框架,使神經科學界更易于獲取腦成像數據。本文展示了關于人工智能 (AI) 如何突破神經科學研究極限的概念驗證。通過構建融合 VQA 模型與 LLM 的多模態框架,該團隊找到了一種讓大腦成像數據更易于理解的方法。這種方法可幫助研究人員發現有關大腦結構和功能的新見解,為取得突破性進展奠定基礎,進而實現挽救生命的發現。 該知識探索框架利用神經科學出版物幫助研究人員將腦成像數據與最新的神經科學研究關聯起來。借助此工具,
Source
]]>
12176
-
借助 NVIDIA NIM 智能體藍圖創建客戶服務 AI 虛擬助理的三大核心組件
http://www.open-lab.net/zh-cn/blog/three-building-blocks-for-creating-ai-virtual-assistants-for-customer-service-with-an-nvidia-nim-agent-blueprint/
Wed, 23 Oct 2024 05:13:49 +0000
http://www.open-lab.net/zh-cn/blog/?p=11694
Continued]]>
在當今快節奏的商業環境中,提供卓越的客戶服務已不再是一種好事情,而是一種必要條件。無論是解決技術問題、解決計費問題,還是提供服務更新,客戶都期望在方便時得到快速、準確和個性化的響應。然而,實現這種服務水平面臨重大挑戰。 傳統方法,例如靜態腳本或手動流程,通常在提供個性化和實時支持方面存在不足。此外,許多客戶服務運營依賴于敏感和零碎的數據,這些數據受嚴格的數據治理和隱私法規的約束。隨著生成式 AI 的興起,公司旨在通過提高運營效率、降低成本和最大限度地提高投資回報率(ROI)來革新客戶服務。 將 AI 集成到現有系統會帶來透明度、準確性和安全性方面的挑戰,這些挑戰可能會阻礙采用并中斷工作流程。為此,公司正在利用由生成式 AI 提供支持的虛擬助理來管理各種任務,進而縮短響應時間并釋放資源。 本文概述了開發者如何使用 AI 虛擬助理 NVIDIA NIM 智能體藍圖 (NVIDIA…
Source
]]>
11694
-
DataStax 推出 NVIDIA AI 構建的新一代 AI 開發平臺
http://www.open-lab.net/zh-cn/blog/datastax-announces-new-ai-development-platform-built-with-nvidia-ai/
Tue, 15 Oct 2024 04:41:51 +0000
http://www.open-lab.net/zh-cn/blog/?p=11741
Continued]]>
隨著企業越來越多地采用 AI 技術,他們面臨著高效開發、保護和持續改進 AI 應用以利用其數據資產的復雜挑戰。他們需要一個統一的端到端解決方案來簡化 AI 開發、增強安全性并實現持續優化,從而使組織能夠充分利用數據的全部潛力實現 AI 驅動的創新。 這就是 DataStax 與 NVIDIA 合作創建 DataStax AI 平臺 的原因,該平臺現已與 NVIDIA NeMo 和 NIM ( NVIDIA AI Enterprise 軟件的一部分)集成。該平臺提供統一的堆棧,使企業能夠更輕松地構建 AI 應用,利用其數據和必要的工具來不斷調整和提高應用性能和相關性,并將性能 吞吐量提高 19 倍 。該平臺基于 DataStax 現有的與 NVIDIA AI Enterprise 平臺的集成,這是在今年早些時候宣布的。 在本博文中,
Source
]]>
11741
-
聚焦:SLB 與 NVIDIA 攜手推出能源領域生成式 AI 解決方案
http://www.open-lab.net/zh-cn/blog/spotlight-slb-and-nvidia-collaborate-on-gen-ai-solutions-for-energy/
Thu, 19 Sep 2024 07:39:30 +0000
http://www.open-lab.net/zh-cn/blog/?p=11371
Continued]]>
全球能源技術公司 SLB 宣布 ,在與 NVIDIA 的長期合作中,能源行業生成式 AI 解決方案的開發和擴展是一個新的里程碑。 這項合作加快了能源行業特定 生成式 AI 基礎模型 在 SLB 全球平臺(包括其 Delfi 數字平臺和 SLB 的新 Lumi 數據和 AI 平臺)上的開發和部署。這項工作利用 NVIDIA NeMo ( NVIDIA AI Enterprise 軟件平臺的一部分)開發可在數據中心、任何云或邊緣運行的自定義生成式 AI。 SLB 和 NVIDIA 正在合作構建和優化生成式 AI 模型,以滿足數據密集型能源行業(包括地下勘探、生產運營和數據管理)的特定需求和要求。這將有助于能源領域專家(包括研究人員、科學家、工程師和 IT 團隊)充分發揮生成式 AI 的潛力,使他們能夠以新的方式與復雜的技術流程進行交互,
Source
]]>
11371
-
使用 NVIDIA NIM 實現多語種大語言模型部署
http://www.open-lab.net/zh-cn/blog/deploy-multilingual-llms-with-nvidia-nim/
Mon, 08 Jul 2024 07:40:39 +0000
http://www.open-lab.net/zh-cn/blog/?p=10600
Continued]]>
對于在當今全球化商業環境中運營的企業而言,多語種大型語言模型(LLM)的重要性與日俱增。隨著企業跨越國界和文化擴展業務,使用多種語言進行有效溝通的能力對于取得成功至關重要。通過支持和投資多語種 LLM,企業可以打破語言障礙,培養包容性,并在全球市場中獲得競爭優勢。 基礎模型 在處理多語種語言時通常會面臨挑戰。大多數模型主要使用英語文本語料庫進行訓練,這導致了對西方語言模式和文化規范的內在偏見。 這導致 LLM 難以準確捕捉非西方語言和社會特有的細微差別、習語和文化語境。此外,許多低資源語言缺乏高質量數字化文本數據,這進一步加劇了資源緊缺問題,使 LLM 難以跨這些語言進行有效學習和泛化。因此,LLM 通常無法反映非西方語言固有的文化上適當的表達、情感含義和上下文微妙之處,從而導致潛在的錯誤解釋或有偏見的輸出。 根據Meta Llama 3最近的一篇博客文章:
Source
]]>
10600
-
視頻:使用 NVIDIA NIM 與您的供應鏈數據對話
http://www.open-lab.net/zh-cn/blog/video-talk-to-your-supply-chain-data-using-nvidia-nim/
Mon, 17 Jun 2024 08:34:53 +0000
http://www.open-lab.net/zh-cn/blog/?p=10461
Continued]]>
NVIDIA 運營著世界上最大、最復雜的供應鏈之一。我們建造的超級計算機通過數百英里的高速光纜連接數萬個 NVIDIA GPU。我們依靠數百家合作伙伴向十幾家工廠交付數千種不同的組件,以生產近 3000 種產品。一旦供應鏈中斷,就可能影響我們履行承諾的能力。 這段四分鐘的視頻強調了組織如何克服運營復雜性,并通過使用 LLM NIM、NVIDIA NeMo Retriever NIM 和 cuOpt NIM 構建的人工智能規劃器,以非凡的規模交付人工智能工廠。 關鍵要點 總結 在NVIDIA cuOpt、NeMo Retriever和LLM NIM微服務免費試用在API 目錄上。 查看這些資源以了解更多關于 cuOpt 的信息:
Source
]]>
10461
-
使用 NVIDIA NeMo 訓練本地化多語種 LLM,第 1 部分
http://www.open-lab.net/zh-cn/blog/training-localized-multilingual-llms-with-nvidia-nemo-part-1/
Fri, 17 May 2024 05:22:06 +0000
http://www.open-lab.net/zh-cn/blog/?p=10125
Continued]]>
在當今的全球化世界中,AI 系統理解和溝通不同語言的能力變得越來越重要。大型語言模型 (LLMs) 徹底改變了自然語言處理領域,使 AI 能夠生成類似人類的文本、回答問題和執行各種語言任務。然而,大多數主流 LLM 都在主要由英語組成的數據語料庫上進行訓練,從而限制了它們對其他語言和文化語境的適用性。 這就是 多語種 LLM 的價值所在:縮小語言差距,并釋放 AI 的潛力,使其惠及更廣泛的受眾。 特別是,由于訓練數據有限以及東南亞 (SEA) 語言的獨特語言特性,當前最先進的 LLM 經常難以與這些語言進行交流。這導致與英語等高資源語言相比,性能較低。雖然一些 LLM 在一定程度上可以處理某些 SEA 語言,但仍然存在不一致、幻覺和安全問題。 與此同時,人們對在東南亞開發本地化的多語種 LLM 有著濃厚的興趣和決心。一個值得注意的例子是,新加坡啟動了一項 7000 萬新元的計劃,
Source
]]>
10125
人人超碰97caoporen国产