零售/消費品 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 22 May 2025 06:06:58 +0000 zh-CN hourly 1 196178272 聚焦:Perfect Corp. 利用 NVIDIA TensorRT 和 NVENC 實現個性化的數字化美妝體驗 http://www.open-lab.net/zh-cn/blog/spotlight-perfect-corp-delivers-personalized-digital-beauty-experiences-using-nvidia-tensorrt-and-nvenc/ Sun, 18 May 2025 06:00:34 +0000 http://www.open-lab.net/zh-cn/blog/?p=13938 Continued]]> 增強現實 (AR) 和 AI 通過提供從虛擬試用到 AI 驅動的造型推薦等超個性化體驗,正在徹底改變美妝和時尚行業。這些創新解決了一個長期難題:彌合數字購物與店內體驗之間的差距。它們可以幫助消費者做出自信的購買決策,而無需親自嘗試產品。 實現這種逼真程度帶來了諸多挑戰,例如確保逼真的色彩表現、適應不同的膚色以及提供無縫的實時性能。這需要在 GPU 加速和 AI 驅動的計算機視覺、深度學習和 AR 渲染方面取得進步。 Perfect Corp. 是一家領先的 AI 和 AR 美妝與時尚技術解決方案 SaaS 提供商,借助 NVIDIA 技術使這一切成為可能。這家成立于臺灣、在紐約證券交易所上市的公司榮獲了 40 多個行業獎項,在全球擁有超過 1 billion 次應用程序下載量,使消費者能夠輕松地在虛擬環境中試用產品。其創新的 AI 和 AR 服務受到 650…

Source

]]>
13938
聚焦:個人 AI 借助 NVIDIA Riva 為小企業主帶來 AI 接待員 http://www.open-lab.net/zh-cn/blog/spotlight-personal-ai-brings-ai-receptionists-to-small-business-owners-with-nvidia-riva/ Tue, 29 Apr 2025 08:27:20 +0000 http://www.open-lab.net/zh-cn/blog/?p=13660 Continued]]> 星期二晚上 10 點,Sapochnick Law Firm (一家位于加利福尼亞州圣地亞哥的專業律師事務所) 的電話鈴響了。作為這家公司的客戶,打電話的人在電話鈴響時焦急萬分。他們收到了一封包含可能改變生活的消息的重要信件,并向律師提出了緊急問題。 客戶很快意識到 Sapochnick 團隊可能在幾小時前離開了辦公室,但他們一直在排隊等待,希望至少有一個語音郵件問候可以提供某種幫助。沒有錄音,聲音用熱情、專業的問候打破了沉默。雙方之間自然而然地展開了對話,很明顯,律師事務所發出的聲音遠不止接電話。該公司精通細致入微的移民程序,熟悉該公司處理特定法律場景的方法,最重要的是,該公司擁有公司創始人 Jacob Sapochnick 廣泛的專有知識。 這種真正的互動之所以能夠實現,是因為 Personal AI Receptionist 是一項由 Personal AI 和…

Source

]]>
13660
使用 NVIDIA AI Blueprint 構建實時多模態 XR 應用以進行視頻搜索和摘要 http://www.open-lab.net/zh-cn/blog/build-real-time-multimodal-xr-apps-with-nvidia-ai-blueprint-for-video-search-and-summarization/ Tue, 11 Mar 2025 06:43:16 +0000 http://www.open-lab.net/zh-cn/blog/?p=13357 Continued]]> 隨著 生成式 AI 和視覺基礎模型的最新進展,VLM 呈現了新一波視覺計算浪潮,其中模型能夠實現高度復雜的感知和深度上下文理解。這些智能解決方案為增強 XR 設置中的語義理解提供了一種很有前景的方法。通過集成 VLM,開發者可以顯著改進 XR 應用解釋用戶操作以及與用戶操作交互的方式,使其響應速度更快、更直觀。 本文將向您介紹如何利用 NVIDIA AI Blueprint 進行視頻搜索和摘要 ,以及如何增強 Blueprint 以支持 XR 環境中的音頻。我們介紹了實時語音識別和沉浸式交互的分步過程——從設置環境到無縫集成。 借助對話式 AI 功能增強 XR 應用,為用戶帶來更加身臨其境的體驗。通過創建在 XR 環境中提供 Q&A 功能的生成式 AI 智能體,用戶可以更自然地進行交互并獲得即時幫助。多模態 AI 智能體處理并合成多種輸入模式,例如視覺數據 (例如 XR…

Source

]]>
13357
圖像和視頻理解的視覺語言模型提示工程實踐指南 http://www.open-lab.net/zh-cn/blog/vision-language-model-prompt-engineering-guide-for-image-and-video-understanding/ Wed, 26 Feb 2025 06:49:25 +0000 http://www.open-lab.net/zh-cn/blog/?p=13030 Continued]]> 視覺語言模型 (VLMs) 正在以極快的速度發展。2020 年,首批 VLMs 通過使用視覺編碼器將視覺理解引入大語言模型 (LLMs) ,徹底改變了生成式 AI 格局。這些初始 VLMs 能力有限,只能理解文本和單張圖像輸入。 幾年后,VLM 現在能夠理解多圖像和視頻輸入,以執行高級視覺語言任務,例如視覺問答 (VQA)、字幕、搜索和摘要。 通過調整提示和模型權重,可以提高特定用例的 VLM 準確性。可以使用 PEFT 等高效技術微調模型權重,但仍需要足夠的數據和計算。 但是, prompt engineering 和上下文學習也可用于提高輸出質量,并且與在運行時調整模型的文本輸入一樣簡單。 本文將為您介紹 VLM 的演變,以及如何有效地提示 VLM 以用于了解單張圖像、多張圖像和視頻的用例。如需了解有關 VLM 和視覺 AI 智能體的更多信息,

Source

]]>
13030
使用 NetworkX、Jaccard Similarity 和 cuGraph 預測您下一部最喜歡的電影 http://www.open-lab.net/zh-cn/blog/using-networkx-jaccard-similarity-and-cugraph-to-predict-your-next-favorite-movie/ Thu, 13 Feb 2025 02:57:15 +0000 http://www.open-lab.net/zh-cn/blog/?p=12823 Continued]]> 隨著全球每個人可用的數據量不斷增加,消費者做出明智決策的能力也越來越難。幸運的是,對于推薦系統而言,大型數據集是一個非常有用的組件,有時這會讓某些情況下的決策變得更加容易。 對于為推薦系統提供支持的數據中固有的關系建模而言,圖形是一個很好的選擇,而 NetworkX 是許多數據科學家在 Python 中進行圖形分析時非常喜歡的選擇。NetworkX 易于學習和使用,擁有各種圖形算法,并由龐大而友好的社區提供支持,并且在 Notebook、文檔、Stack Overflow 和您喜歡的 LLM 中提供了大量示例。然而,令無數開發人員失望的是,他們使用 NetworkX 或甚至因為 NetworkX 而涉足圖形分析,但眾所周知,它在典型推薦系統使用的規模上的性能表現不佳。 這就引出了一個問題:能否用 Python 的幾行簡單代碼編寫有效的基于圖形的推薦系統?更一般地說,

Source

]]>
12823
使用 GPU 在 Apache Spark 上加速 JSON 處理 http://www.open-lab.net/zh-cn/blog/accelerating-json-processing-on-apache-spark-with-gpus/ Wed, 29 Jan 2025 05:26:22 +0000 http://www.open-lab.net/zh-cn/blog/?p=12910 Continued]]> JSON 是一種熱門的文本數據格式,可實現 Web 應用程序中系統之間的互操作性以及數據管理。這種格式自 21 世紀初就已存在,源于 Web 服務器和瀏覽器之間的通信需求。標準 JSON 格式由可包含嵌套對象的鍵值對組成。JSON 在存儲 Web 事務信息方面的使用有所增長,并且可能包含非常大的值,有時每條記錄的大小超過 1 GB。首先,解析和驗證 JSON 不是與 GPU 加速相關的任務,因為文本格式的大小不規則,并且沒有默認順序。但是,隨著 JSON 在許多企業數據應用程序中的使用,對加速的需求也在增長。 對于《財富》100 強零售公司而言,使用 JSON 格式存儲基本庫存數據。JSON 格式支持與產品分類和庫存相關的非結構化數據。針對點擊流數據的 JSON 處理包括在單個 Spark 工作負載中處理數十 TB 的 JSON 數據的大型查詢。

Source

]]>
12910
構建生成式 AI OpenUSD 應用,呈現準確品牌的營銷視覺效果 http://www.open-lab.net/zh-cn/blog/building-a-generative-ai-openusd-app-for-brand-accurate-marketing-visuals/ Tue, 19 Nov 2024 09:38:22 +0000 http://www.open-lab.net/zh-cn/blog/?p=12205 Continued]]> 如今,品牌及其創意機構承受著巨大的壓力,需要大規模地創建和提供高質量、準確的產品圖片,從活動關鍵視覺效果到電子商務包裝截圖等。面向受眾的內容,如個性化和本地化視覺變化,增加了制作的復雜性。 制作成本、短時間線、資源和維護品牌身份都是營銷團隊創建更多資產和更具針對性的內容的重復障礙。 例如,意式特濃咖啡制造商可能希望在即將推出的產品中面向廣泛的受眾,從居住在城市的年輕專業人士到在鄉村享受退休生活的老一代。歷史上,這需要多個工作流程、地點、團隊和審查周期來執行,而這通常是不可能的,這會限制營銷團隊用于定位的可用內容。 為了大規模地為廣泛的受眾群體生成高質量、品牌準確的內容,創意團隊現在可以利用生成式 AI 工作流。將生成式 AI 集成到用于生成準確的視覺資產和制作內容的工具和應用中,可以為內容供應鏈帶來新的可能性和效率。 許多開發者已經在努力將其變為現實。 在本文中,

Source

]]>
12205
基于 NVIDIA NIM 的多模態視覺 AI 智能體構建解決方案 http://www.open-lab.net/zh-cn/blog/build-multimodal-visual-ai-agents-powered-by-nvidia-nim/ Thu, 31 Oct 2024 09:20:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=11846 Continued]]> 視覺數據(從圖像到 PDF 再到流式視頻)呈指數級增長,這使得人工審查和分析幾乎不可能實現。組織正在努力將這些數據大規模轉換為切實可行的見解,從而導致錯失機會并增加風險。 為了應對這一挑戰,視覺語言模型(VLMs)正在成為強大的工具,將圖像和視頻的視覺感知與基于文本的推理相結合。與僅處理文本的 傳統大語言模型 (LLMs)不同,VLMs 使您能夠構建 視覺 AI 智能體 ,以便理解和處理復雜的多模態數據,并對其采取行動,從而實現實時決策和自動化。 想象一下,擁有一個智能 AI 智能體,它可以分析遠程攝像頭鏡頭以檢測野火的早期跡象,或者掃描業務文檔以提取隱藏在圖表、表格和圖像中的關鍵信息——這一切都可以自動完成。 借助 NVIDIA NIM 微服務 ,構建這些先進的視覺 AI 智能體比以往更容易、更高效。NIM 微服務提供靈活的自定義、簡化的 API 集成和流暢的部署,

Source

]]>
11846
AI 驅動的 3D 打印技術助力外科醫生模擬手術訓練 http://www.open-lab.net/zh-cn/blog/new-ai-powered-3d-printing-can-help-surgeons-rehearse-procedures/ Fri, 20 Sep 2024 07:34:12 +0000 http://www.open-lab.net/zh-cn/blog/?p=11368 Continued]]> 華盛頓州立大學(WSU)的研究人員公布了一種新的 AI 指導 3D 打印技術,該技術可以幫助醫生打印復雜的人體器官復制品。外科醫生可以在進行實際手術之前使用這些器官模型進行練習,從而為醫生提供更多的工具來改善手術結果。 該 AI 算法根據人體腎和前列腺的圖像和關鍵屬性(包括重量、大小、孔隙率和血管結構等特征)進行訓練。該算法與 3D 打印機配合使用的過程不斷改進,有助于為 3D 打印的三個重要部分找到最佳設置:模型的準確性、重量以及打印所需的時間。 WSU 機械和材料工程助理教授 Kaiyan Qiu 是這項 研究 的合著者之一,他說,AI 優化可以顯著縮短創建可行的 3D 模型所需的時間。該算法調整關鍵的 3D 打印變量,包括打印機的噴頭尺寸和行駛速度、打印材料的分配壓力以及每個打印層的高度,然后指導打印機為特定用例創建合適的模型。 “對于手術前器官模型,

Source

]]>
11368
聚焦:clicOH 借助 NVIDIA cuOpt 實現最后一英里交付速度 20 倍提升 http://www.open-lab.net/zh-cn/blog/spotlight-clicoh-accelerates-last-mile-delivery-20x-with-nvidia-cuopt/ Thu, 29 Aug 2024 05:34:02 +0000 http://www.open-lab.net/zh-cn/blog/?p=11160 Continued]]> 受消費者行為轉變和疫情影響,電子商務繼續呈爆炸式增長和轉型。因此,物流和運輸公司發現自己處于包裹配送革命的前沿。這新的現實情況在最后一英里配送中尤為明顯,而后者現在已經成為供應鏈物流中成本最高的要素,占從零售到制造等各行業供應鏈總成本的41%以上。可以理解的是,最后一英里配送成本的飆升正在促使人們努力找出并緩解根本原因。 最后一英里配送挑戰因車輛路線規劃問題(VRP)而變得更加復雜。作為旅行推銷員問題的泛化,VRP 問:“一支車隊向一組特定客戶交付時,應該采用的最佳路線集是什么?”如果僅有 10 個配送目的地,就可以進行超過 3,000,000 次的排列和行程組合。如果目的地為 15 個,可能的路線數量可能超過 1 萬億次。隨著目的地數量的增加,相應的可能行程數量甚至超過最快的超級計算機的功能,而這并沒有考慮到常見的運營限制,例如車隊可用性、導航能力和訪問限制。 這些限制,

Source

]]>
11160
NVIDIA TAO 5.5 帶來新基礎模型和增強訓練功能 http://www.open-lab.net/zh-cn/blog/new-foundational-models-and-training-capabilities-with-nvidia-tao-5-5/ Wed, 28 Aug 2024 06:23:45 +0000 http://www.open-lab.net/zh-cn/blog/?p=11078 Continued]]> NVIDIA TAO 是一個旨在簡化和加速 AI 模型開發和部署的框架。它使您能夠使用預訓練模型,使用自己的數據微調模型,并針對特定用例優化模型,而無需深入的 AI 專業知識。 TAO 與 NVIDIA 硬件和軟件生態系統無縫集成,提供用于高效 AI 模型訓練、部署和推理的工具,并加速 AI 驅動應用程序的上市時間。 圖 1 顯示 TAO 支持 PyTorch、TensorFlow 和 ONNX 等框架。訓練可以在多個平臺上完成,而生成的模型可以部署在 GPU、CPU、MCU 和 DLA 等各種推理平臺上。 NVIDIA 剛剛發布了 TAO 5.5,引入了先進的基礎模型和突破性功能,可增強任何 AI 模型開發。新的功能包括以下內容: 在本文中,我們將更詳細地討論 TAO 5.5 的新功能。 NVIDIA TAO 集成了開源、基礎和專有模型,

Source

]]>
11078
簡化攝像頭校準,提高 AI 驅動的多攝像頭跟蹤能力 http://www.open-lab.net/zh-cn/blog/simplifying-camera-calibration-to-enhance-ai-powered-multi-camera-tracking/ Tue, 27 Aug 2024 07:21:55 +0000 http://www.open-lab.net/zh-cn/blog/?p=11098 Continued]]> 這篇文章是關于構建多攝像頭追蹤視覺AI應用的系列文章中的第三篇。我們將在第一部分和第二部分中介紹整體端到端工作流程和微調流程,以提高系統準確性。 NVIDIA Metropolis 是一個應用框架和一套開發者工具,可利用 AI 進行各行各業的視覺數據分析。其多攝像頭追蹤參考 AI 工作流由云原生 NVIDIA Metropolis 微服務提供支持,可跨多個攝像頭實現高級物體追蹤和定位。本文討論了攝像頭校準、如何使用 NVIDIA Metropolis 攝像頭校準工具包校準真實攝像頭,以及如何使用 NVIDIA Omniverse 擴展程序校準合成攝像頭。 攝像頭校正是確定特定攝像頭參數或估計攝像頭特征的過程。攝像頭校正可以將攝像頭在 2D 中看到的內容轉換為真實的坐標系統,它是許多基于視覺的應用程序的基礎。例如,在創建多攝像頭跟蹤應用程序時,

Source

]]>
11098
使用 Co-Visitation 矩陣和 RAPIDS cuDF 構建高效的推薦系統 http://www.open-lab.net/zh-cn/blog/build-efficient-recommender-systems-with-co-visitation-matrices-and-rapids-cudf/ Wed, 21 Aug 2024 08:52:55 +0000 http://www.open-lab.net/zh-cn/blog/?p=11001 Continued]]> 推薦系統在跨各種平臺實現個性化用戶體驗方面發揮著至關重要的作用。這些系統旨在根據用戶過去的行為和偏好預測和推薦用戶可能與之交互的商品。構建有效的推薦系統需要理解和利用龐大、復雜的數據集,這些數據集可捕獲用戶和商品之間的交互。 本文將向您展示如何基于共訪問矩陣構建簡單而強大的推薦系統。構建共訪問矩陣的主要挑戰之一是處理大型數據集時涉及的計算復雜性。使用像 pandas 等庫的傳統方法效率低下且速度緩慢,尤其是在處理數百萬甚至數十億次交互時。這正是 RAPIDS cuDF 的用武之地。RAPIDS cuDF 是一個 GPU DataFrame 庫,提供了類似 pandas 的 API,用于加載、過濾和操作數據。 推薦系統是一種機器學習算法,旨在為用戶提供個性化建議或推薦。這些系統用于各種應用,包括電子商務(Amazon、OTTO)、內容流式傳輸(Netflix、Spotify)、

Source

]]>
11001
AI 賦能的購物顧問帶來個性化零售體驗 http://www.open-lab.net/zh-cn/blog/deliver-personalized-retail-experiences-with-an-ai-powered-shopping-advisor/ Thu, 01 Aug 2024 05:49:03 +0000 http://www.open-lab.net/zh-cn/blog/?p=10942 Continued]]> 想象一下,在每次互動中,您都能讓最優秀的銷售人員站在每位客戶面前。您的最優秀的銷售人員會提供產品推薦和操作方法指導,并解釋客戶可能沒有考慮過的相關產品。 本文中介紹的 NVIDIA 零售購物顧問是一種預構建的端到端 AI 工作流程。它提供了一個參考設計,演示如何開發具有大型語言模型(LLMs)的檢索增強生成(RAG)應用程序,該應用程序可以提取產品目錄數據,并使用一些最新的生成式 AI 功能提供差異化體驗,為客戶的查詢和推薦請求提供符合上下文準確且類似人類的答案。 此零售購物顧問 AI 工作流程為企業提供了從試點到實現商業價值的快速先進的方法。它包括一切所需的元素,以創建對話式、精確和準確的消費者購物體驗。 零售購物顧問參考架構包含一個 RAG 模型,該模型可以在回答客戶問題時利用最新的產品數據。此外,還包含來自 NVIDIA Employee Gear…

Source

]]>
10942
在 cuBLAS 中引入分組 GEMM API 以及更多性能更新 http://www.open-lab.net/zh-cn/blog/introducing-grouped-gemm-apis-in-cublas-and-more-performance-updates/ Wed, 12 Jun 2024 05:43:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=10332 Continued]]> 最新版本 NVIDIA cuBLAS 庫版本 12.5 將繼續為深度學習(DL)和高性能計算(HPC)工作負載提供功能和性能。本文將概述自版本 12.0以來 cuBLAS 矩陣乘法(matrix multiplications)中的以下更新: 分組的 GEMM API 可視為批量 API 的泛化,可在一次內核啟動中對不同的矩陣大小、轉置和縮放因子進行分組和并行化。 這種方法提供加速的一個示例是多專家 (MoE)模型的批量大小為 8 和 64,以及 FP16 輸入和輸出。在本示例中,分組的 GEMM API 可以使用批量 GEMM API 實現比單純循環快 1.2 倍的速度。 這一點令人印象深刻,因為當前分組的 GEMM 核函數僅利用線程束級 MMA 指令。它們已證明可以與利用線程束級 MMA (wgmma) 指令的分批 GEMM 核函數進行競爭。

Source

]]>
10332
人人超碰97caoporen国产