推薦系統/個性化 – NVIDIA 技術博客

推薦系統/個性化 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞和內容。 Thu, 12 Dec 2024 04:08:01 +0000 zh-CN hourly 1 196178272 RecSys ’24: 使用 EMBark 進行大規模推薦系統訓練 Embedding 加速 http://www.open-lab.net/zh-cn/blog/recsys24-embark-embedding-acceleration/ Mon, 04 Nov 2024 06:42:52 +0000 http://www.open-lab.net/zh-cn/blog/?p=11801 Continued]]> 推薦系統是互聯網行業的核心系統，如何高效訓練推薦系統是各公司關注的核心問題。目前，推薦系統基本上都是基于深度學習的大規模 ID 類模型，模型包含數十億甚至數百億級別的 ID 特征，典型結構如圖 1 所示。圖1. 典型 DLRM 模型結構圖近年來，以 NVIDIA Merlin HugeCTR 和 TorchRec 為代表的 GPU 解決方案，通過將大規模 ID 類特征的 embedding 存放在 GPU 上，并對 embedding 進行模型并行處理，將其分片到不同 GPU 上，利用 GPU 內存帶寬優勢，大幅加速了深度推薦系統模型的訓練，相較于 CPU 方案有顯著提升。同時，隨著訓練集群 GPU 使用數量增加（從 8 個 GPU 增加到 128 個 GPU），我們也發現，embedding 部分通信開銷占整個訓練開銷比例越來越大。

]]>

11801

NVIDIA 加速庫助力 Microsoft Bing 視覺搜索性能優化 http://www.open-lab.net/zh-cn/blog/optimizing-microsoft-bing-visual-search-with-nvidia-accelerated-libraries/ Mon, 07 Oct 2024 08:04:27 +0000 http://www.open-lab.net/zh-cn/blog/?p=11459 Continued]]> Microsoft Bing 視覺搜索使全球用戶能夠使用照片作為查詢來查找內容。該功能的核心是 Microsoft 的 TuringMM 視覺嵌入模型，該模型可將圖像和文本映射到共享的高維空間中。在對網上數十億張圖像進行操作時，性能至關重要。本文詳細介紹了使用 NVIDIA TensorRT 和 NVIDIA 加速庫 (如 CV-CUDA 和 nvImageCodec) 優化 TuringMM 工作流的工作。這些工作將速度提高了 5.13 倍，并顯著降低了總體擁有成本（TCO）。我們分享了我們如何與 Microsoft Bing 團隊合作，解決其核心嵌入工作流的優化問題，從而為互聯網規模的視覺搜索提供支持。 Microsoft Bing 多媒體的博士生、高級數據和應用科學家 Andrew Stewart 表示：

]]>

11459

使用 Co-Visitation 矩陣和 RAPIDS cuDF 構建高效的推薦系統 http://www.open-lab.net/zh-cn/blog/build-efficient-recommender-systems-with-co-visitation-matrices-and-rapids-cudf/ Wed, 21 Aug 2024 08:52:55 +0000 http://www.open-lab.net/zh-cn/blog/?p=11001 Continued]]> 推薦系統在跨各種平臺實現個性化用戶體驗方面發揮著至關重要的作用。這些系統旨在根據用戶過去的行為和偏好預測和推薦用戶可能與之交互的商品。構建有效的推薦系統需要理解和利用龐大、復雜的數據集，這些數據集可捕獲用戶和商品之間的交互。本文將向您展示如何基于共訪問矩陣構建簡單而強大的推薦系統。構建共訪問矩陣的主要挑戰之一是處理大型數據集時涉及的計算復雜性。使用像 pandas 等庫的傳統方法效率低下且速度緩慢，尤其是在處理數百萬甚至數十億次交互時。這正是 RAPIDS cuDF 的用武之地。RAPIDS cuDF 是一個 GPU DataFrame 庫，提供了類似 pandas 的 API，用于加載、過濾和操作數據。推薦系統是一種機器學習算法，旨在為用戶提供個性化建議或推薦。這些系統用于各種應用，包括電子商務（Amazon、OTTO）、內容流式傳輸（Netflix、Spotify）、

]]>

11001

AI 賦能的購物顧問帶來個性化零售體驗 http://www.open-lab.net/zh-cn/blog/deliver-personalized-retail-experiences-with-an-ai-powered-shopping-advisor/ Thu, 01 Aug 2024 05:49:03 +0000 http://www.open-lab.net/zh-cn/blog/?p=10942 Continued]]> 想象一下，在每次互動中，您都能讓最優秀的銷售人員站在每位客戶面前。您的最優秀的銷售人員會提供產品推薦和操作方法指導，并解釋客戶可能沒有考慮過的相關產品。本文中介紹的 NVIDIA 零售購物顧問是一種預構建的端到端 AI 工作流程。它提供了一個參考設計，演示如何開發具有大型語言模型（LLMs）的檢索增強生成（RAG）應用程序，該應用程序可以提取產品目錄數據，并使用一些最新的生成式 AI 功能提供差異化體驗，為客戶的查詢和推薦請求提供符合上下文準確且類似人類的答案。此零售購物顧問 AI 工作流程為企業提供了從試點到實現商業價值的快速先進的方法。它包括一切所需的元素，以創建對話式、精確和準確的消費者購物體驗。零售購物顧問參考架構包含一個 RAG 模型，該模型可以在回答客戶問題時利用最新的產品數據。此外，還包含來自 NVIDIA Employee Gear…

]]>

10942

使用 OpenUSD 將 Microsoft XLS 和 PPT 文件轉換為工廠數字孿生 http://www.open-lab.net/zh-cn/blog/transforming-microsoft-xls-and-ppt-files-into-a-factory-digital-twin-with-openusd/ Wed, 26 Jun 2024 04:53:17 +0000 http://www.open-lab.net/zh-cn/blog/?p=10423 Continued]]> SyncTwin GmbH是一家構建軟件以優化生產、內部物流和組裝的公司，其使命是為中小型企業解鎖工業數字孿生。雖然 SyncTwin 通過數字孿生幫助寶馬等全球大公司最大限度地減少了工廠的成本和停機時間，現在他們正在將重點轉移到那些沒有強大的 IT 部門和數字化資源的制造業業務。為了滿足這些企業的需求，SyncTwin 在NVIDIA Omniverse上開發了一款應用程序，該應用程序使用通用場景描述（OpenUSD），使其客戶能夠使用 Microsoft PowerPoint、Excel、PDF 和其他非 3D 數據格式的數據創建其設施的數字孿生為了使這項技術在廣泛的技術層面上都能使用，他們正在集成生成人工智能，以便客戶能夠通過簡單的文本提示創建和修改數字孿生。 SyncTwin 應用程序還使用NVIDIA cuOpt加速優化引擎，以顯著提高工廠和倉庫運營的效率。

]]>

10423

革命性的圖形分析： NVIDIA cuGraph 加速的下一代架構 http://www.open-lab.net/zh-cn/blog/revolutionizing-graph-analytics-next-gen-architecture-with-nvidia-cugraph-acceleration/ Thu, 09 May 2024 07:35:09 +0000 http://www.open-lab.net/zh-cn/blog/?p=10041 Continued]]> 在我們的先前的圖分析探索中，我們使用 NVIDIA cuGraph 揭示了 GPU-CPU 融合的變革力量。基于這些見解，我們現在引入了一種革命性的新架構，它重新定義了圖處理的邊界。在我們早期涉足圖形分析的過程中，我們在使用的架構方面面臨著各種挑戰。這種體系結構雖然有效，但也造成了阻礙設置和性能的障礙。這些依賴關系不僅使設置過程復雜化，而且對實現最佳性能也提出了挑戰。對共享磁盤基礎設施的需求，加上基于 Python 的服務和 Thrift 通信，造成了一個難以有效配置和擴展的系統。在我們尋求加速圖形分析的過程中，很明顯，范式轉變是必要的。進入下一代架構，這是一種革命性的方法，旨在克服前代架構的局限性，開啟圖形處理的新領域。讓我們詳細探討一下這一突破性的體系結構。在我們尋求徹底改變圖形分析的過程中，

]]>

10041

Amdocs 使用 NVIDIA NIM 加速生成式 AI 性能并降低成本 http://www.open-lab.net/zh-cn/blog/amdocs-accelerates-generative-ai-performance-and-lowers-costs-with-nvidia-nim/ Wed, 08 May 2024 06:03:15 +0000 http://www.open-lab.net/zh-cn/blog/?p=9839 Continued]]> 電信公司（telcos）正在利用生成人工智能，通過自動化流程、改善客戶體驗和優化網絡運營來提高員工生產力。 Amdocs 是一家領先的通信和媒體提供商軟件和服務提供商，為電信公司構建了 amAIz，這是一個特定領域的生成人工智能平臺，是一個開放、安全、經濟高效且與大型語言模型（LLM）無關的框架。Amdocs 正在利用 NVIDIA DGX Cloud 和 NVIDIA AI Enterprise 軟件，提供基于商用 LLM 的解決方案，以及適用于特定領域的模型，使服務提供商能夠構建和部署企業級生成人工智能應用程序。 Amdocs 也在使用 NVIDIA NIM，一組易于使用的推理微服務，旨在加速生成型人工智能在企業中的大規模部署。該多功能微服務支持來自開放社區模型和 NVIDIA AI Foundation 模型的 NVIDIA API 產品目錄中的模型，

]]>

9839

NVIDIA GTC 2024 的頂級數據科學會議現已按需提供 http://www.open-lab.net/zh-cn/blog/top-data-science-sessions-from-nvidia-gtc-2024-now-available-on-demand/ Mon, 29 Apr 2024 08:55:05 +0000 http://www.open-lab.net/zh-cn/blog/?p=9899 Continued]]> 在 GTC 2024 上， NVIDIA 的專家和我們的合作伙伴分享了有關 GPU 加速工具、優化和數據科學家最佳實踐的見解。從涵蓋各種主題的數百場會議中，我們精心挑選了您不想錯過的前三場數據科學會議。 RAPIDS 2024：無處不在的數據科學加速演講嘉賓： Dante Gama Dessavre，NVIDIA 機器學習工程經理： Nick Becker，NVIDIA 高級技術產品經理在這次演示中，我們的團隊宣布 RAPID 現在允許‌數據科學家可以訪問 GPU 加速，同時仍然可以使用您喜歡的工具進行數據幀、機器學習、圖形分析、矢量數據庫，甚至基于 LLM 的工作流。該團隊還介紹了如何利用加速計算的令人興奮的更新，以及 2024 年的 RAPID 路線圖。零代碼加速熊貓：使用 RAPIDS cuDF 實現高速更改主講人：Ashwin Srinath，

]]>

9899

現已推出：適用于 GNN 的 NVIDIA AI 加速 DGL 和 PyG 容器 http://www.open-lab.net/zh-cn/blog/available-now-nvidia-ai-accelerated-dgl-and-pyg-containers-for-gnns/ Fri, 08 Dec 2023 04:55:45 +0000 http://www.open-lab.net/zh-cn/blog/?p=8489 Continued]]> 從信用卡交易、社交網絡到推薦系統，再到生物學中的運輸網絡和蛋白質間的相互作用，圖形是建模和分析復雜連接的首選數據結構。圖形神經網絡 (GNN) 具有學習和推理圖形結構化數據的能力，已在各個領域成為改變游戲規則的技術。但是，發現這些圖形中隱藏的模式和寶貴見解可能具有挑戰性，尤其是在 GNN 的數據采樣和端到端訓練中。為了彌補這一差距，NVIDIA 推出了GNN 框架，這是專為 DGL 和 PyG 設計的容器，具備以下特點：本文概述了 NVIDIA 加速 DGL 和 PyG 容器的優勢，展示了客戶在生產環境中使用這些容器的方式，并提供了性能指標。深度圖形庫 (DGL) 是一款熱門的開源庫，它可以在現有的深度學習框架（如 PyTorch）上實現和訓練圖神經網絡 (GNN)。我們很高興地宣布，DGL 現已通過其他 NVIDIA 庫進行加速，

]]>

8489

借助 RAPIDS 和 Prometheux Vadalog Parallel 加速神經符號 AI http://www.open-lab.net/zh-cn/blog/accelerating-neurosymbolic-ai-with-rapids-and-vadalog-parallel/ Thu, 09 Nov 2023 07:48:30 +0000 http://www.open-lab.net/zh-cn/blog/?p=8278 Continued]]> 隨著可用數據規模的不斷增長，對可擴展的智能數據處理系統的需求也在不斷增長，以快速利用有用的知識。尤其是在生命科學和金融等高風險領域，數據驅動流程的可擴展性和透明度對于確保高度可信賴至關重要。 Prometheux 是一家 NVIDIA 初創加速計劃公司，由來自牛津大學知識圖譜實驗室和維也納工業大學的科學家創立，致力于構建能夠解釋其精確邏輯過程的 AI.從 AstraZeneca 的藥物再利用到意大利中央銀行應用研究團隊的金融數據處理，Prometheux 技術為一些世界上最大的知識圖提供高度可擴展和可解釋的推理。 Prometheux 已利用 NVIDIA GPU無縫集成適用于 Apache Spark 的 RAPIDS 加速器到他們專有的知識圖管理系統 Vadalog 并行處理引擎。在處理包含數億實體和數十億關系的大型知識圖時，他們為客戶實現了顯著的加速并節省了成本。

]]>

8278

借助 NVIDIA TensorRT，在 Stable Diffusion Web UI 中更快地生成圖像 http://www.open-lab.net/zh-cn/blog/unlock-faster-image-generation-in-stable-diffusion-web-ui-with-nvidia-tensorrt/ Tue, 17 Oct 2023 06:06:11 +0000 http://www.open-lab.net/zh-cn/blog/?p=8011 Continued]]> Stable Diffusion 是一款開源軟件，生成式人工智能基于圖像的模型，使用戶能夠生成包含簡單文本描述的圖像。它在開發者中越來越受歡迎，為熱門應用程序提供支持，例如 Wombo 和 Lensa。最終用戶通常通過將模型與用戶界面和一組工具打包在一起的發行版訪問模型。最流行的發行版是 Automatic 1111 Stable Diffusion Web UI。本文介紹了如何利用 NVIDIA TensorRT 可以將模型的性能提高一倍。它采用了一個使用 Automatic 1111 Stable Diffusion Web UI 的示例。 Stable Diffusion 是一種深度學習模型，它使用擴散過程根據輸入的文本和圖像生成圖像。雖然它可以成為增強創作者工作流程的有用工具，但該模型的計算量很大。在 CPU 等非專用硬件上，生成單批四張圖像需要幾分鐘時間，

]]>

8011

借助 GPU-CPU 融合大規模增強圖形分析，實現 100 倍性能 http://www.open-lab.net/zh-cn/blog/supercharge-graph-analytics-at-scale-with-gpu-cpu-fusion-for-100x-performance/ Fri, 13 Oct 2023 06:13:41 +0000 http://www.open-lab.net/zh-cn/blog/?p=8015 Continued]]> 圖形是許多現代數據和分析功能的基礎，可在不同的數據資產中查找人、地點、事物、事件和位置之間的關系。根據一項研究，到 2025 年，圖形技術將被用于 80% 的數據和分析創新，這將有助于促進跨組織的快速決策。在處理包含數百萬個節點的圖形時，CPU 上的 Louvain 等算法的執行時間可能長達幾個小時。這種長時間的處理時間不僅會影響開發者的工作效率，而且會導致總體性能結果欠佳。利用 GPU 的并行處理能力可以顯著縮短圖形訓練時間。基準測試結果表明，GPU 加速在將基于 CPU 的計算速度提高 100 倍以上方面具有巨大潛力。這種顯著的速度提升展示了將 GPU 集成到圖形分析 (graph analytics) 可以實現 100 倍的性能提升。這種顛覆性架構的核心是以下三個關鍵組件，每個組件都發揮著關鍵作用。

]]>

8015

加速向量搜索：RAPIDS RAFT IVF-Flat 近似算法 http://www.open-lab.net/zh-cn/blog/accelerated-vector-search-approximating-with-rapids-raft-ivf-flat/ Mon, 02 Oct 2023 04:45:11 +0000 http://www.open-lab.net/zh-cn/blog/?p=7963 Continued]]> 執行詳盡的精確 k 最近鄰 (kNN) 搜索，也稱為暴力搜索，成本高昂，并且它不能很好地擴展到更大的數據集。在向量搜索期間，暴力搜索需要計算每個查詢向量和數據庫向量之間的距離。對于常用的歐幾里德和余弦距離，計算任務等同于大型矩陣乘法。雖然 GPU 在執行矩陣乘法方面效率很高，但隨著數據量的增加，計算成本變得令人望而卻步。然而，許多應用程序不需要精確的結果，而是可以為了更快的搜索而犧牲一些準確性。當不需要精確的結果時，近似最近鄰 (ANN) 方法通常可以減少搜索期間必須執行的距離計算的數量。本文主要介紹了 IVF-Flat，這是 NVIDIA RAPIDS RAFT 中的一種方法。IVF-Flat 方法使用原始（即Flat）向量的倒排索引 (IVF)。此算法提供了簡單的調整手段，以減少整體搜索空間并在準確性和速度之間進行權衡。為了幫助您了解如何使用 IVF-Flat，

]]>

7963

加速矢量搜索：利用 GPU 索引的 RAPIDS RAFT http://www.open-lab.net/zh-cn/blog/accelerating-vector-search-using-gpu-powered-indexes-with-rapids-raft/ Mon, 11 Sep 2023 06:03:04 +0000 http://www.open-lab.net/zh-cn/blog/?p=7837 Continued]]> 在 2023 年的人工智能領域，矢量搜索成為最熱門的話題之一，因為它在大語言模型（LLM）和生成式人工智能中發揮了重要作用。語義矢量搜索實現了一系列重要任務，如檢測欺詐交易、向用戶推薦產品、使用上下文信息增強全文搜索以及查找潛在安全風險的參與者。數據量持續飆升，傳統的逐一比較的方法在計算上變得不可行。矢量搜索方法使用近似查找，這種查找更具可擴展性，可以更有效地處理大量數據。正如我們在這篇文章中所展示的，在 GPU 上加速矢量搜索不僅提供了更快的搜索時間，而且索引構建時間也可以更快。此帖子提供：本系列的第二篇文章深入探討了每一個 GPU 加速指數，并簡要解釋了算法的工作原理以及微調其行為的重要參數摘要。想要了解更多信息，請訪問加速向量搜索：微調 GPU 索引算法。圖 1 顯示了矢量搜索需要創建一個矢量索引，

]]>

7837

構建多語言推薦系統的專業提示 http://www.open-lab.net/zh-cn/blog/pro-tips-for-building-multilingual-recommender-systems/ Thu, 10 Aug 2023 05:18:27 +0000 http://www.open-lab.net/zh-cn/blog/?p=7615 Continued]]> 想象一下：你正在網上商店里瀏覽，尋找一雙完美的跑鞋。但是有成千上萬的選擇，你從哪里開始呢？突然，一個“為您推薦”區域吸引了你的眼球。你很感興趣，點擊一下，幾秒鐘內，就會出現一個根據你獨特喜好定制的跑鞋列表。就好像網站了解你的品味、需求和風格。歡迎來到推薦系統，這里尖端技術結合了數據分析，人工智能（AI），以及改變我們數字體驗的魔力。這篇文章深入探討了推薦系統的迷人領域，并探討了構建兩階段候選重新排序的建模方法。我提供了如何在代表性不足的語言中克服數據短缺的專業提示，以及如何實現這些最佳實踐的技術演練。對于每個用戶，推薦系統必須從可能數百萬個項目中預測出該用戶感興趣的幾個項目。這是一項艱巨的任務。一種強大的建模方法稱為兩階段候選重新排序。圖 1 顯示了這兩個階段。在第一階段，模型識別用戶可能感興趣的數百個候選項目。在第二階段，

]]>

7615

人人超碰97caoporen国产