劉仕杰 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 19 Jun 2025 05:31:31 +0000 zh-CN hourly 1 196178272 NVIDIA recsys-examples: 生成式推薦系統大規模訓練推理的高效實踐(上篇) http://www.open-lab.net/zh-cn/blog/nvidia-recsys-generative-recommenders-1/ Thu, 19 Jun 2025 04:40:47 +0000 http://www.open-lab.net/zh-cn/blog/?p=14326 Continued]]> 在生成式 AI 浪潮的推動下,推薦系統領域正經歷深刻變革。傳統的深度學習推薦模型(DLRMs)雖已展現出一定效果,但在捕捉用戶興趣偏好和動態行為序列變化時,常面臨可擴展性挑戰。生成式推薦系統(Generative Recommenders, GRs)的出現,為這一領域帶來了全新思路與機遇。本文將介紹 NVIDIA recsys-examples 中針對生成式推薦場景設計的高效實踐參考。博客內容共分為上下兩篇,本篇將整體介紹 recsys-examples 的設計和功能,下篇將對核心模塊進行深入的解析。 GitHub repo: https://github.com/NVIDIA/recsys-examples Meta Research 的最新研究表明,生成式推薦系統通過將推薦問題重構為生成式建模框架下的序列 transduction 任務,展現出顯著優勢:

Source

]]>
14326
RecSys ’24: 使用 EMBark 進行大規模推薦系統訓練 Embedding 加速 http://www.open-lab.net/zh-cn/blog/recsys24-embark-embedding-acceleration/ Mon, 04 Nov 2024 06:42:52 +0000 http://www.open-lab.net/zh-cn/blog/?p=11801 Continued]]> 推薦系統是互聯網行業的核心系統,如何高效訓練推薦系統是各公司關注的核心問題。目前,推薦系統基本上都是基于深度學習的大規模 ID 類模型,模型包含數十億甚至數百億級別的 ID 特征,典型結構如圖 1 所示。 圖1. 典型 DLRM 模型結構圖 近年來,以 NVIDIA Merlin HugeCTR 和 TorchRec 為代表的 GPU 解決方案,通過將大規模 ID 類特征的 embedding 存放在 GPU 上,并對 embedding 進行模型并行處理,將其分片到不同 GPU 上,利用 GPU 內存帶寬優勢,大幅加速了深度推薦系統模型的訓練,相較于 CPU 方案有顯著提升。 同時,隨著訓練集群 GPU 使用數量增加(從 8 個 GPU 增加到 128 個 GPU),我們也發現,embedding 部分通信開銷占整個訓練開銷比例越來越大。

Source

]]>
11801
人人超碰97caoporen国产