Merlin – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 28 Nov 2024 08:32:58 +0000
zh-CN
hourly
1
196178272 -
使用 EMBark 加速大規模推薦系統嵌入式訓練優化
http://www.open-lab.net/zh-cn/blog/boost-large-scale-recommendation-system-training-embedding-using-embark/
Wed, 20 Nov 2024 08:27:41 +0000
http://www.open-lab.net/zh-cn/blog/?p=12179
Continued]]>
推薦系統是互聯網行業的核心,而高效地訓練這些系統對于各大公司來說是一個關鍵問題。大多數推薦系統是深度學習推薦模型(DLRMs),包含數十億甚至數百億個 ID 特征。圖 1 示出了一個典型的結構。 近年來, NVIDIA Merlin HugeCTR 和 TorchRec 等 GPU 解決方案通過在 GPU 上存儲大規模 ID 特征嵌入并對其進行并行處理,顯著加速了 DLRM 的訓練。與 CPU 解決方案相比,使用 GPU 內存帶寬可實現顯著改進。 與此同時,隨著訓練集群中使用的 GPU 數量增加(從 8 個 GPU 增加到 128 個 GPU),我們發現嵌入的通信開銷在總訓練開銷中占較大比例。在一些大規模訓練場景中(例如在 16 個節點上),它甚至超過了一半(51%)。 這主要有兩個原因: 1、隨著集群中 GPU 數量的增加,每個節點上的嵌入表數量逐漸減少,
Source
]]>
12179
-
RecSys ’24: 使用 EMBark 進行大規模推薦系統訓練 Embedding 加速
http://www.open-lab.net/zh-cn/blog/recsys24-embark-embedding-acceleration/
Mon, 04 Nov 2024 06:42:52 +0000
http://www.open-lab.net/zh-cn/blog/?p=11801
Continued]]>
推薦系統是互聯網行業的核心系統,如何高效訓練推薦系統是各公司關注的核心問題。目前,推薦系統基本上都是基于深度學習的大規模 ID 類模型,模型包含數十億甚至數百億級別的 ID 特征,典型結構如圖 1 所示。 圖1. 典型 DLRM 模型結構圖 近年來,以 NVIDIA Merlin HugeCTR 和 TorchRec 為代表的 GPU 解決方案,通過將大規模 ID 類特征的 embedding 存放在 GPU 上,并對 embedding 進行模型并行處理,將其分片到不同 GPU 上,利用 GPU 內存帶寬優勢,大幅加速了深度推薦系統模型的訓練,相較于 CPU 方案有顯著提升。 同時,隨著訓練集群 GPU 使用數量增加(從 8 個 GPU 增加到 128 個 GPU),我們也發現,embedding 部分通信開銷占整個訓練開銷比例越來越大。
Source
]]>
11801
-
借助最新 NVIDIA Merlin TensorFlow 插件實現大規模 Embedding 擴展
http://www.open-lab.net/zh-cn/blog/merlin-tensorflow-plugin-embedding-extension/
Wed, 24 Jul 2024 04:33:58 +0000
http://www.open-lab.net/zh-cn/blog/?p=10688
Continued]]>
通過封裝 NVIDIA Merlin HugeCTR,Sparse Operation Kit(以下簡稱 SOK)使得 TensorFlow用戶可以借助 HugeCTR 的一些相關特性和優化加速 GPU 上的分布式 Embedding訓練。 在以往文章中(Merlin HugeCTR Sparse Operation Kit 系列之一 – NVIDIA 技術博客, Merlin HugeCTR Sparse Operation Kit 系列之二 – NVIDIA 技術博客),我們對 HugeCTR SOK 的基本功能、性能、用法和原理做了詳細的介紹。近期 SOK 又發布了多個版本迭代,這篇博客對最新 v2.0 版本中的新特性 (尤其是動態Embedding 和在線訓練增量導出),用法進行了歸納總結和介紹,并在最后介紹了 SOK 在手機行業的應用案例。 圖 1.
Source
]]>
10688
-
NVIDIA Merlin 助力陌陌推薦業務實現高性能訓練優化
http://www.open-lab.net/zh-cn/blog/nvidia-merlin-momo-high-performance-training-optimization/
Thu, 09 Nov 2023 08:33:38 +0000
http://www.open-lab.net/zh-cn/blog/?p=8177
Continued]]>
本案例中,NVIDIA 團隊與陌陌推薦系統團隊深度合作,共同使用 NVIDIA GPU 和 Merlin 軟件解決方案替代其原有解決方案。 通過使用 Merlin TensorFlow Plugin (即 Sparse Operation Kit,SOK) 和 HierarchicalKV(HKV),相較于原方案在相同規模模型和 GPU 下,顯著提高了陌陌大規模深度多目標精排模型的訓練性能。在不影響模型效果的前提下,模型整體吞吐提升了 5 倍以上,再結合通信和 IO 等進一步優化后,極限情況下可以提升 12 倍吞吐。 客戶簡介 摯文集團于 2011 年成立,2014 年 12 月 11 日在美國納斯達克交易所掛牌上市(NASDAQ: MOMO),擁有陌陌、探探等多款手機應用,以及電影制作發行、節目制作等多元業務。陌陌是摯文集團于 2011 年 8…
Source
]]>
8177
-
使用 Milvus 和 NVIDIA Merlin 搭建高效推薦系統
http://www.open-lab.net/zh-cn/blog/efficient-vector-similarity-search-in-recommender-workflows-using-milvus-with-nvidia-merlin/
Thu, 02 Nov 2023 09:09:48 +0000
http://www.open-lab.net/zh-cn/blog/?p=8091
Continued]]>
如何搭建一個高效的推薦系統? 簡單來說,現代推薦系統由訓練/推理流水線(pipeline)組成,涉及數據獲取、數據預處理、模型訓練和調整檢索、過濾、排名和評分相關的超參數等多個階段。走遍這些流程之后,推薦系統能夠給出高度個性化的推薦結果,從而提升產品的用戶體驗。 為了方便大家對此進行深入了解,我們邀請到 NVIDIA Merlin 團隊,他們將詳細介紹推薦系統的上述多個階段的工作流程,以及推薦系統在電商、流媒體、社交媒體等多個行業領域的實踐和用例。 NVIDIA Merlin & Milvus 推薦系統 pipeline 中至關重要的一環便是為用戶檢索并找到最相關的商品。為了實現這一目標,通常會使用低維向量(embedding)表示商品,使用數據庫存儲及索引數據,最終對數據庫中數據進行近似最近鄰(ANN)搜索。這些向量表示是通過深度學習模型獲取的,
Source
]]>
8091
-
構建多語言推薦系統的專業提示
http://www.open-lab.net/zh-cn/blog/pro-tips-for-building-multilingual-recommender-systems/
Thu, 10 Aug 2023 05:18:27 +0000
http://www.open-lab.net/zh-cn/blog/?p=7615
Continued]]>
想象一下:你正在網上商店里瀏覽,尋找一雙完美的跑鞋。但是有成千上萬的選擇,你從哪里開始呢?突然,一個“為您推薦”區域吸引了你的眼球。你很感興趣,點擊一下,幾秒鐘內,就會出現一個根據你獨特喜好定制的跑鞋列表。就好像網站了解你的品味、需求和風格。 歡迎來到推薦系統,這里尖端技術結合了數據分析,人工智能(AI),以及改變我們數字體驗的魔力。 這篇文章深入探討了推薦系統的迷人領域,并探討了構建兩階段候選重新排序的建模方法。我提供了如何在代表性不足的語言中克服數據短缺的專業提示,以及如何實現這些最佳實踐的技術演練。 對于每個用戶,推薦系統必須從可能數百萬個項目中預測出該用戶感興趣的幾個項目。這是一項艱巨的任務。一種強大的建模方法稱為兩階段候選重新排序。 圖 1 顯示了這兩個階段。在第一階段,模型識別用戶可能感興趣的數百個候選項目。在第二階段,
Source
]]>
7615
-
NVIDIA 與 Snowflake 協作提升數據云 AI 能力
http://www.open-lab.net/zh-cn/blog/nvidia-and-snowflake-collaboration-boosts-data-cloud-ai-capabilities/
Tue, 27 Jun 2023 06:18:24 +0000
http://www.open-lab.net/zh-cn/blog/?p=7265
Continued]]>
NVIDIA 和 Snowflake 宣布建立新的合作伙伴關系,通過新的Snowpark Container Services(私有預覽),開發人員可以管理和部署容器化工作負載的運行時。客戶可以通過將 GPU 和 AI 的功能集成到 Snowflake 平臺中,增強 ML 性能并有效地微調 LLM 。他們可以利用 NVIDIA AI Enterprise 軟件套件,在安全且受管理的 Snowflake 平臺上實現這一目標。通過這種合作,客戶可以利用其寶貴的數據開發具有成本效益的人工智能應用程序。 隨著人工智能計劃的進展,為企業提供可信、可擴展的支持模型的需求對于確保人工智能項目保持正軌至關重要。為了支持構建人工智能應用程序, NVIDIA AI Enterprise 提供了簡化端到端人工智能管道的軟件,從數據準備到模型訓練,再到模擬和大規模部署。
Source
]]>
7265
人人超碰97caoporen国产