大數據& amp ;數據挖掘 – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 26 Oct 2023 06:02:01 +0000
zh-CN
hourly
1
196178272 -
使用 Spark RAPID ML 庫中的新算法降低 Apache Spark ML 計算成本
http://www.open-lab.net/zh-cn/blog/reduce-apache-spark-ml-compute-costs-with-new-algorithms-in-spark-rapids-ml-library/
Tue, 24 Oct 2023 05:47:26 +0000
http://www.open-lab.net/zh-cn/blog/?p=8047
Continued]]>
Spark RAPID ML 是一個開源 Python 包,它可以使 NVIDIA GPU 加速 PySpark MLlib。它提供了與 PySpark MLlib DataFrame API 兼容,并在使用支持的算法進行訓練時加速。想要了解更多信息,請查看 新的 GPU 庫降低 Apache Spark ML 的計算成本。 PySpark MLlib DataFrame API 的兼容性意味著它可以更容易地融入現有的 PySpark ML 應用程序,最多只需更改包導入。K-means 算法如下所示。更改包導入是使用此庫啟用 GPU 加速所需的唯一額外步驟。 在 GPU 加速的 Databricks 的 AWS 托管 Spark 服務上,在三節點 Spark 集群中運行的基準測試套件中使用支持的算法進行培訓,
Source
]]>
8047
-
使用 Spark 3.4 簡化分布式深度學習
http://www.open-lab.net/zh-cn/blog/distributed-deep-learning-made-easy-with-spark-3-4/
Mon, 12 Jun 2023 05:23:45 +0000
http://www.open-lab.net/zh-cn/blog/?p=7219
Continued]]>
Apache Spark是一個業界領先的平臺,用于大規模數據的分布式提取、轉換和加載( ETL )工作負載。隨著深度學習( DL )的發展,許多 Spark 從業者試圖將 DL 模型添加到他們的數據處理管道中,以涵蓋各種用例,如銷售預測、內容推薦、情緒分析和欺詐檢測。 然而,結合 DL 培訓和推理,從歷史上看,大規模數據一直是 Spark 用戶面臨的挑戰。大多數 DL 框架都是為單節點環境設計的,它們的分布式訓練和推理 API 通常是經過深思熟慮后添加的。 為了解決單節點 DL 環境和大規模分布式環境之間的脫節,有多種第三方解決方案,如 Horovod-on-Spark、TensorFlowOnSpark 和 SparkTorch,但由于這些解決方案不是在 Spark 中本地構建的,因此用戶必須根據自己的需求評估每個平臺。 隨著 Spark 3.4 的發布,
Source
]]>
7219
-
GPU 集成為 Taboola 帶來數據中心效率和成本節約
http://www.open-lab.net/zh-cn/blog/gpu-integration-propels-data-center-efficiency-and-cost-savings-for-taboola/
Fri, 02 Jun 2023 07:24:56 +0000
http://www.open-lab.net/zh-cn/blog/?p=7175
Continued]]>
當您在網頁上看到與上下文相關的廣告時,它很可能是由 Taboola 數據管道提供的內容。作為世界領先的內容推薦公司, Taboola 面臨的一大挑戰是經常需要擴展 Apache Spark CPU 集群容量,以滿足不斷增長的計算和存儲需求。 數據中心容量和硬件成本總是面臨壓力。 是什么導致了擴展挑戰? Taboola 使用一個復雜的數據管道,從用戶瀏覽器或移動設備延伸到多個數據中心。部署了復雜的深度學習算法、數據庫、基礎設施服務(如 Apache Kafka )和數千臺服務器,為世界各地的用戶提供最合適的廣告。 這篇文章描述了 Taboola 加入 RAPIDS Apache 加速器 Spark 以優化處理成本的動機,以及對遷移過程、挑戰和迄今為止吸取的經驗教訓的見解 要計劃解決方案,您必須充分了解問題的嚴重性。在提供廣告內容時,
Source
]]>
7175
人人超碰97caoporen国产