Apache Spark – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 22 May 2025 07:09:13 +0000
zh-CN
hourly
1
196178272 -
聚焦:Atgenomix SeqsLab 提升健康組學分析以支持精準醫療
http://www.open-lab.net/zh-cn/blog/spotlight-atgenomix-seqslab-scales-health-omics-analysis-for-precision-medicine/
Mon, 19 May 2025 05:31:48 +0000
http://www.open-lab.net/zh-cn/blog/?p=13926
Continued]]>
在傳統的臨床醫學實踐中,治療決策通常基于一般準則、以往經驗和試錯方法。如今,隨著電子病歷 (EMRs) 和基因組數據的訪問, 精準醫療 的新時代正在興起,即以前所未有的準確性為單個患者量身定制治療方法。精準醫療是一種創新的醫療保健方法,通過考慮基因組中的個體可變性來定制疾病預防和治療。 本文將探討 Atgenomix SeqsLab 平臺如何使用 NVIDIA Parabricks 和 RAPIDS Accelerator for Apache Spark (Spark-RAPIDS) 來集成健康組學見解或大規模生物數據。這種集成使精準醫療的應用范圍更廣,超越理論,走向實用、廣泛的臨床應用。 EMR 與基因組測序和其他健康組學數據的集成具有極高的計算要求。單個全基因組測序 (WGS) 數據集的每個患者容量可超過 300 GB,并且與蛋白質組學、
Source
]]>
13926
-
使用 GPU 預測 Apache Spark 的性能
http://www.open-lab.net/zh-cn/blog/predicting-performance-on-apache-spark-with-gpus/
Thu, 15 May 2025 07:04:19 +0000
http://www.open-lab.net/zh-cn/blog/?p=13975
Continued]]>
大數據分析領域正在不斷尋找加速處理和降低基礎設施成本的方法。Apache Spark 已成為用于橫向擴展分析的領先平臺,可處理 ETL、機器學習和深度學習工作負載的大型數據集。雖然傳統上基于 CPU,但 GPU 加速的出現提供了一個令人信服的前景:顯著加速數據處理任務。 但是,將 Spark 工作負載從 CPU 遷移到 GPU 并非易事。GPU 加速雖然對某些操作非常強大,但不一定能提高每個場景中的性能。小型數據集、大量數據移動以及使用用戶定義函數 (User-Defined Functions, UDFs) 等因素有時會對 GPU 性能產生負面影響。相反,涉及高基數數據的工作負載,例如連接、聚合、排序、窗口操作和轉碼任務 (例如編碼/壓縮 Apache Parquet 或 Apache ORC 或解析 CSV) 通常是 GPU 加速的積極指標。
Source
]]>
13975
-
云端 Apache Spark 加速深度學習和大語言模型推理
http://www.open-lab.net/zh-cn/blog/accelerate-deep-learning-and-llm-inference-with-apache-spark-in-the-cloud/
Thu, 08 May 2025 06:18:25 +0000
http://www.open-lab.net/zh-cn/blog/?p=13821
Continued]]>
Apache Spark 是用于大數據處理和分析的行業領先平臺。隨著非結構化數據(documents、emails、multimedia content)的日益普及,深度學習 (DL) 和大語言模型 (LLMs) 已成為現代數據分析工作流的核心組成部分。這些模型支持各種下游任務,例如圖像描述、語義標記、文檔摘要等。 然而,將 GPU 密集型 DL 與 Spark 相結合一直是一項挑戰。 NVIDIA RAPIDS Accelerator for Apache Spark 和 Spark RAPIDS ML 庫可實現無縫 GPU 加速,但主要用于提取、轉換和加載 (ETL) 以及傳統機器學習 (ML) 工作負載。 最近用于分布式訓練和推理的 Spark API (如上一篇博客中所述) 在 DL 集成方面取得了重大進展。本文以這項工作為基礎,
Source
]]>
13821
-
使用 GPU 加速 Apache Spark 上的 Apache Parquet 掃描
http://www.open-lab.net/zh-cn/blog/accelerating-apache-parquet-scans-on-apache-spark-with-gpus/
Thu, 03 Apr 2025 06:40:51 +0000
http://www.open-lab.net/zh-cn/blog/?p=13530
Continued]]>
隨著各行各業企業的數據規模不斷增長, Apache Parquet 已成為一種重要的數據存儲格式。Apache Parquet 是一種列式存儲格式,專為大規模高效數據處理而設計。通過按列 (而非行) 組織數據,Parquet 可實現高性能查詢和分析,因為它可以只讀取查詢所需的列,而無需掃描整行數據。Parquet 的高效數據布局使其成為現代分析生態系統中的熱門選擇,特別是在 Apache Spark 工作負載方面。 基于 cuDF 構建的 RAPIDS Accelerator for Apache Spark 支持 Parquet 作為一種數據格式,用于在 GPU 上以加速方式讀取和寫入數據。對于許多數據輸入大小以 TB 為單位的大規模 Spark 工作負載,高效的 Parquet 掃描對于實現良好的運行時性能至關重要。 在本文中,
Source
]]>
13530
-
在 NVIDIA Grace CPU 上使用 Polars 和 Apache Spark 實現高效 ETL
http://www.open-lab.net/zh-cn/blog/efficient-etl-with-polars-and-apache-spark-on-nvidia-grace-cpu/
Tue, 11 Mar 2025 06:37:40 +0000
http://www.open-lab.net/zh-cn/blog/?p=13354
Continued]]>
NVIDIA Grace CPU 超級芯片可為數據中心和云端的 CPU 工作負載提供出色的性能和出色的能效。NVIDIA Grace 的優勢包括高性能 Arm Neoverse V2 核心、NVIDIA 設計的快速可擴展一致性結構(Scalable Coherency Fabric)以及低功耗高帶寬 LPDDR5X 內存。 這些功能使 Grace CPU 成為處理 提取、加載、轉換 (ETL) 工作負載的理想選擇,展現出出色的性能。ETL 工作負載是在線分析處理 (OLAP) 和商業智能 (BI) 工作流的關鍵組成部分,使企業能夠獲得見解并改進組織決策制定。 本文介紹了 NVIDIA Grace CPU 如何提供解決方案,在不影響性能的情況下,在單節點 Polars 和多節點 Apache Spark 上運行 ETL 工作負載時降低功耗。
Source
]]>
13354
-
在 NVIDIA GPU 上無需更改代碼即可加速 Apache Spark ML
http://www.open-lab.net/zh-cn/blog/accelerate-apache-spark-ml-on-nvidia-gpus-with-zero-code-change/
Thu, 06 Mar 2025 05:26:23 +0000
http://www.open-lab.net/zh-cn/blog/?p=13128
Continued]]>
適用于 Apache Spark 軟件插件的 NVIDIA RAPIDS 加速器 開創了零代碼更改用戶體驗 (UX),可用于 GPU 加速數據處理。無需更改查詢或源代碼,即可將 NVIDIA GPU 上基于 Apache Spark SQL 和 DataFrame 的現有應用程序加速 9 倍以上。 這催生了新的 Spark RAPIDS ML Python 庫,可將應用程序的速度提高 100 多倍,同時還調用了 Apache Spark 的可擴展機器學習庫 MLlib 。 直到最近,Spark RAPIDS ML 的 MLlib 加速仍需要稍作修改,才能讓 Python 使用加速實現。具體來說,您需要在希望加速的 ML 類的 Python 導入語句中,將 替換為 。例如,要使用加速的 KMeans 而不是基準 KMeans,
Source
]]>
13128
-
使用 GPU 在 Apache Spark 上加速 JSON 處理
http://www.open-lab.net/zh-cn/blog/accelerating-json-processing-on-apache-spark-with-gpus/
Wed, 29 Jan 2025 05:26:22 +0000
http://www.open-lab.net/zh-cn/blog/?p=12910
Continued]]>
JSON 是一種熱門的文本數據格式,可實現 Web 應用程序中系統之間的互操作性以及數據管理。這種格式自 21 世紀初就已存在,源于 Web 服務器和瀏覽器之間的通信需求。標準 JSON 格式由可包含嵌套對象的鍵值對組成。JSON 在存儲 Web 事務信息方面的使用有所增長,并且可能包含非常大的值,有時每條記錄的大小超過 1 GB。首先,解析和驗證 JSON 不是與 GPU 加速相關的任務,因為文本格式的大小不規則,并且沒有默認順序。但是,隨著 JSON 在許多企業數據應用程序中的使用,對加速的需求也在增長。 對于《財富》100 強零售公司而言,使用 JSON 格式存儲基本庫存數據。JSON 格式支持與產品分類和庫存相關的非結構化數據。針對點擊流數據的 JSON 處理包括在單個 Spark 工作負載中處理數十 TB 的 JSON 數據的大型查詢。
Source
]]>
12910
-
通過五門新的 NVIDIA 技術課程提升您的技能
http://www.open-lab.net/zh-cn/blog/level-up-your-skills-with-five-new-nvidia-technical-courses/
Fri, 14 Jun 2024 09:14:20 +0000
http://www.open-lab.net/zh-cn/blog/?p=10478
Continued]]>
隨著人工智能以前所未有的速度引入技術創新,保持領先意味著保持你的技能與時俱進。NVIDIA 開發者計劃為您提供所需的工具、培訓和資源,以便您在各個行業取得最新進展:NVIDIA 開發者計劃。 我們很高興地宣布 NVIDIA 推出以下五門新技術課程。立即加入開發者計劃,現在可以親身體驗NVIDIA GTC展示的開發者工具,新會員可以免費申請一門課程。 構建和執行端到端 GPU 加速的數據科學工作流,使您能夠快速探索、迭代并將工作投入生產。使用 RAPIDS 加速的數據科學庫,您將應用各種 GPU 加速的機器學習算法和邏輯回歸來大規模執行數據分析。 通過參加本課程,您將學習如何: 利用 NVIDIA GPU 和 Apache Spark 來加快工作負載并降低成本。? 通過參加本課程,您將學習如何: 轉換器被用作大語言模型(LLM)的構建塊。
Source
]]>
10478
-
借助 RAPIDS 和 Prometheux Vadalog Parallel 加速神經符號 AI
http://www.open-lab.net/zh-cn/blog/accelerating-neurosymbolic-ai-with-rapids-and-vadalog-parallel/
Thu, 09 Nov 2023 07:48:30 +0000
http://www.open-lab.net/zh-cn/blog/?p=8278
Continued]]>
隨著可用數據規模的不斷增長,對可擴展的智能數據處理系統的需求也在不斷增長,以快速利用有用的知識。尤其是在生命科學和金融等高風險領域,數據驅動流程的可擴展性和透明度對于確保高度可信賴至關重要。 Prometheux 是一家 NVIDIA 初創加速計劃公司,由來自牛津大學知識圖譜實驗室和維也納工業大學的科學家創立,致力于構建能夠解釋其精確邏輯過程的 AI.從 AstraZeneca 的藥物再利用到意大利中央銀行應用研究團隊的金融數據處理,Prometheux 技術為一些世界上最大的知識圖提供高度可擴展和可解釋的推理。 Prometheux 已利用 NVIDIA GPU無縫集成 適用于 Apache Spark 的 RAPIDS 加速器 到他們專有的知識圖管理系統 Vadalog 并行處理引擎。在處理包含數億實體和數十億關系的大型知識圖時,他們為客戶實現了顯著的加速并節省了成本。
Source
]]>
8278
-
使用 Spark RAPID ML 庫中的新算法降低 Apache Spark ML 計算成本
http://www.open-lab.net/zh-cn/blog/reduce-apache-spark-ml-compute-costs-with-new-algorithms-in-spark-rapids-ml-library/
Tue, 24 Oct 2023 05:47:26 +0000
http://www.open-lab.net/zh-cn/blog/?p=8047
Continued]]>
Spark RAPID ML 是一個開源 Python 包,它可以使 NVIDIA GPU 加速 PySpark MLlib。它提供了與 PySpark MLlib DataFrame API 兼容,并在使用支持的算法進行訓練時加速。想要了解更多信息,請查看 新的 GPU 庫降低 Apache Spark ML 的計算成本。 PySpark MLlib DataFrame API 的兼容性意味著它可以更容易地融入現有的 PySpark ML 應用程序,最多只需更改包導入。K-means 算法如下所示。更改包導入是使用此庫啟用 GPU 加速所需的唯一額外步驟。 在 GPU 加速的 Databricks 的 AWS 托管 Spark 服務上,在三節點 Spark 集群中運行的基準測試套件中使用支持的算法進行培訓,
Source
]]>
8047
-
GPU 用于 ETL?為 Apache Spark SQL 操作進行 ETL 體系結構優化
http://www.open-lab.net/zh-cn/blog/gpus-for-etl-optimizing-etl-architecture-for-apache-spark-sql-operations/
Wed, 06 Sep 2023 05:16:20 +0000
http://www.open-lab.net/zh-cn/blog/?p=7766
Continued]]>
使用 GPU 進行提取、轉換和加載(ETL)操作的 NVIDIA RAPIDS Accelerator for Apache Spark 可以在大規模數據上運行,從而節省成本并提高性能。我們在上一篇文章 “GPUs for ETL? Run Faster, Less Costly Workloads with NVIDIA RAPIDS Accelerator for Apache Spark and Databricks” 中展示了這一點。在這篇文章中,我們深入了解了哪一個 Apache Spark SQL 操作對于給定的處理體系結構是加速的。 這篇文章是關于 GPU 和提取轉換加載(ETL)操作的系列文章的一部分. 是否應將所有 ETL 遷移到 GPU ?或者,評估哪種處理體系結構最適合特定的 Spark SQL 操作有好處嗎? CPU 針對順序處理進行了優化,
Source
]]>
7766
-
GPU 用于 ETL ?使用 NVIDIA RAPIDS 加速器為 Apache Spark 和 Databricks 運行更快、成本更低的工作負載
http://www.open-lab.net/zh-cn/blog/gpus-for-etl-run-faster-less-costly-workloads-with-nvidia-rapids-accelerator-for-apache-spark-and-databricks/
Mon, 17 Jul 2023 06:02:56 +0000
http://www.open-lab.net/zh-cn/blog/?p=7447
Continued]]>
我們被卡住了。真的卡住了。隨著艱難的交付截止日期的臨近,我們的團隊需要弄清楚如何在幾個小時內處理數萬億銷售點交易記錄的復雜提取轉換負載( ETL )工作。這項工作的結果將為一系列下游機器學習( ML )模型提供信息,這些模型將為全球零售商做出關鍵的零售分類分配決策。這些模型需要在真實的事務數據上進行測試和驗證。 然而,到目前為止,還沒有一個 ETL 作業完成。每次測試運行都需要幾天的處理時間,所有測試都必須在完成前終止。 使用 NVIDIA RAPIDS Accelerator for Apache CPU ,與在 Spark 上使用 Spark 的傳統方法相比,我們觀察到運行時間顯著加快,并節省了額外的成本。讓我們后退一點。 凱捷的人工智能與分析實踐是一個數據科學團隊,提供定制的、平臺無關的和語言無關的解決方案,這些解決方案涵蓋了數據科學的全部范疇,
Source
]]>
7447
-
使用 Spark 3.4 簡化分布式深度學習
http://www.open-lab.net/zh-cn/blog/distributed-deep-learning-made-easy-with-spark-3-4/
Mon, 12 Jun 2023 05:23:45 +0000
http://www.open-lab.net/zh-cn/blog/?p=7219
Continued]]>
Apache Spark是一個業界領先的平臺,用于大規模數據的分布式提取、轉換和加載( ETL )工作負載。隨著深度學習( DL )的發展,許多 Spark 從業者試圖將 DL 模型添加到他們的數據處理管道中,以涵蓋各種用例,如銷售預測、內容推薦、情緒分析和欺詐檢測。 然而,結合 DL 培訓和推理,從歷史上看,大規模數據一直是 Spark 用戶面臨的挑戰。大多數 DL 框架都是為單節點環境設計的,它們的分布式訓練和推理 API 通常是經過深思熟慮后添加的。 為了解決單節點 DL 環境和大規模分布式環境之間的脫節,有多種第三方解決方案,如 Horovod-on-Spark、TensorFlowOnSpark 和 SparkTorch,但由于這些解決方案不是在 Spark 中本地構建的,因此用戶必須根據自己的需求評估每個平臺。 隨著 Spark 3.4 的發布,
Source
]]>
7219
-
GPU 集成為 Taboola 帶來數據中心效率和成本節約
http://www.open-lab.net/zh-cn/blog/gpu-integration-propels-data-center-efficiency-and-cost-savings-for-taboola/
Fri, 02 Jun 2023 07:24:56 +0000
http://www.open-lab.net/zh-cn/blog/?p=7175
Continued]]>
當您在網頁上看到與上下文相關的廣告時,它很可能是由 Taboola 數據管道提供的內容。作為世界領先的內容推薦公司, Taboola 面臨的一大挑戰是經常需要擴展 Apache Spark CPU 集群容量,以滿足不斷增長的計算和存儲需求。 數據中心容量和硬件成本總是面臨壓力。 是什么導致了擴展挑戰? Taboola 使用一個復雜的數據管道,從用戶瀏覽器或移動設備延伸到多個數據中心。部署了復雜的深度學習算法、數據庫、基礎設施服務(如 Apache Kafka )和數千臺服務器,為世界各地的用戶提供最合適的廣告。 這篇文章描述了 Taboola 加入 RAPIDS Apache 加速器 Spark 以優化處理成本的動機,以及對遷移過程、挑戰和迄今為止吸取的經驗教訓的見解 要計劃解決方案,您必須充分了解問題的嚴重性。在提供廣告內容時,
Source
]]>
7175
-
新的 GPU 庫降低了 Apache Spark ML 的計算成本
http://www.open-lab.net/zh-cn/blog/new-gpu-library-lowers-compute-costs-for-apache-spark-ml/
Tue, 18 Apr 2023 03:24:38 +0000
http://www.open-lab.net/zh-cn/blog/?p=6726
Continued]]>
Spark MLlib是Apache Spark用于大規模machine learning并且提供了許多流行的機器學習算法的內置實現。這些實現創建于十年前,但沒有利用現代計算加速器,如 NVIDIA GPU 。 為了解決這一差距,我們最近開源了 Spark RAPIDS ML(NVIDIA/spark-rapids-ml) ,一個 Python 包,為 Py Spark ML 應用程序提供 GPU 加速。通過這樣做,我們實現了以下關鍵目標: 您可以從NVIDIA/spark-rapids-mlApache v2 許可證下的 GitHub 存儲庫。初始版本為以下 Spark ML 算法提供了 GPU 加速度: 該版本還包括以下內容的 Spark ML API 兼容版本: 我們之所以最初選擇算法,是因為我們的第三個目標:盡可能使用現有的 NVIDIA 加速 ML 庫。
Source
]]>
6726
人人超碰97caoporen国产