加速數據分析 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Fri, 11 Apr 2025 06:44:05 +0000 zh-CN hourly 1 196178272 使用 GPU 加速 Apache Spark 上的 Apache Parquet 掃描 http://www.open-lab.net/zh-cn/blog/accelerating-apache-parquet-scans-on-apache-spark-with-gpus/ Thu, 03 Apr 2025 06:40:51 +0000 http://www.open-lab.net/zh-cn/blog/?p=13530 Continued]]> 隨著各行各業企業的數據規模不斷增長, Apache Parquet 已成為一種重要的數據存儲格式。Apache Parquet 是一種列式存儲格式,專為大規模高效數據處理而設計。通過按列 (而非行) 組織數據,Parquet 可實現高性能查詢和分析,因為它可以只讀取查詢所需的列,而無需掃描整行數據。Parquet 的高效數據布局使其成為現代分析生態系統中的熱門選擇,特別是在 Apache Spark 工作負載方面。 基于 cuDF 構建的 RAPIDS Accelerator for Apache Spark 支持 Parquet 作為一種數據格式,用于在 GPU 上以加速方式讀取和寫入數據。對于許多數據輸入大小以 TB 為單位的大規模 Spark 工作負載,高效的 Parquet 掃描對于實現良好的運行時性能至關重要。 在本文中,

Source

]]>
13530
RAPIDS AI 加速制造業預測性維護效率 http://www.open-lab.net/zh-cn/blog/accelerating-predictive-maintenance-in-manufacturing-with-rapids-ai/ Fri, 30 Aug 2024 05:28:04 +0000 http://www.open-lab.net/zh-cn/blog/?p=11156 Continued]]> 根據國際自動化協會(ISA)報告,每年有5%的工廠生產因機時間而受到損失。在另一種情況下,各行各業的制造商在全球范圍內放棄了大約647億美元,而相應的部分在生產中則接近13萬億美元。當前的挑戰是預測這些機器的維護需求,以最大限度地減少機時間、降低運營成本并優化維護計劃。 這種問題在提供 Desktop as a Service (DaaS) 服務的公司中尤為普遍,這些公司租用計算設備用于商業用途,并需要滿足嚴格的 SLAs 要求。DaaS 行業的價值高達 3 億美元,預計將增長 12%。 在本文中,我們將討論一個案例:我們構建了一個預測模型,以根據各種操作參數、傳感器數據和歷史維護記錄來估計計算資產的剩余使用壽命(RUL)。 LatentView Analytics 支持多個 DaaS 客戶端,并通過商業智能、數據分析和科學、數據工程、

Source

]]>
11156
新視頻:用 RAPIDS cuDF 和 Plotly Dash 可視化人口普查數據 http://www.open-lab.net/zh-cn/blog/new-video-visualizing-census-data-with-rapids-cudf-and-plotly-dash/ Mon, 17 Jul 2023 06:00:39 +0000 http://www.open-lab.net/zh-cn/blog/?p=7443 Continued]]> 收集商業見解可能是一件痛苦的事情,尤其是當你要處理無數的數據點時。 眾所周知, GPU 可以為數據科學家節省時間。 GPU 有助于加快流程并快速獲得所需的見解,而不是等待一個查詢運行。 在這個視頻中,Allan Enemark,RAPIDS數據可視化領先者,使用擁有超過30億個數據點的美國人口普查數據集,演示了在分析過程中如何不間斷地運行查詢RAPIDS cuDF和Plotly Dash。 視頻 1 。用 RAPIDS cuDF 和 Plotly Dash 可視化人口普查數據 將 pandas 與 cuDF 等 RAPIDS 框架進行交換可以幫助加快數據分析工作流程,使分析過程更加有效和愉快。此外, RAPIDS 庫可以使用簡單的 Python 代碼輕松繪制各種數據,如時間序列、地理空間和圖表。

Source

]]>
7443
加速數據分析:使用 GPU 的機器學習 – 加速 pandas 和 Scikit 學習 http://www.open-lab.net/zh-cn/blog/accelerated-data-analytics-machine-learning-with-gpu-accelerated-pandas-and-scikit-learn/ Tue, 11 Jul 2023 03:27:37 +0000 http://www.open-lab.net/zh-cn/blog/?p=7361 Continued]]> 本文是加速數據分析系列文章的一部分。 如果您想將您的機器學習( ML )項目的速度和可擴展性提升到新的水平,GPU 加速的數據分析可以幫助您以突破性的性能快速提供見解。從更快的計算到高效的模型訓練,GPU 為日常 ML 任務帶來了許多好處。 本帖子提供了以下方面的技術最佳實踐: GPU – 加速的數據分析可以通過 RAPIDS cuDF ,一個 GPU DataFrame 庫和 RAPIDS cuML ,一種 GPU – 加速的 ML 庫來實現。 cuDF 是一個 Python GPU 數據框庫,基于 Apache Arrow 柱狀內存格式構建,用于加載、連接、聚合、過濾和操作數據。它的 API 與 pandas 類似,一個建立在 Python 之上的開源軟件庫,專門用于數據操作和分析。這使得它成為數據分析工作流的有用工具,

Source

]]>
7361
加速數據分析:數據可視化指南 RAPIDS http://www.open-lab.net/zh-cn/blog/accelerated-data-analytics-a-guide-to-data-visualization-with-rapids/ Tue, 11 Jul 2023 03:20:58 +0000 http://www.open-lab.net/zh-cn/blog/?p=7357 Continued]]> 本文是加速數據分析系列文章的一部分。 可視化使數據栩栩如生,通過可訪問的視覺效果揭示隱藏的模式和見解,并使您和您的組織能夠感知無形的事物,做出明智的決策,并充分利用您的數據。 特別是在處理大型數據集時,交互可能會變得非常困難,因為渲染和計算時間變得太長。切換到 RAPIDS cuDF 等庫,支持 GPU 加速,通過熟悉的類似 pandas 的 API 解鎖對數據見解的訪問。這篇文章解釋道: 雖然數據可視化是在項目結束時解釋數據見解的有效工具,但理想情況下,應在整個數據探索和豐富過程中使用它們。可視化擅長于通過發現純分析方法不容易出現的異常值、異常和模式來增強數據理解,這已經被證明,例如Anscombe’s quartet以及臭名昭著的Datasaurus Dozen。 有效的圖表應遵循數據可視化設計原則,利用先前注意力可視處理,

Source

]]>
7357
人人超碰97caoporen国产