Nghia Truong – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Fri, 14 Feb 2025 05:30:52 +0000 zh-CN hourly 1 196178272 使用 GPU 在 Apache Spark 上加速 JSON 處理 http://www.open-lab.net/zh-cn/blog/accelerating-json-processing-on-apache-spark-with-gpus/ Wed, 29 Jan 2025 05:26:22 +0000 http://www.open-lab.net/zh-cn/blog/?p=12910 Continued]]> JSON 是一種熱門的文本數據格式,可實現 Web 應用程序中系統之間的互操作性以及數據管理。這種格式自 21 世紀初就已存在,源于 Web 服務器和瀏覽器之間的通信需求。標準 JSON 格式由可包含嵌套對象的鍵值對組成。JSON 在存儲 Web 事務信息方面的使用有所增長,并且可能包含非常大的值,有時每條記錄的大小超過 1 GB。首先,解析和驗證 JSON 不是與 GPU 加速相關的任務,因為文本格式的大小不規則,并且沒有默認順序。但是,隨著 JSON 在許多企業數據應用程序中的使用,對加速的需求也在增長。 對于《財富》100 強零售公司而言,使用 JSON 格式存儲基本庫存數據。JSON 格式支持與產品分類和庫存相關的非結構化數據。針對點擊流數據的 JSON 處理包括在單個 Spark 工作負載中處理數十 TB 的 JSON 數據的大型查詢。

Source

]]>
12910
在 RAPIDS libcudf 中使用嵌入式數據類型簡化 ETL 工作流程 http://www.open-lab.net/zh-cn/blog/streamline-etl-workflows-with-nested-data-types-in-rapids-libcudf/ Fri, 15 Dec 2023 05:29:43 +0000 http://www.open-lab.net/zh-cn/blog/?p=8581 Continued]]> 嵌入式數據類型是一種表示列式數據中分層關系的便捷方式。它們經常用于 提取、轉換、加載(ETL)在商業智能領域的工作負載、推薦系統、網絡安全、地理空間和其他應用中。 例如,列表類型可用于輕松地將多個事務附加到用戶,而無需創建新的查找表。結構類型可用于在同一列中附加靈活的元數據和許多鍵值對。在 Web 和移動應用程序中,嵌套類型將原始 JSON 對象表示為數據列中的元素,從而使這些數據能頭輸入到 機器學習(ML)訓練管線。許多數據科學應用都依賴于嵌套類型來對復雜的數據輸入進行建模、管理和處理。 在 RAPIDS 中,libcudf 是一套用于列式數據處理的 CUDA C++ 庫,旨在加速數據科學庫的性能。RAPIDS libcudf 基于 Apache Arrow 內存格式,支持 GPU 加速的數據讀取器、寫入器、關系代數函數和列轉換操作。 除了數字和字符串等基本數據類型外,

Source

]]>
8581
人人超碰97caoporen国产