Muhammad Haseeb – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 18 Jul 2024 04:59:58 +0000
zh-CN
hourly
1
196178272 -
使用 RAPIDS 的 Parquet 字符串數據的編碼和壓縮指南
http://www.open-lab.net/zh-cn/blog/encoding-and-compression-guide-for-parquet-string-data-using-rapids/
Wed, 17 Jul 2024 04:36:41 +0000
http://www.open-lab.net/zh-cn/blog/?p=10645
Continued]]>
Parquet Writer 提供了默認關閉的編碼和壓縮選項。啟用這些選項可以為數據提供更好的無損壓縮,但了解用于特定用例的選項對于確保它們按預期執行是至關重要的。 在本文中,我們將探討哪些編碼和壓縮選項最適合您的字符串數據。字符串數據在數據科學中無處不在,用于表示小片段信息,如名稱、地址和數據標簽,以及大片段信息,如 DNA 序列、JSON 對象和完整文檔。 首先,我們解釋每個選項。 在 Parquet 格式中,有兩種 delta 編碼,旨在優化字符串數據的存儲。為了幫助分析每個選項,我們構建了一項工程研究,使用 libcudf 和 cudf.pandas 對來自公開來源的字符串數據進行分析,以比較 Parquet 的編碼和壓縮方法的有效性,使用文件大小、讀取時間和寫入時間作為指標。 在 RAPIDS 開源加速數據科學庫套件中,
Source
]]>
10645
人人超碰97caoporen国产