cuDF

2025年 5月 7日
使用 NVIDIA NeMo Curator 構建 Nemotron-CC:一個高質量萬億令牌數據集,用于大型語言模型預訓練,源自 Common Crawl
對于想要訓練先進的 大語言模型 (LLM) 的企業開發者而言,整理高質量的預訓練數據集至關重要。為了讓開發者能夠構建高度準確的 LLM,
2 MIN READ

2025年 4月 17日
頂級大師專業提示:使用 NVIDIA cuDF-pandas 進行特征工程,在 Kaggle 競賽中奪冠
在處理表格數據時,特征工程仍然是提高模型準確性的最有效方法之一。與 NLP 和計算機視覺等神經網絡可以從原始輸入中提取豐富模式的領域不同,
2 MIN READ

2025年 4月 10日
高效擴展 Polars 的 GPU Parquet 讀取器
在處理大型數據集時,數據處理工具的性能變得至關重要。 Polars 是一個以速度和效率聞名的開源數據操作庫,提供由 cuDF 驅動的 GPU…
2 MIN READ

2025年 2月 20日
使用 NVIDIA cuDF,pandas 讀取 JSON 行文件速度提升100倍
JSON 是一種廣泛采用的格式,用于在系統之間 (通常用于 Web 應用和大語言模型 (LLMs)) 以互操作方式運行的基于文本的信息。
3 MIN READ

2025年 2月 6日
適用于數據科學的 GPU 加速入門
在數據科學領域,運營效率是處理日益復雜和大型數據集的關鍵。GPU 加速已成為現代工作流程的關鍵,可顯著提高性能。
3 MIN READ

2025年 1月 29日
使用 GPU 在 Apache Spark 上加速 JSON 處理
JSON 是一種熱門的文本數據格式,可實現 Web 應用程序中系統之間的互操作性以及數據管理。這種格式自 21 世紀初就已存在,
3 MIN READ

2024年 12月 19日
RAPIDS 24.12 推出基于 PyPI 的 cuDF、適用于 Polar 的 CUDA 統一內存和更快的 GNN
RAPIDS 24.12 將 cuDF 包引入 PyPI,加快了 聚合和從 AWS S3 讀取文件的速度,
3 MIN READ

2024年 12月 19日
使用 NVIDIA NeMo Curator 新分類器模型增強您的訓練數據
分類器模型專門用于將數據分類為預定義的組或類,在優化數據處理流程以微調和預訓練生成式 AI 模型方面發揮著關鍵作用。
3 MIN READ

2024年 12月 5日
統一虛擬內存利用 RAPIDS cuDF 為 pandas 提供強力支持
上一篇文章 中介紹的 是一個 GPU 加速庫,可加速 pandas 以實現顯著的性能提升,速度最高可提升至原來的 50 倍,
2 MIN READ

2024年 11月 21日
RAPIDS 與 Dask 結合實現多 GPU 數據分析的高效實踐指南
隨著我們向更密集的計算基礎設施邁進,擁有更多的計算、更多的 GPU、加速網絡等,多 GPU 訓練和分析變得越來越流行。
1 MIN READ

2024年 10月 8日
NVIDIA CUDA-X 現可加速 Polars 數據處理庫
Polar 是發展最快的數據分析工具之一,每月的下載量剛剛突破 900 萬次。作為現代 DataFrame 庫,
1 MIN READ

2024年 9月 17日
由 RAPIDS cuDF 提供支持的 Polars GPU 引擎現已推出公測版
今天,Polars 發布了一款由 RAPIDS cuDF 提供支持的新型 GPU 引擎,可在 NVIDIA GPUs 上將 Polars…
1 MIN READ

2024年 9月 11日
使用 RAPIDS cuDF pandas 加速器模式處理 10 億行數據
十億行挑戰賽 (One Billion Row Challenge) 是一個有趣的基準測試,旨在展示基本的數據處理操作。
3 MIN READ

2024年 8月 30日
RAPIDS AI 加速制造業預測性維護效率
根據國際自動化協會(ISA)報告,每年有5%的工廠生產因機時間而受到損失。在另一種情況下,各行各業的制造商在全球范圍內放棄了大約647億美元,
3 MIN READ

2024年 8月 21日
使用 Co-Visitation 矩陣和 RAPIDS cuDF 構建高效的推薦系統
推薦系統在跨各種平臺實現個性化用戶體驗方面發揮著至關重要的作用。這些系統旨在根據用戶過去的行為和偏好預測和推薦用戶可能與之交互的商品。
4 MIN READ

2024年 8月 9日
RAPIDS cuDF 統一顯存技術使大型數據集上的 pandas 運行速度最高提升 30 倍
NVIDIA 已發布 RAPIDS cuDF 統一顯存和文本數據處理功能,幫助數據科學家在嚴苛的工作負載中處理更大、
2 MIN READ