數據分析/處理 – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 22 May 2025 07:09:13 +0000
zh-CN
hourly
1
196178272 -
聚焦:Atgenomix SeqsLab 提升健康組學分析以支持精準醫療
http://www.open-lab.net/zh-cn/blog/spotlight-atgenomix-seqslab-scales-health-omics-analysis-for-precision-medicine/
Mon, 19 May 2025 05:31:48 +0000
http://www.open-lab.net/zh-cn/blog/?p=13926
Continued]]>
在傳統的臨床醫學實踐中,治療決策通常基于一般準則、以往經驗和試錯方法。如今,隨著電子病歷 (EMRs) 和基因組數據的訪問, 精準醫療 的新時代正在興起,即以前所未有的準確性為單個患者量身定制治療方法。精準醫療是一種創新的醫療保健方法,通過考慮基因組中的個體可變性來定制疾病預防和治療。 本文將探討 Atgenomix SeqsLab 平臺如何使用 NVIDIA Parabricks 和 RAPIDS Accelerator for Apache Spark (Spark-RAPIDS) 來集成健康組學見解或大規模生物數據。這種集成使精準醫療的應用范圍更廣,超越理論,走向實用、廣泛的臨床應用。 EMR 與基因組測序和其他健康組學數據的集成具有極高的計算要求。單個全基因組測序 (WGS) 數據集的每個患者容量可超過 300 GB,并且與蛋白質組學、
Source
]]>
13926
-
使用 GPU 預測 Apache Spark 的性能
http://www.open-lab.net/zh-cn/blog/predicting-performance-on-apache-spark-with-gpus/
Thu, 15 May 2025 07:04:19 +0000
http://www.open-lab.net/zh-cn/blog/?p=13975
Continued]]>
大數據分析領域正在不斷尋找加速處理和降低基礎設施成本的方法。Apache Spark 已成為用于橫向擴展分析的領先平臺,可處理 ETL、機器學習和深度學習工作負載的大型數據集。雖然傳統上基于 CPU,但 GPU 加速的出現提供了一個令人信服的前景:顯著加速數據處理任務。 但是,將 Spark 工作負載從 CPU 遷移到 GPU 并非易事。GPU 加速雖然對某些操作非常強大,但不一定能提高每個場景中的性能。小型數據集、大量數據移動以及使用用戶定義函數 (User-Defined Functions, UDFs) 等因素有時會對 GPU 性能產生負面影響。相反,涉及高基數數據的工作負載,例如連接、聚合、排序、窗口操作和轉碼任務 (例如編碼/壓縮 Apache Parquet 或 Apache ORC 或解析 CSV) 通常是 GPU 加速的積極指標。
Source
]]>
13975
-
借助超參數優化實現堆疊泛化:使用 NVIDIA cuML 在15分鐘內最大化準確性
http://www.open-lab.net/zh-cn/blog/stacking-generalization-with-hpo-maximize-accuracy-in-15-minutes-with-nvidia-cuml/
Thu, 01 May 2025 07:09:25 +0000
http://www.open-lab.net/zh-cn/blog/?p=13850
Continued]]>
堆疊泛化是機器學習 (ML) 工程師廣泛使用的技術,通過組合多個模型來提高整體預測性能。另一方面,超參數優化 (HPO) 涉及系統搜索最佳超參數集,以更大限度地提高給定 ML 算法的性能。 同時使用堆棧和 HPO 時,一個常見的挑戰是巨大的計算需求。這些方法通常需要訓練多個模型,并針對每個模型迭代大量超參數組合。這可能會很快變得耗費大量資源和時間,尤其是對于大型數據集而言。 在本文中,我們將演示如何簡化此工作流,該工作流將堆棧泛化與 HPO 相結合。我們將展示如何使用 cuML 庫的 GPU 加速計算在短短 15 分鐘內執行此工作流。得益于 cuML 與 scikit-learn 的零代碼更改集成,您可以使用現有的 ML 工作流進行 GPU 加速 (無需修改代碼) ,并實現相同的模型準確性。與基于 CPU 的執行 (通常一次只運行一個試驗) 不同,
Source
]]>
13850
-
頂級大師專業提示:使用 NVIDIA cuDF-pandas 進行特征工程,在 Kaggle 競賽中奪冠
http://www.open-lab.net/zh-cn/blog/grandmaster-pro-tip-winning-first-place-in-kaggle-competition-with-feature-engineering-using-nvidia-cudf-pandas/
Thu, 17 Apr 2025 06:16:48 +0000
http://www.open-lab.net/zh-cn/blog/?p=13631
Continued]]>
在處理表格數據時,特征工程仍然是提高模型準確性的最有效方法之一。與 NLP 和計算機視覺等神經網絡可以從原始輸入中提取豐富模式的領域不同,性能最佳的表格模型 (尤其是梯度提升決策樹) 仍然從精心打造的特征中獲得顯著優勢。然而,潛在的有用特征數量意味著,深入研究這些特征通常需要大量的計算。在 CPU 上使用標準 pandas 生成和驗證數百或數千個功能理念的速度太慢,無法實現。 這就是 GPU 加速改變游戲規則的地方。借助 NVIDIA cuDF-pandas,我可以在 GPU 上加速 pandas 操作,無需更改代碼,從而為 Kaggle 2 月的 Playground 比賽快速生成和測試 10000 多個設計功能。這種加速的發現過程是關鍵的差異化因素。在大幅縮短的時間內 (幾天而不是潛在的幾個月) ,發現的最佳 500 個特征顯著提高了我的 XGBoost 模型的準確性,
Source
]]>
13631
-
使用 GPU 在 Apache Spark 上加速 JSON 處理
http://www.open-lab.net/zh-cn/blog/accelerating-json-processing-on-apache-spark-with-gpus/
Wed, 29 Jan 2025 05:26:22 +0000
http://www.open-lab.net/zh-cn/blog/?p=12910
Continued]]>
JSON 是一種熱門的文本數據格式,可實現 Web 應用程序中系統之間的互操作性以及數據管理。這種格式自 21 世紀初就已存在,源于 Web 服務器和瀏覽器之間的通信需求。標準 JSON 格式由可包含嵌套對象的鍵值對組成。JSON 在存儲 Web 事務信息方面的使用有所增長,并且可能包含非常大的值,有時每條記錄的大小超過 1 GB。首先,解析和驗證 JSON 不是與 GPU 加速相關的任務,因為文本格式的大小不規則,并且沒有默認順序。但是,隨著 JSON 在許多企業數據應用程序中的使用,對加速的需求也在增長。 對于《財富》100 強零售公司而言,使用 JSON 格式存儲基本庫存數據。JSON 格式支持與產品分類和庫存相關的非結構化數據。針對點擊流數據的 JSON 處理包括在單個 Spark 工作負載中處理數十 TB 的 JSON 數據的大型查詢。
Source
]]>
12910
-
利用 RAPIDS cuML 加速時間序列預測
http://www.open-lab.net/zh-cn/blog/accelerating-time-series-forecasting-with-rapids-cuml/
Thu, 16 Jan 2025 06:20:40 +0000
http://www.open-lab.net/zh-cn/blog/?p=12696
Continued]]>
時間序列預測是一種強大的數據科學技術,用于根據過去的數據點預測未來值 借助 skforecast 等開源 Python 庫,您可以輕松地對數據運行時間序列預測。它們允許您“自帶”與 scikit-learn API 兼容的回歸器,讓您能夠靈活地與所選模型無縫協作。 隨著數據集和技術(例如直接多步驟預測)的不斷增加,需要您一次運行多個模型,在基于 CPU 的基礎設施上運行預測時,計算成本會很快變得昂貴。 RAPIDS 是開源 GPU 加速數據科學和 AI 庫的集合。 cuML 是一個 GPU 加速的 Python 機器學習庫,具有 scikit-learn 兼容 API。 在這篇博文中,我們展示了如何將 RAPIDS cuML 與 skforecast 結合使用,以加速時間序列預測,從而讓您能夠處理更大的數據集和預測窗口。 在當今數據驅動的世界中,
Source
]]>
12696
-
使用 NVIDIA NeMo Curator 提高生成式 AI 模型的準確性
http://www.open-lab.net/zh-cn/blog/enhancing-generative-ai-model-accuracy-with-nvidia-nemo-curator/
Mon, 13 Jan 2025 08:11:05 +0000
http://www.open-lab.net/zh-cn/blog/?p=12626
Continued]]>
在快速發展的人工智能領域,用于訓練模型的數據質量至關重要。高質量數據可確保模型準確、可靠,并且能夠在各種應用中很好地泛化。近期的 NVIDIA 網絡會議“借助高質量多模態數據處理增強生成式 AI 模型的準確性”深入探討了數據管護和處理的復雜性,并重點介紹了 NVIDIA NeMo Curator 的功能。 本文分享了在線研討會的主要見解,重點介紹了數據管護的重要性、合成數據生成的作用,以及開發者可用于構建完全定制和可擴展的數據處理流程的各種功能。 數據管護 是開發生成式 AI 模型的關鍵步驟。其中包括清理、整理和準備數據,以確保數據適合訓練。 該網絡會議強調,生成模型從其訓練所用的數據中獲取理解。確保這些數據不含重復數據、個人身份信息(PII)和有毒內容至關重要。 正確的數據管護不僅可以縮短訓練時間,還可以提高模型質量,
Source
]]>
12626
-
利用 RAPIDS cuML 和 GPU 加速提升多標簽分類性能
http://www.open-lab.net/zh-cn/blog/harnessing-gpu-acceleration-for-multi-label-classification-with-rapids-cuml/
Thu, 12 Dec 2024 06:29:47 +0000
http://www.open-lab.net/zh-cn/blog/?p=12377
Continued]]>
現代分類工作流程通常需要將單個記錄和數據點分類為多個類別,而不僅僅是分配單個標簽。 借助 scikit-learn 等開源 Python 庫,可以更輕松地針對這些多標簽問題構建模型。多個模型內置了對多標簽數據集的支持,而簡單的 scikit-learn 實用程序函數也支持使用不適合這些用例的函數。 但是,訓練這些多標簽模型的計算成本很高,而且基于 CPU 的基礎設施無法跟上企業每年生成的數據量。 RAPIDS 是開源 GPU 加速數據科學和 AI 庫的集合。 cuML 是一個適用于 Python 的 GPU 加速機器學習庫,具有 scikit-learn 兼容 API。 在這篇博文中,我們展示了 RAPIDS cuML 如何借助加速計算輕松實現多標簽機器學習工作流程的 大幅加速 。 在某些企業用例中,目標是構建模型以預測每條記錄的單個標簽。
Source
]]>
12377
-
統一虛擬內存利用 RAPIDS cuDF 為 pandas 提供強力支持
http://www.open-lab.net/zh-cn/blog/unified-virtual-memory-supercharges-pandas-with-rapids-cudf/
Thu, 05 Dec 2024 07:07:40 +0000
http://www.open-lab.net/zh-cn/blog/?p=12395
Continued]]>
上一篇文章 中介紹的 是一個 GPU 加速庫,可加速 pandas 以實現顯著的性能提升,速度最高可提升至原來的 50 倍,而無需對現有代碼進行任何更改。作為 NVIDIA RAPIDS 生態系統的一部分, 充當代理層,盡可能在 GPU 上執行運算,必要時 (通過 pandas) 回退至 CPU。這可確保與完整的 pandas API 和第三方庫兼容,同時利用 GPU 加速加快數據處理速度。只需加載 ,用戶即可維護熟悉的 pandas 工作流程,同時獲得統一的 CPU/GPU 體驗。 在幕后, 默認使用托管內存池,使其能夠處理超過 GPU 物理內存的數據集。這是通過 CUDA Unified Virtual Memory (UVM) 實現的,可提供跨主機 (CPU) 和設備 (GPU) 內存的統一地址空間。UVM 允許 超額訂閱 GPU 內存,根據需要自動在主機和設備之間遷移數據。
Source
]]>
12395
-
NVIDIA RAPIDS 加速大型數據集的因果關系推理
http://www.open-lab.net/zh-cn/blog/faster-causal-inference-on-large-datasets-with-nvidia-rapids/
Thu, 14 Nov 2024 07:12:31 +0000
http://www.open-lab.net/zh-cn/blog/?p=12038
Continued]]>
隨著消費者應用生成的數據比以前更多,企業開始采用觀察數據的因果關系推理方法,以幫助闡明應用的各個組件的更改如何影響關鍵業務指標。 在過去十年中,計量經濟學家開發了一種稱為 雙機器學習 的技術,該技術將機器學習模型的強大功能用于解決因果關系推理問題。它涉及在獨立的數據集樣本中訓練兩個預測模型,并將它們結合起來以構建目標變量的無偏估計。 借助 DoubleML 等開源 Python 庫,數據科學家可以輕松利用這項新技術,但卻難以處理企業需要在 CPU 上處理的數據量。 RAPIDS 是開源 GPU 加速數據科學和 AI 庫的集合。 cuML 是一個適用于 Python 的 GPU 加速機器學習庫,具有 scikit-learn 兼容的 API。 在這篇博文中,我們展示了如何將 RAPIDS cuML 與 DoubleML 庫結合使用,以加快因果關系推理速度,
Source
]]>
12038
-
使用經 NVIDIA NeMo Curator 處理的 Zyda-2 Open 5T-Token 數據集訓練高度準確的 LLM
http://www.open-lab.net/zh-cn/blog/train-highly-accurate-llms-with-the-zyda-2-open-5t-token-dataset-processed-with-nvidia-nemo-curator/
Tue, 15 Oct 2024 04:30:53 +0000
http://www.open-lab.net/zh-cn/blog/?p=11735
Continued]]>
開源數據集顯著普及了對高質量數據的訪問,降低了開發者和研究人員訓練 尖端生成式 AI 模型 的門檻。通過免費訪問多樣化、高質量且精心策劃的數據集,開源數據集使開源社區能夠在前沿或接近前沿訓練模型,從而促進 AI 的快速發展。 Zyphra 使 AI 系統更易于使用,通過尖端架構探索性能前沿,并推進對強大模型的研究和理解。 為了實現其愿景,Zyphra 團隊一直與 NVIDIA NeMo Curator 團隊密切合作,創建 Zyda-2,這是一個開放、高質量的預訓練數據集,由令人印象深刻的英語 5T 令牌和 Zyda-1 的 5 倍大小組成。該數據集包含廣泛的主題和領域,可確保高度的多樣性和質量,這對于訓練像 Zamba 這樣的強大和競爭力強的模型至關重要。 與需要額外專業數據集的代碼和數學運算相比,
Source
]]>
11735
-
由 RAPIDS cuDF 提供支持的 Polars GPU 引擎現已推出公測版
http://www.open-lab.net/zh-cn/blog/polars-gpu-engine-powered-by-rapids-cudf-now-available-in-open-beta/
Tue, 17 Sep 2024 09:25:59 +0000
http://www.open-lab.net/zh-cn/blog/?p=11317
Continued]]>
今天,Polars 發布了一款由 RAPIDS cuDF 提供支持的新型 GPU 引擎,可在 NVIDIA GPUs 上將 Polars 工作流的速度提升高達 13 倍,使數據科學家能夠在單臺機器上在數秒內處理數億行數據。 像 pandas 這樣的傳統數據處理庫是單線程的,超過數百萬行數據的使用已變得不切實際。分布式數據處理系統可以處理數十億行,但會增加處理中小型數據集的復雜性和開銷。 在高效處理數十萬行到數百萬行數據的工具方面存在差距。此類工作負載在金融、零售和制造等行業的模型開發、需求預測和物流中很常見。 Polars 是面向數據科學家和工程師的發展最快的 Python 庫之一,專為應對這些挑戰而從頭開始設計。它使用高級查詢優化來減少不必要的數據移動和處理,使數據科學家能夠在單臺機器上大規模地順利處理數以億計行的工作負載。
Source
]]>
11317
-
RAPIDS cuDF 統一顯存技術使大型數據集上的 pandas 運行速度最高提升 30 倍
http://www.open-lab.net/zh-cn/blog/rapids-cudf-unified-memory-accelerates-pandas-up-to-30x-on-large-datasets/
Fri, 09 Aug 2024 07:08:01 +0000
http://www.open-lab.net/zh-cn/blog/?p=10996
Continued]]>
NVIDIA 已發布 RAPIDS cuDF 統一顯存和文本數據處理功能,幫助數據科學家在嚴苛的工作負載中處理更大、文本密集型數據集時繼續使用 pandas。現在,數據科學家可以將這些工作負載加速高達 30 倍。 RAPIDS 是開源 GPU 加速數據科學和 AI 庫的集合。cuDF 是一個 Python GPU DataFrame 庫,用于加載、連接、聚合和過濾數據。 作為面向數據科學家的頂級數據處理庫,pandas 是一個靈活而強大的 Python 數據分析和操作庫。上個月,它的下載量超過 2000 萬次。然而,隨著數據集規模的增長,pandas 在 CPU 系統中的處理速度和效率都很低。這迫使數據科學家不得不在緩慢的執行時間和使用其他工具相關的切換成本之間做出選擇。 NVIDIA 在 GTC 2024 上宣布,RAPIDS cuDF 可將 pandas 的速度提升近…
Source
]]>
10996
-
NVIDIA GB200 NVL72 提供萬億參數 LLM 訓練和實時推理
http://www.open-lab.net/zh-cn/blog/nvidia-gb200-nvl72-delivers-trillion-parameter-llm-training-and-real-time-inference/
Mon, 18 Mar 2024 07:00:33 +0000
http://www.open-lab.net/zh-cn/blog/?p=9393
Continued]]>
對萬億參數模型的興趣是什么?我們知道當今的許多用例,并且由于有望提高以下方面的能力,人們的興趣正在增加: 其優勢是巨大的,但訓練和部署大型模型的計算成本高昂且需要大量資源。旨在提供實時推理的計算高效、經濟高效且節能的系統對于廣泛部署至關重要。新的 NVIDIA GB200 NVL72 就是這樣一個系統,可以完成這項任務。 為了說明這一點,我們考慮一下多專家模型 (MoE).這些模型有助于在多個專家之間分配計算負載,并使用模型并行和管道并行跨數千個 GPU 進行訓練。提高系統效率。 然而,并行計算、高速顯存和高性能通信的新水平可以使 GPU 集群能夠應對棘手的技術挑戰。 NVIDIA GB200 NVL72 機架級架構實現了這一目標,我們將在以下博文中詳細介紹。 核心 GB200 NVL72 是 NVIDIA GB200 Grace Blackwell 超級芯片。
Source
]]>
9393
人人超碰97caoporen国产