數據科學 – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Wed, 14 May 2025 07:12:23 +0000
zh-CN
hourly
1
196178272 -
云端 Apache Spark 加速深度學習和大語言模型推理
http://www.open-lab.net/zh-cn/blog/accelerate-deep-learning-and-llm-inference-with-apache-spark-in-the-cloud/
Thu, 08 May 2025 06:18:25 +0000
http://www.open-lab.net/zh-cn/blog/?p=13821
Continued]]>
Apache Spark 是用于大數據處理和分析的行業領先平臺。隨著非結構化數據(documents、emails、multimedia content)的日益普及,深度學習 (DL) 和大語言模型 (LLMs) 已成為現代數據分析工作流的核心組成部分。這些模型支持各種下游任務,例如圖像描述、語義標記、文檔摘要等。 然而,將 GPU 密集型 DL 與 Spark 相結合一直是一項挑戰。 NVIDIA RAPIDS Accelerator for Apache Spark 和 Spark RAPIDS ML 庫可實現無縫 GPU 加速,但主要用于提取、轉換和加載 (ETL) 以及傳統機器學習 (ML) 工作負載。 最近用于分布式訓練和推理的 Spark API (如上一篇博客中所述) 在 DL 集成方面取得了重大進展。本文以這項工作為基礎,
Source
]]>
13821
-
使用 Python 通過 OpenUSD 實現 3D 工作流自動化
http://www.open-lab.net/zh-cn/blog/using-python-to-automate-3d-workflows-with-openusd/
Wed, 07 May 2025 06:36:21 +0000
http://www.open-lab.net/zh-cn/blog/?p=13830
Continued]]>
通用場景描述 (OpenUSD) 提供了一個強大、開放且可擴展的生態系統,用于在復雜的 3D 世界中進行描述、合成、仿真和協作。從處理大型數據集和 數字孿生的 自動化工作流程,到實現游戲的實時渲染以及簡化制造和能源領域的工業運營,OpenUSD 正在轉變各行各業處理 3D 數據的方式。 Python 的腳本功能和易用性使其成為 OpenUSD 的理想合作伙伴,幫助實現任務自動化并加速開發。 在這篇博客文章中,我們將探索 Python 和 USD 之間的協同作用,并提供資源幫助您入門。 OpenUSD 主要使用 C++ 實現,為 3D 場景操作提供了高性能、高效的框架。C++ API 分為幾個關鍵包。 但是,USD 為其大多數庫提供 Python 綁定,使其無需 C++ 專業知識即可進行快速原型設計、腳本編寫和自動化。
Source
]]>
13830
-
使用 NVIDIA NeMo Curator 構建 Nemotron-CC:一個高質量萬億令牌數據集,用于大型語言模型預訓練,源自 Common Crawl
http://www.open-lab.net/zh-cn/blog/building-nemotron-cc-a-high-quality-trillion-token-dataset-for-llm-pretraining-from-common-crawl-using-nvidia-nemo-curator/
Wed, 07 May 2025 06:32:25 +0000
http://www.open-lab.net/zh-cn/blog/?p=13827
Continued]]>
對于想要訓練先進的 大語言模型 (LLM) 的企業開發者而言,整理高質量的預訓練數據集至關重要。為了讓開發者能夠構建高度準確的 LLM,NVIDIA 之前發布了 Nemotron-CC ,這是一個價值 6.3 萬億個 token 的英語語言 Common Crawl (CC) 數據集。今天,NVIDIA NeMo Curator 團隊很高興地與大家分享,用于構建 Nemotron-CC 數據集的 pipeline 現已合并到 NeMo Curator GitHub 存儲庫 中。 Nemotron-CC 工作流現已集成到 NeMo Curator 中,為平衡大規模準確性和數據量之間的權衡提供了一種新穎的解決方案。Nemotron-CC 工作流結合使用分類器集成和合成數據重述,提供了一種可擴展的方法,可從原始數據集中生成高質量的合成數據,以擴展原始數據集。
Source
]]>
13827
-
CUDA 入門教程:更簡單的介紹 (更新版)
http://www.open-lab.net/zh-cn/blog/even-easier-introduction-cuda-2/
Fri, 02 May 2025 06:58:38 +0000
http://www.open-lab.net/zh-cn/blog/?p=13841
Continued]]>
注意:本博文最初發布于 2017 年 1 月 25 日,但已進行編輯以反映新的更新。 本文非常簡單地介紹了 CUDA,這是 NVIDIA 的熱門并行計算平臺和編程模型。我在 2013 年寫過一篇文章,名為“ An Easy Introduction to CUDA ”,多年來一直備受歡迎。但是,CUDA 編程變得更加簡單,GPU 也變得更快了,所以現在是時候更新 (甚至更輕松) 介紹了。 CUDA C++ 只是使用 CUDA 創建大規模并行應用程序的多種方法之一。它允許您使用功能強大的 C++ 編程語言來開發由 GPU 上運行的數千個并行線程加速的高性能算法。許多開發者都以這種方式加速了需要大量計算和帶寬的應用程序,包括支持人工智能持續革命 (即 Deep Learning ) 的庫和框架。 您聽說過 CUDA,并且有興趣學習如何在自己的應用中使用 CUDA。如果您是 C++…
Source
]]>
13841
-
借助超參數優化實現堆疊泛化:使用 NVIDIA cuML 在15分鐘內最大化準確性
http://www.open-lab.net/zh-cn/blog/stacking-generalization-with-hpo-maximize-accuracy-in-15-minutes-with-nvidia-cuml/
Thu, 01 May 2025 07:09:25 +0000
http://www.open-lab.net/zh-cn/blog/?p=13850
Continued]]>
堆疊泛化是機器學習 (ML) 工程師廣泛使用的技術,通過組合多個模型來提高整體預測性能。另一方面,超參數優化 (HPO) 涉及系統搜索最佳超參數集,以更大限度地提高給定 ML 算法的性能。 同時使用堆棧和 HPO 時,一個常見的挑戰是巨大的計算需求。這些方法通常需要訓練多個模型,并針對每個模型迭代大量超參數組合。這可能會很快變得耗費大量資源和時間,尤其是對于大型數據集而言。 在本文中,我們將演示如何簡化此工作流,該工作流將堆棧泛化與 HPO 相結合。我們將展示如何使用 cuML 庫的 GPU 加速計算在短短 15 分鐘內執行此工作流。得益于 cuML 與 scikit-learn 的零代碼更改集成,您可以使用現有的 ML 工作流進行 GPU 加速 (無需修改代碼) ,并實現相同的模型準確性。與基于 CPU 的執行 (通常一次只運行一個試驗) 不同,
Source
]]>
13850
-
Kaggle 大師揭秘數據科學超能力的獲勝策略
http://www.open-lab.net/zh-cn/blog/kaggle-grandmasters-unveil-winning-strategies-for-data-science-superpowers/
Tue, 29 Apr 2025 08:37:06 +0000
http://www.open-lab.net/zh-cn/blog/?p=13666
Continued]]>
來自 NVIDIA 的 Kaggle Grandmaster David Austin 和 Chris Deotte 以及 HP 的 Ruchi Bhatia 與來自 Kaggle 的 Brenda Flynn 一起參加了今年在拉斯維加斯舉行的 Google Cloud Next 大會。他們分享了自己的身份、競爭的動機,以及他們如何在全球最大的數據科學競賽平臺上做出貢獻并贏得比賽。 本博文簡要介紹了他們的討論,包括解決 Machine Learning 問題的最佳實踐、提示和技巧,以及他們最喜歡的工具。 David Austin 是 NVIDIA Kaggle Grandmaster 團隊的成員。他還是 NVIDIA 的首席 AI 軟件工程師和開源 LLM 應用開發的技術主管。Austin 擁有化學工程學位,作為一名數據科學家,他為半導體制造、工業 AI 和高級 LLM…
Source
]]>
13666
-
構建應用程序以安全使用 KV 緩存
http://www.open-lab.net/zh-cn/blog/structuring-applications-to-secure-the-kv-cache/
Tue, 29 Apr 2025 08:32:44 +0000
http://www.open-lab.net/zh-cn/blog/?p=13663
Continued]]>
在與基于 Transformer 的模型 (如 大語言模型 (LLM) 和 視覺語言模型 (VLM)) 交互時,輸入結構會塑造模型的輸出。但提示通常不僅僅是簡單的用戶查詢。在實踐中,它們通過動態組合來自系統指令、上下文數據和用戶輸入等各種來源的數據來優化響應。 在多租戶環境中,多個用戶共享同一應用程序基礎設施,這種動態提示結構可能會帶來意外的安全風險。其中一個風險來自 prefix caching 優化,如果處理不當,可能會跨用戶邊界泄露信息。 本文將探討提示結構與緩存的交集,以及它們的交互如何在 LLM 驅動的應用中造成細微漏洞。通過了解這些機制,開發者可以設計出更安全的系統。 如果您僅以聊天機器人用戶的身份與 LLM 進行交互,您可能會將提示視為如下所示: 但在大多數真實應用中,此用戶查詢只是更大規模的動態構建輸入(即應用提示)的 一部分。
Source
]]>
13663
-
NVIDIA cuPyNumeric 25.03 現已完全開源,支持 PIP 和 HDF5
http://www.open-lab.net/zh-cn/blog/nvidia-cupynumeric-25-03-now-fully-open-source-with-pip-and-hdf5-support/
Wed, 23 Apr 2025 05:49:32 +0000
http://www.open-lab.net/zh-cn/blog/?p=13614
Continued]]>
NVIDIA cuPyNumeric 是一個庫,旨在為基于 Legate 框架構建的 NumPy 提供分布式和加速的插入式替換。它為多 GPU 和多節點 (MGMN) 加速計算帶來了零代碼更改擴展。 cuPyNumeric 25.03 是一次里程碑式的更新,為用戶和開發者引入了強大的新功能,并增強了可訪問性,詳情請參閱本文。 “借助 cuPyNumeric 25.03,NVIDIA 在 Apache 2 許可證下開源了支持 cuPyNumeric 的 Legate 框架和運行時層。現在,cuPyNumeric 的整個堆棧均在 Apache 2 許可證下提供。此舉符合 NVIDIA 對透明度、再現性和協作性的承諾。貢獻者現在可以毫無障礙地探索、審核、貢獻和擴展系統的任何組件。” cuPyNumeric 從一開始就支持通過 conda 進行安裝。現在,
Source
]]>
13614
-
頂級大師專業提示:使用 NVIDIA cuDF-pandas 進行特征工程,在 Kaggle 競賽中奪冠
http://www.open-lab.net/zh-cn/blog/grandmaster-pro-tip-winning-first-place-in-kaggle-competition-with-feature-engineering-using-nvidia-cudf-pandas/
Thu, 17 Apr 2025 06:16:48 +0000
http://www.open-lab.net/zh-cn/blog/?p=13631
Continued]]>
在處理表格數據時,特征工程仍然是提高模型準確性的最有效方法之一。與 NLP 和計算機視覺等神經網絡可以從原始輸入中提取豐富模式的領域不同,性能最佳的表格模型 (尤其是梯度提升決策樹) 仍然從精心打造的特征中獲得顯著優勢。然而,潛在的有用特征數量意味著,深入研究這些特征通常需要大量的計算。在 CPU 上使用標準 pandas 生成和驗證數百或數千個功能理念的速度太慢,無法實現。 這就是 GPU 加速改變游戲規則的地方。借助 NVIDIA cuDF-pandas,我可以在 GPU 上加速 pandas 操作,無需更改代碼,從而為 Kaggle 2 月的 Playground 比賽快速生成和測試 10000 多個設計功能。這種加速的發現過程是關鍵的差異化因素。在大幅縮短的時間內 (幾天而不是潛在的幾個月) ,發現的最佳 500 個特征顯著提高了我的 XGBoost 模型的準確性,
Source
]]>
13631
-
在大型語言模型時代,通過消息量化和流式傳輸實現高效的聯邦學習
http://www.open-lab.net/zh-cn/blog/efficient-federated-learning-in-the-era-of-llms-with-message-quantization-and-streaming/
Wed, 16 Apr 2025 05:23:34 +0000
http://www.open-lab.net/zh-cn/blog/?p=13572
Continued]]>
聯邦學習 (Federated Learning, FL) 已成為一種在分布式數據源中訓練機器學習模型的有前景的方法,同時還能保護數據隱私。但是,在平衡模型要求和通信能力時,FL 面臨著與通信開銷和本地資源限制相關的重大挑戰。 特別是在當前的大語言模型 (LLMs) 時代,FL 在部署具有數十億參數的 LLMs 時面臨著計算挑戰。這些模型的龐大規模加劇了通信和內存限制。由于帶寬限制,一次性傳輸完整的模型更新可能不可行,并且本地內存限制可能會使處理大型模型進行通信具有挑戰性。解決這些問題需要創新策略。 NVIDIA FLARE 是一款與領域無關、開源且可擴展的聯邦學習 SDK,通過引入可靠的通信功能、對多個并發訓練作業的支持以及針對可能因網絡條件而中斷的作業的魯棒性,增強了現實世界的聯邦學習體驗。 NVFlare 2.4.0 版本引入了流式傳輸 API,
Source
]]>
13572
-
NVIDIA Llama Nemotron 超開放模型實現突破性的推理準確性
http://www.open-lab.net/zh-cn/blog/nvidia-llama-nemotron-ultra-open-model-delivers-groundbreaking-reasoning-accuracy/
Tue, 15 Apr 2025 05:31:17 +0000
http://www.open-lab.net/zh-cn/blog/?p=13575
Continued]]>
AI 不再只是生成文本或圖像,而是要針對商業、金融、客戶和醫療健康服務中的現實應用進行深度推理、詳細解決問題并實現強大的適應性。 NVIDIA 最新推出的 Llama Nemotron Ultra 推理模型在智能和編碼基準測試中提供了領先的開源模型準確性,同時提高了計算效率。您可以在 Hugging Face 上找到模型、權重和訓練數據,以便將 AI 應用于從研究助理、編碼助手到自動化工作流的各種工作中。 Llama Nemotron Ultra 正在重新定義 AI 在科學推理、編碼和數學基準測試中可以實現的目標。該模型針對復雜推理、人類匹配聊天、 檢索增強生成 (RAG) 和工具使用進行了后訓練,專為滿足現實世界企業的需求 (從 copilot 和知識助手到自動化工作流程) 而構建,具有高影響力 AI 所需的深度和靈活性。 Llama Nemotron Ultra 基于…
Source
]]>
13575
-
使用 NVIDIA NIM 管理科學文獻中的生物研究成果
http://www.open-lab.net/zh-cn/blog/curating-biological-findings-from-scientific-literature-with-nvidia-nim/
Fri, 11 Apr 2025 06:07:31 +0000
http://www.open-lab.net/zh-cn/blog/?p=13499
Continued]]>
科學論文多種多樣,通常為同一實體使用不同的術語,使用不同的方法來研究生物現象,并在不同的上下文中展示研究結果。從這些論文中提取有意義的見解需要對生物學的深刻理解、對方法的批判性評估,以及從不相關或不太可靠的發現中辨別出可靠發現的能力。 科學家必須仔細解釋上下文,評估實驗證據的可靠性,并識別研究中潛在的偏見或局限性。鑒于支持疾病建模中關鍵決策的高精度需求,生物學發現必須僅包含高質量的知識。 大語言模型 (LLM) 在集成到 檢索增強生成 (RAG) 流程中時,為自動化和加速生物發現的管理提供了顛覆性的機會。通過優化從科學論文中提取見解的過程,LLM 顯著提高了這一過程的可擴展性。這些語言模型可以篩選的論文數量遠超任何個人可以手動審查的論文,并發現了更多的相關發現。 CytoReason 團隊是 NVIDIA Inception 計劃的成員,
Source
]]>
13499
-
借助 NVIDIA FLARE 和 Meta ExecuTorch,在移動設備上輕松進行聯邦學習
http://www.open-lab.net/zh-cn/blog/effortless-federated-learning-on-mobile-with-nvidia-flare-and-meta-executorch/
Fri, 11 Apr 2025 05:41:04 +0000
http://www.open-lab.net/zh-cn/blog/?p=13578
Continued]]>
NVIDIA 和 Meta 的 PyTorch 團隊宣布開展突破性合作,通過集成 NVIDIA FLARE 和 ExecuTorch ,將聯邦學習 (FL) 功能引入移動設備。 NVIDIA FLARE 是一款與領域無關、開源、可擴展的 SDK,使研究人員和數據科學家能夠根據聯合范式調整現有的機器學習或深度學習工作流程。它還使平臺開發者能夠為分布式多方協作構建安全、隱私保護的產品。 ExecuTorch 是一種端到端解決方案,可跨移動和邊緣設備實現設備端推理和訓練功能。它是 PyTorch Edge 生態系統的一部分,支持將各種 PyTorch 模型高效部署到邊緣設備。 通過集成這兩者,我們為您提供了一個解決方案,讓您在移動設備上利用 FL 的強大功能,同時保護用戶隱私和數據安全。要啟用跨設備 FL,有兩個關鍵組件: 借助 NVIDIA FLARE 和…
Source
]]>
13578
-
高效擴展 Polars 的 GPU Parquet 讀取器
http://www.open-lab.net/zh-cn/blog/efficiently-scaling-polars-gpu-parquet-reader/
Thu, 10 Apr 2025 06:09:06 +0000
http://www.open-lab.net/zh-cn/blog/?p=13503
Continued]]>
在處理大型數據集時,數據處理工具的性能變得至關重要。 Polars 是一個以速度和效率聞名的開源數據操作庫,提供由 cuDF 驅動的 GPU 加速后端,可以顯著提高性能。 “但是,為了充分利用 Polars GPU 后端 的強大功能,必須優化數據加載過程并有效管理工作流程所需的內存。隨著 GPU 后端開發的不斷推進,在使用 GPU Parquet 閱讀器時,隨著數據集大小的增加,我們還可以使用一些其他技術來保持高性能。現有的 Polars GPU Parquet 讀取器 (到版本 24.10) 無法針對更高的數據集大小進行擴展。” 本文將探討分塊 Parquet Reader 與 Unified Virtual Memory (UVM) 相結合后,如何在性能上優于非分塊閱讀器和基于 CPU 的方法。 隨著規模系數 (SF) 的增加,
Source
]]>
13503
-
使用合成數據評估和增強 RAG 工作流性能
http://www.open-lab.net/zh-cn/blog/evaluating-and-enhancing-rag-pipeline-performance-using-synthetic-data/
Mon, 07 Apr 2025 06:31:42 +0000
http://www.open-lab.net/zh-cn/blog/?p=13521
Continued]]>
隨著 大語言模型 (LLM) 在各種問答系統中的普及, 檢索增強生成 (RAG) 流程也成為焦點。RAG 流程將 LLM 的生成能力與外部數據源和檢索機制相結合,使模型能夠訪問微調期間可能不存在的特定領域信息。 RAG 性能很大程度上取決于底層文本嵌入模型的質量。嵌入模型不佳會導致檢索結果欠佳,進而降低 RAG 系統的整體性能。在處理企業特定的內部數據時尤其如此,因為開箱即用的模型可能無法提供所需的準確性。 為確保 RAG 系統能夠有效處理您的特定數據,您必須評估預訓練嵌入模型在語料庫中的表現是否良好。此評估所需的標注數據與最終用戶提交的查詢類型非常相似。例如,帶標注的樣本數據集可能包括以下內容: 在許多情況下,現有嵌入模型在應用于特定領域的數據時無法產生最佳結果。這就需要使用與企業語料庫共享相同分布的標注數據來定制這些模型。 在本文中,
Source
]]>
13521
人人超碰97caoporen国产