最佳實踐 – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Fri, 30 May 2025 06:29:04 +0000
zh-CN
hourly
1
196178272 -
特級大師專業提示:使用 cuML 通過堆疊奪得 Kaggle 競賽冠軍
http://www.open-lab.net/zh-cn/blog/grandmaster-pro-tip-winning-first-place-in-a-kaggle-competition-with-stacking-using-cuml/
Thu, 22 May 2025 06:22:33 +0000
http://www.open-lab.net/zh-cn/blog/?p=14075
Continued]]>
堆疊是一種先進的表格數據建模技術,通過結合多個不同模型的預測來實現高性能。利用 GPU 的計算速度,可以高效地訓練大量模型。其中包括梯度提升決策樹 (Gradient Boosted Decision Trees, GBDT) 、深度學習神經網絡 (Deep Learning Neural Networks, NN) 以及其他機器學習 (Machine Learning, ML) 模型,例如支持向量回歸 (Support Vector Regression, SVR) 和 K 最近鄰 (K-Nearest Neighbors, KNN) 。這些單獨的模型被稱為 Level 1 模型。 然后訓練 Level 2 模型,這些模型使用 Level 1 模型的輸出作為輸入。Level 2 模型學習使用 Level 1 模型的不同組合來預測不同場景中的目標。最后,
Source
]]>
14075
-
使用 OpenUSD 和 SimReady 資產構建 AI 工廠
http://www.open-lab.net/zh-cn/blog/designing-ai-factories-using-openusd-and-simready-assets/
Sun, 18 May 2025 06:09:21 +0000
http://www.open-lab.net/zh-cn/blog/?p=13941
Continued]]>
適用于 AI 工廠 數字孿生的 NVIDIA Omniverse Blueprint 在 COMPUTEX 2025 上發布 ,現已支持 OpenUSD 模式 。該藍圖采用新工具,可在電力、冷卻和網絡基礎設施方面模擬數據中心設計的更多方面。工程團隊現在可以在逼真的虛擬世界中設計和測試整個 AI 工廠,幫助他們及早發現問題,從而構建更智能、更可靠的設施。 此藍圖的核心是 SimReady 標準化工作流程的首次亮相,該框架用于映射實現 SimReady 資產和功能所需的基本流程、角色、文檔和技術。 NVIDIA 的開發初衷是幫助內部團隊應對圍繞專為多個模擬運行時設計的 OpenUSD 資產構建新規范的獨特挑戰,現在,NVIDIA 正在公開提供這種“生命資源”。通過與更廣泛的生態系統分享經驗,NVIDIA 旨在幫助開發者簡化其工作流程,
Source
]]>
13941
-
使用 NVIDIA Air 服務將模擬與現實世界連接
http://www.open-lab.net/zh-cn/blog/connect-simulations-with-the-real-world-using-nvidia-air-services/
Tue, 13 May 2025 05:12:41 +0000
http://www.open-lab.net/zh-cn/blog/?p=13788
Continued]]>
NVIDIA Air 通過創建真實數據中心基礎設施部署的相同副本來實現云規模效率。借助 NVIDIA Air,您可以啟動數百臺交換機和服務器,并使用單個腳本進行配置。 NVIDIA Air 的眾多優勢之一是能夠將您的模擬與現實世界連接起來。在您的環境中啟用外部連接可以顯著增強其功能、性能和靈活性。集成云資源、API、第三方數據、協作工具或高級機器學習模型,以提高仿真的質量、規模和實時性。它還促進了協作、可擴展性,以及在本地實施難以或成本高昂的先進技術的使用。 本文介紹了通過使用 NVIDIA Air 中的服務將 NVIDIA Air 模擬連接到外部世界所提供的各種用例和優勢。 通過在仿真中啟用服務,可以從外部連接到仿真。服務在 sim-by-sim 的基礎上啟用。您可以在具有外部公開接口的任何節點上啟用服務。常見服務包括 HTTP、HTTPS 和 SSH 服務,
Source
]]>
13788
-
云端 Apache Spark 加速深度學習和大語言模型推理
http://www.open-lab.net/zh-cn/blog/accelerate-deep-learning-and-llm-inference-with-apache-spark-in-the-cloud/
Thu, 08 May 2025 06:18:25 +0000
http://www.open-lab.net/zh-cn/blog/?p=13821
Continued]]>
Apache Spark 是用于大數據處理和分析的行業領先平臺。隨著非結構化數據(documents、emails、multimedia content)的日益普及,深度學習 (DL) 和大語言模型 (LLMs) 已成為現代數據分析工作流的核心組成部分。這些模型支持各種下游任務,例如圖像描述、語義標記、文檔摘要等。 然而,將 GPU 密集型 DL 與 Spark 相結合一直是一項挑戰。 NVIDIA RAPIDS Accelerator for Apache Spark 和 Spark RAPIDS ML 庫可實現無縫 GPU 加速,但主要用于提取、轉換和加載 (ETL) 以及傳統機器學習 (ML) 工作負載。 最近用于分布式訓練和推理的 Spark API (如上一篇博客中所述) 在 DL 集成方面取得了重大進展。本文以這項工作為基礎,
Source
]]>
13821
-
使用 NVIDIA NIM 對游戲進行代理式 LLM 和 VLM 推理基準測試
http://www.open-lab.net/zh-cn/blog/benchmarking-agentic-llm-and-vlm-reasoning-for-gaming-with-nvidia-nim/
Thu, 24 Apr 2025 04:08:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=13726
Continued]]>
這是 LLM 基準測試系列的第一篇文章,介紹了在使用 NVIDIA NIM 部署 Meta Llama 3 模型時,如何使用 GenAI-Perf 進行基準測試。 來自倫敦大學學院 (UCL) 決策、行動和推理知識 (DARK) 實驗室的研究人員在其全新的基于游戲的基準測試套件 Benchmarking Agentic LLM 和 VLM Reasoning On Games (BALROG) 中利用了 NVIDIA NIM 微服務。BALROG 經過專門設計,可使用各種游戲環境評估模型在具有挑戰性的長距交互式任務中的代理能力。 來自 DARK Lab 的團隊利用 NVIDIA NIM 簡化了詳盡的基準測試流程。在 DeepSeek-R1 NIM 發布時 ( 2025 年 2 月底) ,他們能夠使用 DeepSeek-R1,這是一個包含 671 億個參數的大型模型。
Source
]]>
13726
-
在大型語言模型時代,通過消息量化和流式傳輸實現高效的聯邦學習
http://www.open-lab.net/zh-cn/blog/efficient-federated-learning-in-the-era-of-llms-with-message-quantization-and-streaming/
Wed, 16 Apr 2025 05:23:34 +0000
http://www.open-lab.net/zh-cn/blog/?p=13572
Continued]]>
聯邦學習 (Federated Learning, FL) 已成為一種在分布式數據源中訓練機器學習模型的有前景的方法,同時還能保護數據隱私。但是,在平衡模型要求和通信能力時,FL 面臨著與通信開銷和本地資源限制相關的重大挑戰。 特別是在當前的大語言模型 (LLMs) 時代,FL 在部署具有數十億參數的 LLMs 時面臨著計算挑戰。這些模型的龐大規模加劇了通信和內存限制。由于帶寬限制,一次性傳輸完整的模型更新可能不可行,并且本地內存限制可能會使處理大型模型進行通信具有挑戰性。解決這些問題需要創新策略。 NVIDIA FLARE 是一款與領域無關、開源且可擴展的聯邦學習 SDK,通過引入可靠的通信功能、對多個并發訓練作業的支持以及針對可能因網絡條件而中斷的作業的魯棒性,增強了現實世界的聯邦學習體驗。 NVFlare 2.4.0 版本引入了流式傳輸 API,
Source
]]>
13572
-
高效擴展 Polars 的 GPU Parquet 讀取器
http://www.open-lab.net/zh-cn/blog/efficiently-scaling-polars-gpu-parquet-reader/
Thu, 10 Apr 2025 06:09:06 +0000
http://www.open-lab.net/zh-cn/blog/?p=13503
Continued]]>
在處理大型數據集時,數據處理工具的性能變得至關重要。 Polars 是一個以速度和效率聞名的開源數據操作庫,提供由 cuDF 驅動的 GPU 加速后端,可以顯著提高性能。 “但是,為了充分利用 Polars GPU 后端 的強大功能,必須優化數據加載過程并有效管理工作流程所需的內存。隨著 GPU 后端開發的不斷推進,在使用 GPU Parquet 閱讀器時,隨著數據集大小的增加,我們還可以使用一些其他技術來保持高性能。現有的 Polars GPU Parquet 讀取器 (到版本 24.10) 無法針對更高的數據集大小進行擴展。” 本文將探討分塊 Parquet Reader 與 Unified Virtual Memory (UVM) 相結合后,如何在性能上優于非分塊閱讀器和基于 CPU 的方法。 隨著規模系數 (SF) 的增加,
Source
]]>
13503
-
在 NVIDIA NeMo Guardrails 中使用 Cleanlab 可信語言模型防止 LLM 幻覺
http://www.open-lab.net/zh-cn/blog/prevent-llm-hallucinations-with-the-cleanlab-trustworthy-language-model-in-nvidia-nemo-guardrails/
Wed, 09 Apr 2025 06:15:33 +0000
http://www.open-lab.net/zh-cn/blog/?p=13509
Continued]]>
隨著越來越多的企業將 Large Language Models (LLM) 集成到其應用中,他們面臨著一個嚴峻的挑戰:LLM 可能會產生合理但錯誤的反應,即幻覺。AI 護欄 (即在 AI 模型和應用中執行的保護機制) 是確保 AI 應用可靠性的熱門技術。 本文將介紹如何使用 Cleanlab Trustworthy Language Model (TLM) 和 NVIDIA NeMo Guardrails 構建更安全、無幻覺的 AI 應用。 NVIDIA NeMo Guardrails 是一個可擴展的平臺,用于在 AI 智能體和其他生成式 AI 應用中定義、編排和執行 AI 導軌或策略。它包含一套可定制且可擴展的內容安全、越獄檢測、對話式主題控制等操作指南。NeMo Guardrails 提供了一個統一的框架,用于集成和編排各種 AI 護欄,
Source
]]>
13509
-
使用先進的開放式 NVIDIA Llama Nemotron 推理模型構建企業 AI 智能體
http://www.open-lab.net/zh-cn/blog/build-enterprise-ai-agents-with-advanced-open-nvidia-llama-nemotron-reasoning-models-2/
Tue, 08 Apr 2025 06:21:51 +0000
http://www.open-lab.net/zh-cn/blog/?p=13515
Continued]]>
此更新文章最初發布于 2025 年 3 月 18 日 。 企業組織正在采用 AI 智能體 來提高生產力并簡化運營。為了更大限度地發揮影響,這些智能體需要強大的推理能力來解決復雜問題、發現隱藏的聯系,并在動態環境中自主做出邏輯決策。 推理模型能夠解決復雜問題,因此已成為代理式 AI 生態系統的關鍵組成部分。通過使用長思考、Best-of-N 或自我驗證等技術,這些模型能夠更好地處理代理式流程不可或缺的推理密集型任務。 從自動化客戶支持到優化供應鏈和執行財務戰略,推理模型正在為各種應用提供支持。在物流領域,它們通過模擬假設場景 (例如在貨物中斷期間改變路線) 來提高效率。在科學研究中,它們有助于假設生成和多步驟解決問題。在醫療保健領域,它們可增強診斷和治療規劃。通過實現精確的邏輯推理,這些模型正在推動各行各業提供更可靠、更可擴展的 AI 解決方案。
Source
]]>
13515
-
使用先進的開放式 NVIDIA Llama Nemotron 推理模型構建企業級 AI 智能體
http://www.open-lab.net/zh-cn/blog/build-enterprise-ai-agents-with-advanced-open-nvidia-llama-nemotron-reasoning-models/
Tue, 18 Mar 2025 05:22:03 +0000
http://www.open-lab.net/zh-cn/blog/?p=13323
Continued]]>
企業組織正在采用 AI 智能體 來提高生產力并簡化運營。為了更大限度地發揮影響,這些智能體需要強大的推理能力來解決復雜的問題,發現隱藏的聯系,并在動態環境中自主做出邏輯決策。 由于推理模型能夠解決復雜問題,因此已成為代理式 AI 生態系統的關鍵部分。通過使用長思考、Best-of-N 或自我驗證等技術,這些模型可以更好地處理代理式流程不可或缺的推理密集型任務。 從自動化客戶支持到優化供應鏈和執行財務策略,推理模型正在為各種應用提供支持。在物流領域,它們通過模擬假設場景 (例如在中斷運輸期間改變貨運路線) 來提高效率。在科學研究中,它們有助于生成假設和多步驟解決問題。在醫療健康領域,它們增強了診斷和治療規劃。通過實現精確的邏輯推理,這些模型正在推動各行各業實現更可靠、更可擴展的 AI 解決方案。 本文將介紹 NVIDIA Llama Nemotron 推理模型系列 。
Source
]]>
13323
-
借助 NVIDIA DGX 云基準測試衡量和提高 AI 工作負載性能
http://www.open-lab.net/zh-cn/blog/measure-and-improve-ai-workload-performance-with-nvidia-dgx-cloud-benchmarking/
Tue, 18 Mar 2025 02:35:56 +0000
http://www.open-lab.net/zh-cn/blog/?p=13275
Continued]]>
隨著 AI 功能的進步,了解硬件和軟件基礎架構選擇對工作負載性能的影響對于技術驗證和業務規劃都至關重要。組織需要一種更好的方法來評估現實世界中的端到端 AI 工作負載性能和總擁有成本,而不僅僅是比較原始 FLOPs 或每個 GPU 的每小時成本。實現出色的 AI 性能需要的不僅僅是強大的 GPU。它需要一個經過充分優化的平臺,包括基礎架構、軟件框架和應用級增強功能。 在評估 AI 性能時,請提出以下關鍵問題:您的實現是否正確,或者是否存在與參考架構相比減慢您速度的錯誤?集群的最佳規模是什么?選擇哪些軟件框架可以縮短上市時間?傳統的芯片級指標不足以完成這項任務,導致投資未得到充分利用,并且錯過了效率提升。衡量 AI 工作負載和基礎設施的性能至關重要。 本文將介紹 NVIDIA DGX 云基準測試,這是一套工具,用于評估跨 AI 工作負載和平臺的訓練和推理性能,其中包括基礎設施軟件、
Source
]]>
13275
-
借助 NVIDIA DGX 云無服務器推理在云環境中無縫擴展人工智能
http://www.open-lab.net/zh-cn/blog/seamlessly-scale-ai-across-cloud-environments-with-nvidia-dgx-cloud-serverless-inference/
Tue, 18 Mar 2025 02:07:41 +0000
http://www.open-lab.net/zh-cn/blog/?p=13272
Continued]]>
NVIDIA DGX Cloud Serverless Inference 是一種自動擴展 AI 推理解決方案,可實現快速可靠的應用部署。 DGX Cloud Serverless Inference 由 NVIDIA Cloud Functions (NVCF) 提供支持,可在多云和本地環境中提取多集群基礎設施設置,以處理 GPU 加速的工作負載。 無論是管理 AI 工作負載、高性能計算 (HPC) 、AI 模擬,還是容器化應用程序,該平臺都能讓您在抽象底層基礎設施的同時進行全球擴展。一次部署,隨處擴展。 獨立軟件供應商 (ISV) 在部署和擴展 AI 應用時經常面臨挑戰。這些應用程序需要在全球范圍內或更接近客戶基礎設施所在的位置進行部署。這可能需要在多個云、數據中心和地理區域進行部署,從而導致復雜的基礎設施運營。Serverless AI 推理通過在云、
Source
]]>
13272
-
借助 NVIDIA DriveOS LLM SDK 簡化自動駕駛汽車應用的 LLM 部署
http://www.open-lab.net/zh-cn/blog/streamline-llm-deployment-for-autonomous-vehicle-applications-with-nvidia-driveos-llm-sdk/
Mon, 10 Mar 2025 06:57:15 +0000
http://www.open-lab.net/zh-cn/blog/?p=13098
Continued]]>
大語言模型 (LLMs) 在自然語言處理 (NLP) 中表現出非凡的泛化能力。它們廣泛應用于翻譯、數字助理、推薦系統、上下文分析、代碼生成、網絡安全等。汽車應用對基于 LLMs 的自動駕駛和座艙功能解決方案的需求與日俱增。在通常資源受限的汽車平臺上部署 LLMs 和 視覺語言模型 (VLMs) 已成為一項嚴峻的挑戰。 本文將介紹 NVIDIA DriveOS LLM SDK,該庫旨在優化自動駕駛汽車 DRIVE AGX 平臺 上先進 LLM 和 VLM 的推理。它是基于 NVIDIA TensorRT 推理引擎構建的輕量級工具包。它整合了針對 LLM 的特定優化,例如自定義注意力內核和量化技術,以便在汽車平臺上部署 LLM。 該工具包提供易于使用的 C++ 庫和示例代碼,用于導出、構建 TensorRT 引擎、執行推理,以及使用完整的端到端工作流對 LLM 進行基準測試。
Source
]]>
13098
-
借助 Databricks Pixels 2.0 和 MONAI 加速醫學影像 AI 運營
http://www.open-lab.net/zh-cn/blog/accelerate-medical-imaging-ai-operations-with-databricks-pixels-2-0-and-monai/
Fri, 28 Feb 2025 06:32:31 +0000
http://www.open-lab.net/zh-cn/blog/?p=13152
Continued]]>
根據世界衛生組織(WHO)的數據,全球每年都會進行 36 億次醫學影像檢查,以診斷、監測和治療各種疾病。大多數圖像都存儲在全球公認的標準 DICOM(Digital Imaging and Communications in Medicine)中。DICOM 格式的成像研究結合了非結構化圖像和結構化元數據。 數據倉庫等典型的數據管理系統無法適應非結構化數據類型。此外,數據湖無法對元數據進行分類和存儲,而元數據對于搜索、治理和這些影像檢查的可訪問性至關重要。Databricks Pixels 0.6 于 2021 年開發,通過提供可擴展的環境解決了許多此類挑戰,您可以從中提取、管理和編錄 Databricks Data Intelligence Platform 中的所有醫學影像數據。 現在,借助 Databricks Pixels 2.0 解決方案加速器,
Source
]]>
13152
-
NVIDIA RTX Mega Geometry 現已支持新的 Vulkan 示例程序
http://www.open-lab.net/zh-cn/blog/nvidia-rtx-mega-geometry-now-available-with-new-vulkan-samples/
Thu, 06 Feb 2025 04:23:27 +0000
http://www.open-lab.net/zh-cn/blog/?p=12866
Continued]]>
在過去 30 年里,計算機圖形領域的幾何細節呈指數級增長。為了渲染具有更高實例數量和三角形密度的高質量素材,NVIDIA 推出了 RTX Mega Geometry。RTX Mega Geometry 現已通過 NVIDIA RTX Kit 推出,這是一套渲染技術,可利用 AI 對游戲進行光線追蹤、渲染具有宏大幾何圖形的場景,以及創建具有逼真視覺效果的游戲角色。 作為此版本的一部分,新的 Vulkan 示例已提供給所有開發者。這些開源示例展示了如何使用三角形集群更快地構建加速結構、渲染大量動畫幾何圖形、具有流式傳輸細節級別(LoD)的路徑追蹤模型等。NVIDIA 還將發布兩個庫,幫助將幾何圖形處理到集群中。有關 RTX Mega Geometry 的更多信息,請參閱 GitHub 上的文檔。有關單個 Vulkan 示例的更多信息,請訪問每個存儲庫。 此示例介紹了集群,
Source
]]>
12866
人人超碰97caoporen国产