教程 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Wed, 14 May 2025 08:21:43 +0000 zh-CN hourly 1 196178272 在 Azure AI Foundry 上使用 NVIDIA NIM 加速 AI 推理 http://www.open-lab.net/zh-cn/blog/accelerated-ai-inference-with-nvidia-nim-on-azure-ai-foundry/ Mon, 12 May 2025 05:22:02 +0000 http://www.open-lab.net/zh-cn/blog/?p=13799 Continued]]> 將 NVIDIA NIM 微服務 集成到 Azure AI Foundry ,標志著企業 AI 開發的重大飛躍。通過將 NIM 微服務與 Azure 可擴展的安全基礎架構相結合,企業組織現在可以比以往更高效地部署功能強大的即用型 AI 模型。 NIM 微服務容器化,可為預訓練和自定義 AI 模型提供 GPU 加速推理。NIM 微服務集成了 NVIDIA 和更廣泛的社區的領先推理技術,可為 NVIDIA 加速基礎設施上的最新 AI 模型提供優化的響應延遲和吞吐量。 開發者可以通過符合每個領域行業標準的 API 訪問 AI 模型,從而簡化 AI 應用的開發。NIM 支持跨多個領域和一系列 AI 模型的 AI 用例,包括社區模型、NVIDIA AI Foundation 模型和 NVIDIA 合作伙伴提供的自定義 AI 模型。其中包括語音、圖像、視頻、3D、藥物研發、

Source

]]>
13799
擴展 NVIDIA Agent Intelligence Toolkit 以支持新的代理式框架 http://www.open-lab.net/zh-cn/blog/extending-the-nvidia-agent-intelligence-toolkit-to-support-new-agentic-frameworks/ Thu, 08 May 2025 08:18:11 +0000 http://www.open-lab.net/zh-cn/blog/?p=13856 Continued]]> NVIDIA Agent Intelligence toolkit 是一個開源庫,用于高效連接和優化 AI 智能體 團隊。它專注于幫助開發者快速構建、評估、分析和加速復雜的代理式 AI 工作流,即多個 AI 智能體協作執行任務的系統。 “智能體工具包作為一個統一框架,集成了各種平臺 (例如 LangChain、LlamaIndex、Semantic Kernel 和 CrewAI) 中的現有智能體、工具和工作流。該工具包將這些組件視為函數調用,使其可組合和可重復使用。可以將智能體工具包視為編排 AI 智能體團隊的“指揮”。此外,它還提供用于分析 (例如跟蹤延遲和 token 使用情況) 、優化、擴展和可觀察性的工具,確保企業級代理式系統的高效性能。 Agent Intelligence 工具包的核心優勢在于其可擴展性。

Source

]]>
13856
使用 Python 通過 OpenUSD 實現 3D 工作流自動化 http://www.open-lab.net/zh-cn/blog/using-python-to-automate-3d-workflows-with-openusd/ Wed, 07 May 2025 06:36:21 +0000 http://www.open-lab.net/zh-cn/blog/?p=13830 Continued]]> 通用場景描述 (OpenUSD) 提供了一個強大、開放且可擴展的生態系統,用于在復雜的 3D 世界中進行描述、合成、仿真和協作。從處理大型數據集和 數字孿生的 自動化工作流程,到實現游戲的實時渲染以及簡化制造和能源領域的工業運營,OpenUSD 正在轉變各行各業處理 3D 數據的方式。 Python 的腳本功能和易用性使其成為 OpenUSD 的理想合作伙伴,幫助實現任務自動化并加速開發。 在這篇博客文章中,我們將探索 Python 和 USD 之間的協同作用,并提供資源幫助您入門。 OpenUSD 主要使用 C++ 實現,為 3D 場景操作提供了高性能、高效的框架。C++ API 分為幾個關鍵包。 但是,USD 為其大多數庫提供 Python 綁定,使其無需 C++ 專業知識即可進行快速原型設計、腳本編寫和自動化。

Source

]]>
13830
LLM 推理基準測試指南:NVIDIA GenAI-Perf 和 NIM http://www.open-lab.net/zh-cn/blog/llm-performance-benchmarking-measuring-nvidia-nim-performance-with-genai-perf/ Tue, 06 May 2025 06:45:58 +0000 http://www.open-lab.net/zh-cn/blog/?p=13833 Continued]]> 這是 LLM 基準測試系列 的第二篇文章,介紹了在使用 NVIDIA NIM 部署 Meta Llama 3 模型 時,如何使用 GenAI-Perf 對其進行基準測試。 在構建基于 LLM 的應用時,了解這些模型在給定硬件上的性能特征至關重要。這有多種用途: 作為以客戶端 LLM 為中心的基準測試工具, NVIDIA GenAI-Perf 提供了以下關鍵指標: GenAI-Perf 還支持任何符合 OpenAI API 規范 (業內廣泛接受的默認標準)的 LLM 推理服務。 在本基準測試指南中,我們使用了 NVIDIA NIM ,這是一系列推理微服務,可為基礎 LLM 和微調 LLM 提供高吞吐量和低延遲推理。NIM 具有易用性、企業級安全性和可管理性。 為優化您的 AI 應用,本文將介紹如何為 Llama 3 設置 NIM 推理微服務,

Source

]]>
13833
CUDA 入門教程:更簡單的介紹 (更新版) http://www.open-lab.net/zh-cn/blog/even-easier-introduction-cuda-2/ Fri, 02 May 2025 06:58:38 +0000 http://www.open-lab.net/zh-cn/blog/?p=13841 Continued]]> 注意:本博文最初發布于 2017 年 1 月 25 日,但已進行編輯以反映新的更新。 本文非常簡單地介紹了 CUDA,這是 NVIDIA 的熱門并行計算平臺和編程模型。我在 2013 年寫過一篇文章,名為“ An Easy Introduction to CUDA ”,多年來一直備受歡迎。但是,CUDA 編程變得更加簡單,GPU 也變得更快了,所以現在是時候更新 (甚至更輕松) 介紹了。 CUDA C++ 只是使用 CUDA 創建大規模并行應用程序的多種方法之一。它允許您使用功能強大的 C++ 編程語言來開發由 GPU 上運行的數千個并行線程加速的高性能算法。許多開發者都以這種方式加速了需要大量計算和帶寬的應用程序,包括支持人工智能持續革命 (即 Deep Learning ) 的庫和框架。 您聽說過 CUDA,并且有興趣學習如何在自己的應用中使用 CUDA。如果您是 C++…

Source

]]>
13841
借助超參數優化實現堆疊泛化:使用 NVIDIA cuML 在15分鐘內最大化準確性 http://www.open-lab.net/zh-cn/blog/stacking-generalization-with-hpo-maximize-accuracy-in-15-minutes-with-nvidia-cuml/ Thu, 01 May 2025 07:09:25 +0000 http://www.open-lab.net/zh-cn/blog/?p=13850 Continued]]> 堆疊泛化是機器學習 (ML) 工程師廣泛使用的技術,通過組合多個模型來提高整體預測性能。另一方面,超參數優化 (HPO) 涉及系統搜索最佳超參數集,以更大限度地提高給定 ML 算法的性能。 同時使用堆棧和 HPO 時,一個常見的挑戰是巨大的計算需求。這些方法通常需要訓練多個模型,并針對每個模型迭代大量超參數組合。這可能會很快變得耗費大量資源和時間,尤其是對于大型數據集而言。 在本文中,我們將演示如何簡化此工作流,該工作流將堆棧泛化與 HPO 相結合。我們將展示如何使用 cuML 庫的 GPU 加速計算在短短 15 分鐘內執行此工作流。得益于 cuML 與 scikit-learn 的零代碼更改集成,您可以使用現有的 ML 工作流進行 GPU 加速 (無需修改代碼) ,并實現相同的模型準確性。與基于 CPU 的執行 (通常一次只運行一個試驗) 不同,

Source

]]>
13850
構建應用程序以安全使用 KV 緩存 http://www.open-lab.net/zh-cn/blog/structuring-applications-to-secure-the-kv-cache/ Tue, 29 Apr 2025 08:32:44 +0000 http://www.open-lab.net/zh-cn/blog/?p=13663 Continued]]> 在與基于 Transformer 的模型 (如 大語言模型 (LLM) 和 視覺語言模型 (VLM)) 交互時,輸入結構會塑造模型的輸出。但提示通常不僅僅是簡單的用戶查詢。在實踐中,它們通過動態組合來自系統指令、上下文數據和用戶輸入等各種來源的數據來優化響應。 在多租戶環境中,多個用戶共享同一應用程序基礎設施,這種動態提示結構可能會帶來意外的安全風險。其中一個風險來自 prefix caching 優化,如果處理不當,可能會跨用戶邊界泄露信息。 本文將探討提示結構與緩存的交集,以及它們的交互如何在 LLM 驅動的應用中造成細微漏洞。通過了解這些機制,開發者可以設計出更安全的系統。 如果您僅以聊天機器人用戶的身份與 LLM 進行交互,您可能會將提示視為如下所示: 但在大多數真實應用中,此用戶查詢只是更大規模的動態構建輸入(即應用提示)的 一部分。

Source

]]>
13663
借助代理式 AI 系統推進網絡安全運營 http://www.open-lab.net/zh-cn/blog/advancing-cybersecurity-operations-with-agentic-ai-systems/ Mon, 28 Apr 2025 08:59:07 +0000 http://www.open-lab.net/zh-cn/blog/?p=13678 Continued]]> 被動式 AI 時代已經過去。一個新時代正在開始,AI 不僅能做出響應,還能思考、計劃和行動。 大語言模型 (LLM) 的快速發展釋放了 代理式 AI 系統的潛力,使包括網絡安全在內的許多領域的繁瑣任務實現自動化。 過去,網絡安全領域的 AI 應用主要側重于檢測跨不同數據源、網絡環境和網絡擊殺鏈各個階段的惡意或異常活動。由于檢測是自動化的中心,大部分安全操作仍然是手動操作。安全分析師仍需花費大量時間手動調查警報、交叉參考情報以及評估和響應潛在威脅。 隨著代理式系統的興起,網絡安全領域的 AI 應用開始圍繞安全分析師的需求進行重新規劃。這些系統可自動執行分析師目前執行的許多耗時而繁瑣的任務,使他們能夠專注于更高級別的判斷決策和深度調查。通過利用高級推理、動態決策和工具調用功能,代理式系統現在可以承擔復雜但重復性的任務,例如研究威脅情報、關聯安全警報和執行初步響應操作。

Source

]]>
13678
使用 NVIDIA NeMo 微服務,通過數據飛輪增強 AI 智能體 http://www.open-lab.net/zh-cn/blog/enhance-your-ai-agent-with-data-flywheels-using-nvidia-nemo-microservices/ Wed, 23 Apr 2025 05:54:07 +0000 http://www.open-lab.net/zh-cn/blog/?p=13617 Continued]]> 企業數據不斷變化。隨著時間的推移,這給保持 AI 系統的準確性帶來了重大挑戰。隨著企業組織越來越依賴 代理式 AI 系統 來優化業務流程,保持這些系統與不斷變化的業務需求和新數據保持一致變得至關重要。 本文將深入探討如何使用 NVIDIA NeMo 微服務構建數據飛輪迭代,并簡要概述構建端到端流程的步驟。如需了解如何使用 NeMo 微服務解決構建數據飛輪時面臨的各種挑戰,請參閱使用 NVIDIA NeMo 微服務更大限度地提高 AI Agent 性能。 數據飛輪是一種自我增強的循環。從用戶交互中收集的數據可改進 AI 模型,從而提供更好的結果,吸引更多用戶生成更多數據,從而在持續改進循環中進一步增強系統。這類似于獲取經驗和收集反饋以學習和改進工作的過程。 因此,需要部署的應用持續適應并保持高效是將數據 flywheel 整合到代理式系統中的主要動機。

Source

]]>
13617
頂級大師專業提示:使用 NVIDIA cuDF-pandas 進行特征工程,在 Kaggle 競賽中奪冠 http://www.open-lab.net/zh-cn/blog/grandmaster-pro-tip-winning-first-place-in-kaggle-competition-with-feature-engineering-using-nvidia-cudf-pandas/ Thu, 17 Apr 2025 06:16:48 +0000 http://www.open-lab.net/zh-cn/blog/?p=13631 Continued]]> 在處理表格數據時,特征工程仍然是提高模型準確性的最有效方法之一。與 NLP 和計算機視覺等神經網絡可以從原始輸入中提取豐富模式的領域不同,性能最佳的表格模型 (尤其是梯度提升決策樹) 仍然從精心打造的特征中獲得顯著優勢。然而,潛在的有用特征數量意味著,深入研究這些特征通常需要大量的計算。在 CPU 上使用標準 pandas 生成和驗證數百或數千個功能理念的速度太慢,無法實現。 這就是 GPU 加速改變游戲規則的地方。借助 NVIDIA cuDF-pandas,我可以在 GPU 上加速 pandas 操作,無需更改代碼,從而為 Kaggle 2 月的 Playground 比賽快速生成和測試 10000 多個設計功能。這種加速的發現過程是關鍵的差異化因素。在大幅縮短的時間內 (幾天而不是潛在的幾個月) ,發現的最佳 500 個特征顯著提高了我的 XGBoost 模型的準確性,

Source

]]>
13631
借助 NVIDIA FLARE 和 Meta ExecuTorch,在移動設備上輕松進行聯邦學習 http://www.open-lab.net/zh-cn/blog/effortless-federated-learning-on-mobile-with-nvidia-flare-and-meta-executorch/ Fri, 11 Apr 2025 05:41:04 +0000 http://www.open-lab.net/zh-cn/blog/?p=13578 Continued]]> NVIDIA 和 Meta 的 PyTorch 團隊宣布開展突破性合作,通過集成 NVIDIA FLARE 和 ExecuTorch ,將聯邦學習 (FL) 功能引入移動設備。 NVIDIA FLARE 是一款與領域無關、開源、可擴展的 SDK,使研究人員和數據科學家能夠根據聯合范式調整現有的機器學習或深度學習工作流程。它還使平臺開發者能夠為分布式多方協作構建安全、隱私保護的產品。 ExecuTorch 是一種端到端解決方案,可跨移動和邊緣設備實現設備端推理和訓練功能。它是 PyTorch Edge 生態系統的一部分,支持將各種 PyTorch 模型高效部署到邊緣設備。 通過集成這兩者,我們為您提供了一個解決方案,讓您在移動設備上利用 FL 的強大功能,同時保護用戶隱私和數據安全。要啟用跨設備 FL,有兩個關鍵組件: 借助 NVIDIA FLARE 和…

Source

]]>
13578
使用合成數據評估和增強 RAG 工作流性能 http://www.open-lab.net/zh-cn/blog/evaluating-and-enhancing-rag-pipeline-performance-using-synthetic-data/ Mon, 07 Apr 2025 06:31:42 +0000 http://www.open-lab.net/zh-cn/blog/?p=13521 Continued]]> 隨著 大語言模型 (LLM) 在各種問答系統中的普及, 檢索增強生成 (RAG) 流程也成為焦點。RAG 流程將 LLM 的生成能力與外部數據源和檢索機制相結合,使模型能夠訪問微調期間可能不存在的特定領域信息。 RAG 性能很大程度上取決于底層文本嵌入模型的質量。嵌入模型不佳會導致檢索結果欠佳,進而降低 RAG 系統的整體性能。在處理企業特定的內部數據時尤其如此,因為開箱即用的模型可能無法提供所需的準確性。 為確保 RAG 系統能夠有效處理您的特定數據,您必須評估預訓練嵌入模型在語料庫中的表現是否良好。此評估所需的標注數據與最終用戶提交的查詢類型非常相似。例如,帶標注的樣本數據集可能包括以下內容: 在許多情況下,現有嵌入模型在應用于特定領域的數據時無法產生最佳結果。這就需要使用與企業語料庫共享相同分布的標注數據來定制這些模型。 在本文中,

Source

]]>
13521
Volcano 調度程序中防止 GPU 碎片的實用技巧 http://www.open-lab.net/zh-cn/blog/practical-tips-for-preventing-gpu-fragmentation-for-volcano-scheduler/ Mon, 31 Mar 2025 08:16:55 +0000 http://www.open-lab.net/zh-cn/blog/?p=13440 Continued]]> 在 NVIDIA,我們以精準和創新解決復雜的基礎設施挑戰為豪。當 Volcano 在其 NVIDIA DGX 云調配的 Kubernetes 集群中面臨 GPU 利用率不足時,我們介入提供了一個不僅達到而且超過預期的解決方案。 通過將先進的調度技術與對分布式工作負載的深入理解相結合,我們實現了約 90% 的 GPU 占用率,遠高于 80% 的合同目標。下面詳細介紹了問題、我們的方法和結果。 DGX 云 Kubernetes 集群由數千個 GPU 組成,每個 GPU 均配備多個 NVIDIA L40S GPU。該集群支持多種工作負載: 盡管有可靠的硬件,但該集群仍存在 GPU 碎片化問題,導致節點被部分占用,無法用于大型作業。這種效率低下的情況又因 Volcano 調度程序 它使用了一個分組調度算法。 如果不進行干預,我們可能會違反合同協議,維持至少 80%

Source

]]>
13440
使用 PyG 和圖形數據庫通過 GraphRAG 提高問答準確性 http://www.open-lab.net/zh-cn/blog/boosting-qa-accuracy-with-graphrag-using-pyg-and-graph-databases/ Wed, 26 Mar 2025 06:05:45 +0000 http://www.open-lab.net/zh-cn/blog/?p=13422 Continued]]> 大語言模型(LLMs)在處理特定領域的問題時往往難以保證準確性,尤其是那些需要多跳推理或訪問專有數據的問題。雖然檢索增強生成(RAG)可以提供幫助,但傳統的向量搜索方法通常并不完善。 在本教程中,我們將向您展示如何將 GraphRAG 與經過微調的 GNN+LLM 模型結合使用,以實現比標準基準高 2 倍的準確性。 這種方法對于涉及以下情況的場景特別有價值: 這種基于圖形驅動的檢索增強生成 (GraphRAG) 的特定方法建立在 G-Retriever 架構之上。G-Retriever 將接地數據表示為知識圖,將基于圖的檢索與神經處理相結合: 此過程適用于訓練數據三元組{(Qi, Ai, Gi)}: 管道遵循以下步驟: PyG 為 G-Retriever 提供模塊化設置。

Source

]]>
13422
部署 NVIDIA AI Blueprint 實現成本高效的大語言模型路由 http://www.open-lab.net/zh-cn/blog/deploying-the-nvidia-ai-blueprint-for-cost-efficient-llm-routing/ Wed, 26 Mar 2025 05:59:02 +0000 http://www.open-lab.net/zh-cn/blog/?p=13419 Continued]]> 自 2022 年 11 月 ChatGPT 發布以來, 大語言模型 (LLMs) 的能力激增,可用模型數量呈指數級增長。隨著此次擴展,LLMs 在成本、性能和專業領域的差異很大。例如,小型通用模型可以高效處理文本摘要等簡單任務。相比之下,代碼生成等復雜操作可受益于具有高級推理能力和擴展測試時計算的大型模型。 對于 AI 開發者和 MLOps 團隊而言,挑戰在于為每個提示選擇合適的模型 – 平衡準確性、性能和成本。一個一刀切的方法效率低下,導致不必要的支出或結果欠佳。 為了解決這個問題,適用于 LLM 路由器的 NVIDIA AI Blueprint 為多 LLM 路由提供了一個經過成本優化的加速框架。它無縫集成了 NVIDIA 工具和工作流,可將提示動態路由到最合適的 LLM,為企業級 LLM 運營提供強大的基礎。 LLM 路由器的主要特性包括:

Source

]]>
13419
人人超碰97caoporen国产