Consumer Internet – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Wed, 02 Jul 2025 04:16:51 +0000 zh-CN hourly 1 196178272 在 NVIDIA Jetson 和 RTX 上運行 Google DeepMind 的 Gemma 3n http://www.open-lab.net/zh-cn/blog/run-google-deepminds-gemma-3n-on-nvidia-jetson-and-rtx/ Thu, 26 Jun 2025 04:14:13 +0000 http://www.open-lab.net/zh-cn/blog/?p=14468 Continued]]> 截至今日,NVIDIA 現已支持在 NVIDIA RTX 和 Jetson 上全面推出 Gemma 3n。上個月,Google DeepMind 在 Google I/ O 上預覽了 Gemma,其中包括兩個針對多模態設備端部署優化的新模型。 除了 3.5 版本中引入的文本和視覺功能之外,Gemma 現在還包括音頻。每個組件都集成了可信研究模型:適用于音頻的通用語音模型、適用于視覺的 MobileNet v4 和適用于文本的 MatFormer。 最大的使用進步是一項名為“逐層嵌入”的創新。它可以顯著減少參數的 RAM 使用量。Gemma 3n E4B 模型具有 80 億個參數的原始參數計數,但可以使用與 4B 模型相當的動態內存占用來運行。這使開發者能夠在資源受限的環境中使用更高質量的模型。 Gemma 系列模型在 NVIDIA Jetson 設備上運行良好,

Source

]]>
14468
使用 NVIDIA TensorRT for RTX 運行高性能 AI 應用 http://www.open-lab.net/zh-cn/blog/run-high-performance-ai-applications-with-nvidia-tensorrt-for-rtx/ Thu, 12 Jun 2025 08:01:12 +0000 http://www.open-lab.net/zh-cn/blog/?p=14261 Continued]]> NVIDIA TensorRT for RTX 現可作為 SDK 下載,該 SDK 可集成到 Windows 和 Linux 的 C++ 和 Python 應用中。在 Microsoft Build 上,我們推出了這款用于高性能 AI 推理的精簡解決方案,支持從 NVIDIA Turing 到 NVIDIA Blackwell 各代產品 (包括最新的 NVIDIA RTX PRO 系列) 的 NVIDIA GeForce RTX GPU。 此首個版本可為各種工作負載(包括卷積神經網絡(CNN)、語音模型和擴散模型)提供高性能推理。TensorRT for RTX 是創意、游戲和生產力應用的理想選擇。我們還有一個 GitHub 項目資源庫,其中包含入門 API 示例和演示,可幫助開發者快速入門。 TensorRT for RTX 基于 NVIDIA TensorRT…

Source

]]>
14261
NVIDIA TensorRT for RTX 在 Windows 11 上推出優化的推理 AI 庫 http://www.open-lab.net/zh-cn/blog/nvidia-tensorrt-for-rtx-introduces-an-optimized-inference-ai-library-on-windows/ Mon, 19 May 2025 05:35:42 +0000 http://www.open-lab.net/zh-cn/blog/?p=13929 Continued]]> 在 Windows 上,創意、游戲和生產力應用方面的 AI 體驗正在迅速擴展。有各種框架可用于在臺式機、筆記本電腦或工作站上本地加速這些應用中的 AI 推理。開發者需要適應廣泛的生態系統。他們必須在特定于硬件的庫或跨供應商框架 (如 DirectML) 之間進行選擇,以實現最高性能。DirectML 可簡化 CPU、GPU 和 NPU 之間的部署,但并不總是充分發揮每個設備的潛力。在性能和兼容性之間取得適當平衡對于開發者至關重要。 今天,我們宣布推出適用于 RTX 的 NVIDIA TensorRT ,以應對這些挑戰。它作為 Windows ML 的一部分在 Windows 11 上提供,Windows ML 是 Microsoft 在 Microsoft Build 上新發布的 AI 推理框架 。它們共同通過標準化 API 為開發者提供經 NVIDIA 優化的加速,

Source

]]>
13929
聚焦:NAVER Place 利用 NVIDIA TensorRT-LLM 優化 SLM 基礎的垂直服務 http://www.open-lab.net/zh-cn/blog/spotlight-naver-place-optimizes-slm-based-vertical-services-with-nvidia-tensorrt-llm/ Fri, 28 Feb 2025 06:40:09 +0000 http://www.open-lab.net/zh-cn/blog/?p=13155 Continued]]> NAVER 是一家韓國熱門搜索引擎公司,提供 Naver Place ,這是一項基于地理的服務,可提供有關韓國數百萬家企業和興趣點的詳細信息。用戶可以搜索不同的地點、發表評論,以及實時進行預訂或下單。 NAVER Place 垂直服務基于小語言模型 (SLMs) 來提高可用性,并專門針對 Place、Map 和 Travel。本文分享了 NVIDIA 和 NAVER 如何使用 NVIDIA TensorRT-LLM 優化 SLM 推理性能,從而在 NVIDIA Triton Inference Server 上實現基于 SLM 的垂直服務。如需詳細了解 NAVER 如何使用 AI,請參閱 NAVER Place AI 開發團隊簡介 。 與 大語言模型(LLMs) 相比,小語言模型(SLMs)是能夠以更少的參數理解自然語言的 AI 模型。眾所周知,

Source

]]>
13155
宣布推出 Nemotron-CC:用于 LLM 預訓練的萬億級英語語言數據集 http://www.open-lab.net/zh-cn/blog/announcing-nemotron-cc-a-trillion-token-english-language-dataset-for-llm-pretraining/ Thu, 09 Jan 2025 09:06:36 +0000 http://www.open-lab.net/zh-cn/blog/?p=12602 Continued]]> NVIDIA 很高興地宣布發布 Nemotron-CC,這是一種包含 6.3 萬億個令牌的 英語語言 Common Crawl 數據集 ,用于預訓練高度準確的 大語言模型 (LLMs),其中包括 1.9 萬億個令牌的合成生成數據。高質量預訓練數據集是訓練先進 LLM 的關鍵之一,近期的頂級 LLM (例如 Meta Llama 系列 ) 基于包含 15 萬億個令牌的大量數據進行了訓練。 但我們對這 15 萬億個令牌的確切構成知之甚少。Nemotron-CC 旨在解決這一問題,并使更廣泛的社區能夠訓練高度準確的 LLM。互聯網爬行數據 (通常來自 Common Crawl) 通常是最大的令牌來源。近期開放的 Common Crawl 數據集 (例如 FineWeb-Edu 和 DCLM) 展示了如何在相對較短的令牌范圍內大幅提高基準精度。但是,實現此目標的代價是移除 90%的數據。

Source

]]>
12602
聚焦:Perplexity AI 利用 NVIDIA 推理棧每月服務 4 億個搜索請求 http://www.open-lab.net/zh-cn/blog/spotlight-perplexity-ai-serves-400-million-search-queries-a-month-using-nvidia-inference-stack/ Thu, 05 Dec 2024 07:26:26 +0000 http://www.open-lab.net/zh-cn/blog/?p=12401 Continued]]> 對 AI 賦能服務的需求持續快速增長,這給 IT 和基礎設施團隊帶來了越來越大的壓力。這些團隊的任務是配置必要的硬件和軟件來滿足這一需求,同時平衡成本效益和最佳用戶體驗。Perplexity AI 的推理團隊面臨著這一挑戰。Perplexity AI 是一款由 AI 驅動的搜索引擎,每月可處理超過 435 million 個查詢。每個查詢代表多個 AI 推理請求。 為了滿足這一需求,Perplexity 推理團隊轉而使用 NVIDIA H100 Tensor Core GPUs 、 NVIDIA Triton Inference Server 和 NVIDIA TensorRT-LLM 來進行經濟高效的 大語言模型(LLM) 部署。本文根據他們的實操經驗,詳細介紹了一些部署最佳實踐和節省的 TCO。 為了支持其廣泛的用戶群并滿足搜索、總結和問答等方面的各種請求,

Source

]]>
12401
使用 EMBark 加速大規模推薦系統嵌入式訓練優化 http://www.open-lab.net/zh-cn/blog/boost-large-scale-recommendation-system-training-embedding-using-embark/ Wed, 20 Nov 2024 08:27:41 +0000 http://www.open-lab.net/zh-cn/blog/?p=12179 Continued]]> 推薦系統是互聯網行業的核心,而高效地訓練這些系統對于各大公司來說是一個關鍵問題。大多數推薦系統是深度學習推薦模型(DLRMs),包含數十億甚至數百億個 ID 特征。圖 1 示出了一個典型的結構。 近年來, NVIDIA Merlin HugeCTR 和 TorchRec 等 GPU 解決方案通過在 GPU 上存儲大規模 ID 特征嵌入并對其進行并行處理,顯著加速了 DLRM 的訓練。與 CPU 解決方案相比,使用 GPU 內存帶寬可實現顯著改進。 與此同時,隨著訓練集群中使用的 GPU 數量增加(從 8 個 GPU 增加到 128 個 GPU),我們發現嵌入的通信開銷在總訓練開銷中占較大比例。在一些大規模訓練場景中(例如在 16 個節點上),它甚至超過了一半(51%)。 這主要有兩個原因: 1、隨著集群中 GPU 數量的增加,每個節點上的嵌入表數量逐漸減少,

Source

]]>
12179
NVIDIA 中構建 RAG 基問答大語言模型工作流程 http://www.open-lab.net/zh-cn/blog/creating-rag-based-question-and-answer-llm-workflows-at-nvidia/ Mon, 28 Oct 2024 05:35:37 +0000 http://www.open-lab.net/zh-cn/blog/?p=11785 Continued]]> 利用檢索增強生成(RAG)技術快速開發解決方案,助力問答 LLM 工作流程,由此催生出新型系統架構。NVIDIA 將 AI 用于內部運營,并在系統功能與用戶期望之間取得了多項重要發現。 我們發現,無論預期的范圍或用例如何,用戶通常都希望能夠執行非 RAG 任務,例如執行文檔翻譯、編輯電子郵件甚至編寫代碼。一個普通的 RAG 應用程序可能會這樣實現:對每個消息執行檢索管道,從而導致令牌的過度使用,并由于包含不相關的結果而導致不必要的延遲。 我們還發現,即使應用程序專為訪問內部私有數據而設計,用戶也非常喜歡訪問 Web 搜索和摘要功能。我們使用 Perplexity 的搜索 API 來滿足這一需求。 在本文中,我們分享了用于解決這些問題的基本架構,即使用路由和多源 RAG 生成能夠回答各種問題的聊天應用程序。這是我們已用于 NVIDIA 生產的應用程序的精簡版本,

Source

]]>
11785
利用 NVIDIA NIM 微服務和 LangChain 構建智能代理系統 http://www.open-lab.net/zh-cn/blog/building-ai-agents-with-nvidia-nim-microservices-and-langchain/ Wed, 07 Aug 2024 03:05:25 +0000 http://www.open-lab.net/zh-cn/blog/?p=10910 Continued]]> NVIDIA NIM 是 NVIDIA AI Enterprise 的一部分,現在支持對 Llama 3.1 等模型進行工具調用。它還與 LangChain 集成,為您提供用于構建代理工作流程的生產就緒型解決方案。NIM 微服務為 Llama 3.1 等開源模型提供最佳性能,并且可以在 LangChain 應用中通過 NVIDIA API 目錄免費測試。 借助 Llama 3.1 NIM 微服務,您可以為生產部署構建具有高級功能的生成式 AI 應用。您可以使用具有先進代理功能的加速開放模型,構建更復雜、更可靠的應用。有關更多信息,請參閱跨 NVIDIA 平臺為 Llama 3.1 提供強效助力。 NIM 提供了一個與 OpenAI 兼容的工具,可以通過調用 API 實現熟悉性和一致性。現在,您可以將工具與 LangChain 綁定到 NIM 微服務,以創建結構化輸出,

Source

]]>
10910
在 cuBLAS 中引入分組 GEMM API 以及更多性能更新 http://www.open-lab.net/zh-cn/blog/introducing-grouped-gemm-apis-in-cublas-and-more-performance-updates/ Wed, 12 Jun 2024 05:43:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=10332 Continued]]> 最新版本 NVIDIA cuBLAS 庫版本 12.5 將繼續為深度學習(DL)和高性能計算(HPC)工作負載提供功能和性能。本文將概述自版本 12.0以來 cuBLAS 矩陣乘法(matrix multiplications)中的以下更新: 分組的 GEMM API 可視為批量 API 的泛化,可在一次內核啟動中對不同的矩陣大小、轉置和縮放因子進行分組和并行化。 這種方法提供加速的一個示例是多專家 (MoE)模型的批量大小為 8 和 64,以及 FP16 輸入和輸出。在本示例中,分組的 GEMM API 可以使用批量 GEMM API 實現比單純循環快 1.2 倍的速度。 這一點令人印象深刻,因為當前分組的 GEMM 核函數僅利用線程束級 MMA 指令。它們已證明可以與利用線程束級 MMA (wgmma) 指令的分批 GEMM 核函數進行競爭。

Source

]]>
10332
聚焦:思科借助 NVIDIA BlueField-3 DPU 提高工作負載安全性和運營效率 http://www.open-lab.net/zh-cn/blog/spotlight-cisco-enhances-workload-security-and-operational-efficiency-with-nvidia-bluefield-3-dpus/ Mon, 10 Jun 2024 06:59:14 +0000 http://www.open-lab.net/zh-cn/blog/?p=10346 Continued]]> 隨著網絡攻擊變得越來越復雜,組織必須不斷采用先進的解決方案來保護其關鍵資產。其中一種解決方案是Cisco Secure Workload,這是一種全面的安全解決方案,旨在保護跨不同基礎設施、位置和外形尺寸的應用程序工作負載。 Cisco 最近發布了 Cisco Secure Workload 3.9 版,該版本將企業的安全性和運營效率提升到了新的水平。它提供了新的功能來緩解威脅和漏洞,并為部署 microsegmentation 提供了更大的靈活性。現在,它還擴展到NVIDIA BlueField-3 數據處理器,其專用 Arm 核心可以加速硬件任務并隔離特定操作,從而確保高效數據處理和強大的安全性,從而打造更精簡、更安全的基礎設施。 思科安全工作負載可為每次工作負載交互提供出色的可見性,并利用 AI 的強大功能自動執行人類管理員無法完成的任務,從而保護應用程序工作負載。

Source

]]>
10346
借助 NVIDIA NIM 無縫部署大量 LoRA Adapters http://www.open-lab.net/zh-cn/blog/seamlessly-deploying-a-swarm-of-lora-adapters-with-nvidia-nim/ Fri, 07 Jun 2024 07:49:27 +0000 http://www.open-lab.net/zh-cn/blog/?p=10358 Continued]]> 最新的先進基礎大型語言模型 (LLM) 擁有數十億個參數,并已在數萬億個輸入文本標記上進行了預訓練。它們通常在各種用例上都取得了驚人的成果,而無需進行任何定制。盡管如此,研究表明,通過使用高質量、特定領域的數據集調整 LLM 可以實現下游任務的最佳準確率。 在許多情況下,較小的自定義模型可以美甚至優于較大的通用 LLM,同時顯著降低部署成本。但是,針對特定下游任務定制模型可能會在創建和部署期間帶來重大挑戰。 完整的 full fine-tuning 對于大型語言模型(LLM,即更新模型的所有參數),由于在整個模型中學習所需的計算基礎設施數量,可能很困難。在部署時,基礎設施成本也會增加,因為用戶需要在內存中托管多個大型模型,或者隨著整個模型的交換而承受更高的延遲。Low-rank adaptation(LoRA)是一種緩解這兩個問題的技術。 本文簡要概述了 LoRA,

Source

]]>
10358
在 NVIDIA Holoscan SDK 中 構建集成 OpenCV 的零拷貝 AI 傳感器處理流程 http://www.open-lab.net/zh-cn/blog/build-a-zero-copy-ai-sensor-processing-pipeline-with-opencv-in-nvidia-holoscan-sdk/ Wed, 05 Jun 2024 07:19:36 +0000 http://www.open-lab.net/zh-cn/blog/?p=10193 Continued]]> NVIDIA Holoscan 是 NVIDIA 的多模態實時 AI 傳感器處理平臺,旨在幫助開發者構建端到端傳感器處理流程。該平臺的核心組件是 NVIDIA Holoscan SDK,其功能包括: Holoscan SDK 可用于為多種行業和應用場景構建流式 AI 流程,包括醫療設備、邊緣高性能計算和工業檢測等領域。有關更多信息,請參閱 使用 NVIDIA Holoscan 開發生產就緒型 AI 傳感器處理應用,以獲取詳細信息。 Holoscan SDK 通過充分利用軟件和硬件來加速流式 AI 應用。它可以與 RDMA 技術 結合,通過 GPU 加速進一步提高端到端流程性能。通常,端到端傳感器處理流程包括: 此流程中的所有數據都存儲在 GPU 顯存中,Holoscan 原生運算符可以直接訪問,而無需主機設備內存傳輸。

Source

]]>
10193
借助 NVIDIA JetPack 6.0 助力邊緣云原生微服務,現已正式發布 http://www.open-lab.net/zh-cn/blog/power-cloud-native-microservices-at-the-edge-with-nvidia-jetpack-6-0-now-ga/ Tue, 04 Jun 2024 07:34:51 +0000 http://www.open-lab.net/zh-cn/blog/?p=10204 Continued]]> NVIDIA JetPack SDK 為 NVIDIA Jetson 模組提供支持,為構建端到端加速的人工智能應用提供全面的解決方案。JetPack 6 通過微服務和一系列新功能擴展了 Jetson 平臺的靈活性和可擴展性。這是 JetPack 2024 年下載次數最多的版本。 隨著 JetPack 6.0 正式發布,開發者可以滿懷信心地將這些新功能引入更先進的嵌入式 AI 和機器人應用。本文重點介紹了主要功能和新的 AI 工作流程。 JetPack 6 支持在 Jetson 上擴展一系列基于 Linux 的發行版。其中包括 Canonical 的 Ubuntu 服務器、Redhat 的 RHEL 9.4、SUSE、Wind River Linux、Redhawk Real Time OS 以及各種基于 Yocto 的發行版。這些基于 Linux 的發行版在 Jetson…

Source

]]>
10204
生成式 AI 智能體開發者競賽:入門技巧 http://www.open-lab.net/zh-cn/blog/generative-ai-agents-developer-contest-top-tips-for-getting-started/ Wed, 29 May 2024 06:34:26 +0000 http://www.open-lab.net/zh-cn/blog/?p=10133 Continued]]> 參加我們將于 6 月 17 日結束的比賽,使用前沿技術展示您的創新成果:由生成式 AI 驅動的應用程序,該應用程序使用 NVIDIA 和 LangChain 技術。為了讓您開始,我們將探索一些用于激發您的創意之旅的應用程序,同時分享提示和最佳實踐,幫助您在開發過程中取得成功。 生成式 AI 智能體有許多不同的實際應用。在之前的比賽中開發的智能體或 Copilot 應用會根據應用的隱私、安全和計算要求使用大型語言模型 (LLM) 或小型語言模型 (SLM)。 這些示例包括: 開發者可以在游戲、醫療健康、媒體和娛樂等領域創建用于內容生成的應用。其他選項包括總結、在醫療健康領域,客服人員可以通過分析患者癥狀、病史和臨床數據來幫助診斷疾病,例如問答環節。 其中許多想法都適用于您的數據和您想要解決的問題 – 無論是使用客服改善每周的雜貨店購物,

Source

]]>
10133
人人超碰97caoporen国产