PyTorch – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 26 Jun 2025 07:12:23 +0000 zh-CN hourly 1 196178272 在魔搭社區使用 NVIDIA TensorRT-LLM PyTorch 新架構優化 Qwen3 系列模型推理 http://www.open-lab.net/zh-cn/blog/modelscope-nvidia-tensorrt-llm-pytorch-qwen3/ Thu, 26 Jun 2025 07:08:55 +0000 http://www.open-lab.net/zh-cn/blog/?p=14420 Continued]]> 摘要: TensorRT-LLM 采用 PyTorch 全新架構進一步優化模型部署流程,提升開發者使用體驗。 TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優化的開源庫,可幫助開發者快速利用最新 LLM 完成應用原型驗證與產品部署。TensorRT-LLM 提供了一個全面的開源 SDK,用于加速和優化 LLM 推理,包含了最新極致優化的計算 Kernel、高性能 Attention 實現、多機多卡通信分布式支持、豐富的并行和量化策略等,從而在 NVIDIA GPU 上實現突破性的 LLM 推理性能。此外,TensorRT-LLM 采用了 PyTorch 的全新架構,提供了直觀簡潔的模型定義 API,便于定義和構建新模型,顯著減少了代碼量,同時大幅降低了 debugging難度,進一步優化了模型部署流程,提升了開發者的使用體驗。

Source

]]>
14420
人工智能致力于為法律領域帶來秩序 http://www.open-lab.net/zh-cn/blog/ai-aims-to-bring-order-to-the-law/ Mon, 16 Jun 2025 07:39:15 +0000 http://www.open-lab.net/zh-cn/blog/?p=14245 Continued]]> 斯坦福大學的一個研究團隊開發了一個 LLM 系統,以減少官樣文章。 被稱為“System for Statutory Research” (STARA) 的 LLM 可以幫助政策制定者快速、廉價地解析大量規則,以識別冗余、過時或過于繁重的法律。研究人員表示,它最終可以提高政府的效率。 舊金山市律師 David Chiu 的辦公室最近使用 STARA 篩選該市的市政代碼和已發布的解決方案,其中包括 27 卷和近 1600 萬個字。幾十年來,這些法律要求不同的機構創建大約 500 份報告供該市審查。AI 分析了舊金山的法律,確定了每個城市授權的報告,并強調了可以調整的報告,與類似的報告相結合,或者完全歸零。 領導 STARA 團隊的斯坦福大學法學教授 Daniel Ho 表示:“監管改革的最大障礙之一是僅僅了解現有法律或法規的內容。”他表示,舊金山因程序問題而聲名大噪,而且靠近硅谷,

Source

]]>
14245
在 NVIDIA Grace Hopper 上訓練大型語言模型的高級優化策略 http://www.open-lab.net/zh-cn/blog/advanced-optimization-strategies-for-llm-training-on-nvidia-grace-hopper/ Tue, 27 May 2025 05:39:48 +0000 http://www.open-lab.net/zh-cn/blog/?p=14051 Continued]]> 雖然分析有助于識別效率低下的情況,但高級優化策略對于解決硬件限制和有效擴展 AI 工作負載至關重要。在本文中,我們將探討 CPU 卸載、Unified Memory、Automatic Mixed Precision 和 FP8 訓練等技術。這些方法不僅能提高性能,還能助力研究人員突破 LLM 的極限。 在處理大型模型時,有效管理 GPU 內存至關重要。解決內存限制的一種策略是 CPU 卸載的激活函數。此技術涉及在模型訓練或推理期間臨時將中間激活張量從 GPU 內存移動到 CPU 內存。本節將探討這種方法的優缺點。 CPU 卸載激活函數可以處理更大的批量大小或訓練更大的模型,而不會耗盡 GPU 內存。將激活函數分流到 CPU 可騰出空間用于對訓練至關重要的其他運算,例如向前和向后傳遞。從本質上講,卸載提供了一種在內存容量有限的 GPU 上訓練更大模型的方法。

Source

]]>
14051
利用 NVIDIA DALI 的最新技術實現高效數據處理 http://www.open-lab.net/zh-cn/blog/unlock-efficient-data-processing-with-the-latest-from-nvidia-dali/ Fri, 23 May 2025 05:50:57 +0000 http://www.open-lab.net/zh-cn/blog/?p=14056 Continued]]> NVIDIA DALI 是一個用于解碼和增強圖像、視頻和語音的便攜式開源軟件庫,最近推出了多項功能,可提高性能并支持 DALI 的新用例。這些更新旨在簡化 DALI 與現有 PyTorch 數據處理邏輯的集成,通過啟用 CPU 到 GPU 流以及添加新的視頻解碼模式來提高構建數據處理流程的靈活性。這些新功能使 DALI 成為深度學習從業者不可或缺的工具,包括: 圖 1 顯示了 Python 中不同的數據處理方法及其局限性。左圖展示了最簡單的方法,即同時創建多個 Python 線程。但是,由于 Python GIL,一次只能執行一個線程,導致 CPU 未得到充分利用。 中間圖使用獨立進程而非線程。雖然對 CPU 而言十分高效,但每個進程都會編排 GPU 以獨立工作,并且需要昂貴的 IPC 來聚合每個進程的結果。

Source

]]>
14056
為 NVIDIA Blackwell GeForce RTX 50 系列 GPU 發布全新 AI SDK 和工具 http://www.open-lab.net/zh-cn/blog/new-ai-sdks-and-tools-released-for-nvidia-blackwell-geforce-rtx-50-series-gpus/ Thu, 30 Jan 2025 05:23:17 +0000 http://www.open-lab.net/zh-cn/blog/?p=12907 Continued]]> NVIDIA 最近宣布推出 新一代 PC GPU – GeForce RTX 50 系列 ,以及面向開發者的全新 AI 賦能 SDK 和工具。GeForce RTX 50 系列由 NVIDIA Blackwell 架構 、第五代 Tensor Cores 和第四代 RT Cores 提供動力支持,在神經著色器、數字人技術、幾何圖形和照明等 AI 驅動渲染方面實現了突破。 今天,NVIDIA 發布了第一波適用于 GeForce RTX 50 Series GPUs 的 SDK。作為開發者,您可以開始將這些更新集成到您的應用中,以確保與 NVIDIA Blackwell RTX GPUs 的軟件兼容性和最佳性能,并展示 GeForce RTX 50 Series GPUs 的新功能。 本文詳細介紹了新的和更新的 SDK,這些 SDK 可助力開發者充分利用 NVIDIA…

Source

]]>
12907
多線程優化數據加載效率 http://www.open-lab.net/zh-cn/blog/improved-data-loading-with-threads/ Fri, 13 Sep 2024 07:40:31 +0000 http://www.open-lab.net/zh-cn/blog/?p=11267 Continued]]> 無論您專注于訓練還是推理,數據加載都是深度學習工作流程的一個關鍵方面。然而,它通常會帶來一個矛盾:需要同時具備高度便捷和可定制的解決方案。這兩個目標眾所周知很難協調。 此問題的傳統解決方案之一是擴展處理并并行化用戶編寫的函數。在這種方法中,用戶創建自定義算法,而系統則負責在同時計算任務的多個工作進程中擴展其執行。這就是 發揮作用的地方。 本文記錄了我們通過從進程切換到線程來優化 的實驗。這項探索之所以成為可能,是因為 Python 不斷努力刪除 GIL,使我們能夠重新思考深度學習工作流程中的并行性,并探索新的性能優化。 是 PyTorch 中的基礎工具,有助于在深度學習應用中加載數據。它在管理數據輸入模型的方式方面發揮著關鍵作用,可確保流程高效且有效。 的重要特性是,它能夠并行化加載過程,這在處理大型數據集時至關重要。

Source

]]>
11267
人工智能腦植入恢復腦卒中幸存者的雙語交流 http://www.open-lab.net/zh-cn/blog/ai-brain-implant-restores-bilingual-communication-for-stroke-survivor/ Thu, 20 Jun 2024 05:53:50 +0000 http://www.open-lab.net/zh-cn/blog/?p=10442 Continued]]> 科學家通過訓練神經假體植入物來解碼一名不會說話的中風幸存者的雙語大腦活動,使其能夠用西班牙語和英語進行交流。 這項研究發表在《自然生物醫學工程》上,來自加利福尼亞大學舊金山分校教授 Dr. Edward Chang 博士的實驗室,它建立在他 2021 年對同一名患者進行的開創性研究的基礎上,該研究證明了將嚴重癱瘓患者的大腦活動轉化為文字的功效。 在最新的研究中,神經假體解碼了同一個人——Pancho——的大腦活動,并使用雙語人工智能模型將大腦活動轉化為西班牙語或英語單詞,這取決于 Pancho 打算用哪種語言交流,然后,他的單詞和句子被投影到計算機屏幕上。 這兩項研究都為無法說話或依賴觸摸屏或眼動監測設備進行交流的人提供了遠不那么繁重的交流承諾。這些結果也是在潘喬身上神經假體最初植入四年后得出的,突顯了該技術的壽命及其潛在的長期影響。

Source

]]>
10442
使用張量并行技術進行自動駕駛感知模型訓練 http://www.open-lab.net/zh-cn/blog/perception-model-training-for-autonomous-vehicles-with-tensor-parallelism/ Fri, 26 Apr 2024 05:16:35 +0000 http://www.open-lab.net/zh-cn/blog/?p=9745 Continued]]> 由于采用了多攝像頭輸入和深度卷積骨干網絡,用于訓練自動駕駛感知模型的 GPU 內存占用很大。當前減少內存占用的方法往往會導致額外的計算開銷或工作負載的失衡。 本文介紹了 NVIDIA 和智能電動汽車開發商蔚來的聯合研究。具體來說,文中探討了張量并行卷積神經網絡(CNN)訓練如何有助于減少 GPU 內存占用,并展示了蔚來如何提高自動駕駛汽車感知模型的訓練效率和 GPU 利用率。 自動駕駛的感知模型訓練 自動駕駛感知任務采用多攝像頭數據作為輸入,卷積神經網絡(CNN)作為骨干(backbone)來提取特征。由于 CNN 的前向激活值(activations)都是形狀為(N, C, H, W)的特征圖(feature maps)(其中 N、C、H、W 分別代表圖像數、通道數、高度和寬度)。這些激活值需要被保存下來用于反向傳播,

Source

]]>
9745
現已推出:適用于 GNN 的 NVIDIA AI 加速 DGL 和 PyG 容器 http://www.open-lab.net/zh-cn/blog/available-now-nvidia-ai-accelerated-dgl-and-pyg-containers-for-gnns/ Fri, 08 Dec 2023 04:55:45 +0000 http://www.open-lab.net/zh-cn/blog/?p=8489 Continued]]> 從信用卡交易、社交網絡到推薦系統,再到生物學中的運輸網絡和蛋白質間的相互作用,圖形是建模和分析復雜連接的首選數據結構。圖形神經網絡 (GNN) 具有學習和推理圖形結構化數據的能力,已在各個領域成為改變游戲規則的技術。 但是,發現這些圖形中隱藏的模式和寶貴見解可能具有挑戰性,尤其是在 GNN 的數據采樣和端到端訓練中。 為了彌補這一差距,NVIDIA 推出了GNN 框架,這是專為 DGL 和 PyG 設計的容器,具備以下特點: 本文概述了 NVIDIA 加速 DGL 和 PyG 容器的優勢,展示了客戶在生產環境中使用這些容器的方式,并提供了性能指標。 深度圖形庫 (DGL) 是一款熱門的開源庫,它可以在現有的深度學習框架(如 PyTorch)上實現和訓練圖神經網絡 (GNN)。 我們很高興地宣布,DGL 現已通過其他 NVIDIA 庫進行加速,

Source

]]>
8489
借助 NVIDIA TAO 和視覺 AI 模型變革工業缺陷檢測 http://www.open-lab.net/zh-cn/blog/transforming-industrial-defect-detection-with-nvidia-tao-and-vision-ai-models/ Mon, 20 Nov 2023 04:58:27 +0000 http://www.open-lab.net/zh-cn/blog/?p=8298 Continued]]> 效率在工業制造中至關重要,在工業制造中,即使是微小的收益也會產生重大的財務影響。據美國質量協會稱,“許多組織的真正質量相關成本將高達銷售收入的 15-20%,有些則高達總運營的 40%.”這些驚人的統計數據揭示了一個嚴峻的現實:工業應用中的缺陷不僅會損害產品質量,而且會消耗公司收入的很大一部分。 但是,如果公司能夠收回這些損失的利潤,并將其重新用于創新和擴展呢?這是 AI 潛力的亮點所在。 本文將探討如何使用 NVIDIA TAO 設計自定義 AI 模型,以找出工業應用中的缺陷,從而提高整體質量。 NVIDIA TAO 工具套件是基于 TensorFlow 和 PyTorch 構建的低代碼 AI 工具包。它通過抽象出 AI 模型和深度學習框架的復雜性來簡化和加速模型訓練過程。借助 TAO 工具套件,開發者可以使用預訓練模型,并針對特定用例對其進行微調。 在本文中,

Source

]]>
8298
分析機器學習研究代碼的安全性 http://www.open-lab.net/zh-cn/blog/analyzing-the-security-of-machine-learning-research-code/ Wed, 04 Oct 2023 04:27:13 +0000 http://www.open-lab.net/zh-cn/blog/?p=7953 Continued]]> 我們的 NVIDIA AI 紅隊 專注于在數據、科學和 AI 生態系統中擴展安全開發實踐。我們參與 開源安全倡議,發布 工具,并出席了 行業會議,主辦 教育競賽 并提供 創新培訓。 最近發布的 Meta Kaggle for Code 數據集為大規模分析機器學習 (ML) 研究和實驗競賽代碼安全性提供了絕佳的機會。我們的目標是利用這些數據來解答以下問題: 我們的分析表明,盡管有關于安全風險的公開文檔以及相對順暢的高級安全工具,ML 研究人員仍繼續使用不安全的編碼實踐。我們的理論認為,研究人員優先考慮快速實驗,并且不會將自己或其項目視為目標,因為他們通常不運行生產服務。 此外,Kaggle 環境可能會因為與研究人員的“真實基礎架構”隔離而導致安全漏洞更加嚴重。但是,研究人員必須承認自己在軟件供應鏈中的地位,并應意識到不安全的編碼操作對其研究和系統帶來的風險。

Source

]]>
7953
研究揭示了用于理解神經活動和運動控制的突破性深度學習工具 http://www.open-lab.net/zh-cn/blog/research-unveils-breakthrough-deep-learning-tool-for-understanding-neural-activity-and-movement-control/ Tue, 18 Jul 2023 05:56:17 +0000 http://www.open-lab.net/zh-cn/blog/?p=7438 Continued]]> 神經科學領域的一個主要目標是了解大腦如何控制運動。通過改進姿勢估計,神經生物學家可以更精確地量化自然運動,進而更好地了解驅動自然運動的神經活動。這增強了科學家表征動物智力、社交和健康的能力。 哥倫比亞大學的研究人員最近開發了一個以視頻為中心的深度學習包,可以從視頻中更有力地跟蹤動物的運動,這有助于: Lightning Pose 是一個工具,可以在 PyTorch Lightning 中用于訓練深度學習模型,以標記圖像和未標記視頻,并使用 NVIDIA 的 DALI 在 GPU 上對其進行解碼和處理。 在這篇博客文章中,您將看到當代計算機視覺架構如何從開源的 GPU 加速視頻處理中受益。 用于視頻中自動姿勢跟蹤的深度學習算法最近在神經科學中引起了廣泛關注。‌標準方法包括在一組注釋圖像上以完全監督的方法訓練卷積網絡。‌ 大多數卷積架構都是為處理單個圖像而構建的,

Source

]]>
7438
用圖神經網絡開發基于物理的機器學習模型 http://www.open-lab.net/zh-cn/blog/develop-physics-informed-machine-learning-models-with-graph-neural-networks/ Tue, 06 Jun 2023 06:41:39 +0000 http://www.open-lab.net/zh-cn/blog/?p=7154 Continued]]> NVIDIA PhysicsNeMo是一個框架,用于構建、訓練和微調物理系統的深度學習模型,也稱為物理知情機器學習(physics ML)模型。現在,PhysicsNeMo 以開源軟件(OSS)的形式提供(基于 Apache 2.0 許可證),以支持不斷增長的物理 ML 社區。 最新的 PhysicsNeMo 軟件更新 23 . 05 版匯集了新的功能,使研究界和行業能夠通過開源協作將研究開發成企業級解決方案 此次更新的兩個主要組成部分是 1 )支持包括圖神經網絡( GNN )和遞歸神經網絡( RNN )在內的新網絡架構,以及 2 )提高人工智能從業者的易用性。 GNN 正在改變研究人員如何應對涉及復雜圖形結構的挑戰,例如物理、生物學和社交網絡中遇到的挑戰。通過利用圖的結構, GNN 能夠根據圖中節點之間的關系進行學習和預測。 通過 GNN 的應用,

Source

]]>
7154
為什么自動增強很重要 http://www.open-lab.net/zh-cn/blog/why-automatic-augmentation-matters/ Fri, 05 May 2023 03:17:54 +0000 http://www.open-lab.net/zh-cn/blog/?p=6917 Continued]]> 深度學習模型需要數百 GB 的數據才能在看不見的樣本上很好地泛化。數據擴充有助于增加數據集中示例的可變性。 傳統的數據擴充方法可以追溯到統計學習,當時擴充的選擇依賴于建立模型訓練的工程師的領域知識、技能和直覺。 自動增強出現了減少對手動數據預處理的依賴。它結合了應用自動調整和根據概率分布隨機選擇增強的思想。 事實證明,使用 AutoAugment 和 RandAugment 等自動數據增強方法可以通過使模型在訓練中看到的樣本多樣化來提高模型的準確性。自動擴充使數據預處理更加復雜,因為一批中的每個樣本都可以用不同的隨機擴充進行處理。 在這篇文章中,我們介紹了如何使用 NVIDIA DALI 實現和使用 GPU 加速自動增強來訓練,然后使用條件執行。 自動增強是基于標準的圖像變換,如旋轉、剪切、模糊或亮度調整。大多數操作都接受一個稱為幅值的控制參數。幅度越大,

Source

]]>
6917
使用?NVIDIA?FasterTransformer?提高?KoGPT?的推理加速 http://www.open-lab.net/zh-cn/blog/increasing-inference-acceleration-of-kogpt-with-fastertransformer/ Tue, 25 Apr 2023 05:03:52 +0000 http://www.open-lab.net/zh-cn/blog/?p=6782 Continued]]> Transformer 是當今最具影響力的人工智能模型架構之一,正在塑造未來人工智能研發的方向。Transformer 最初被發明為自然語言處理( NLP )的工具,現在幾乎被用于每一項人工智能任務,包括計算機視覺、自動語音識別、分子結構分類和金融數據處理。 在韓國, Kakao Brain 開發了一種基于 transformer 架構的高精度大型語言模型( LLM ) KoGPT 。它在一個大型韓國數據集上進行了訓練,并使用 NVIDIA FasterTransformer 成功地對其進行了優化。 在這篇文章中,我們將介紹 NVIDIA 和 Kakao Brain 如何使用 FasterTransformer 優化 KoGPT 。 Transformer 層是目前深度學習領域應用最廣泛的深度學習架構。它起源于 NLP ,目前正在將其應用范圍從語言擴展到視覺、

Source

]]>
6782
人人超碰97caoporen国产