Ampere – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 03 Apr 2025 06:15:24 +0000
zh-CN
hourly
1
196178272 -
使用 PyG 和圖形數據庫通過 GraphRAG 提高問答準確性
http://www.open-lab.net/zh-cn/blog/boosting-qa-accuracy-with-graphrag-using-pyg-and-graph-databases/
Wed, 26 Mar 2025 06:05:45 +0000
http://www.open-lab.net/zh-cn/blog/?p=13422
Continued]]>
大語言模型(LLMs)在處理特定領域的問題時往往難以保證準確性,尤其是那些需要多跳推理或訪問專有數據的問題。雖然檢索增強生成(RAG)可以提供幫助,但傳統的向量搜索方法通常并不完善。 在本教程中,我們將向您展示如何將 GraphRAG 與經過微調的 GNN+LLM 模型結合使用,以實現比標準基準高 2 倍的準確性。 這種方法對于涉及以下情況的場景特別有價值: 這種基于圖形驅動的檢索增強生成 (GraphRAG) 的特定方法建立在 G-Retriever 架構之上。G-Retriever 將接地數據表示為知識圖,將基于圖的檢索與神經處理相結合: 此過程適用于訓練數據三元組{(Qi, Ai, Gi)}: 管道遵循以下步驟: PyG 為 G-Retriever 提供模塊化設置。
Source
]]>
13422
-
AI 驅動的 3D 打印技術助力外科醫生模擬手術訓練
http://www.open-lab.net/zh-cn/blog/new-ai-powered-3d-printing-can-help-surgeons-rehearse-procedures/
Fri, 20 Sep 2024 07:34:12 +0000
http://www.open-lab.net/zh-cn/blog/?p=11368
Continued]]>
華盛頓州立大學(WSU)的研究人員公布了一種新的 AI 指導 3D 打印技術,該技術可以幫助醫生打印復雜的人體器官復制品。外科醫生可以在進行實際手術之前使用這些器官模型進行練習,從而為醫生提供更多的工具來改善手術結果。 該 AI 算法根據人體腎和前列腺的圖像和關鍵屬性(包括重量、大小、孔隙率和血管結構等特征)進行訓練。該算法與 3D 打印機配合使用的過程不斷改進,有助于為 3D 打印的三個重要部分找到最佳設置:模型的準確性、重量以及打印所需的時間。 WSU 機械和材料工程助理教授 Kaiyan Qiu 是這項 研究 的合著者之一,他說,AI 優化可以顯著縮短創建可行的 3D 模型所需的時間。該算法調整關鍵的 3D 打印變量,包括打印機的噴頭尺寸和行駛速度、打印材料的分配壓力以及每個打印層的高度,然后指導打印機為特定用例創建合適的模型。 “對于手術前器官模型,
Source
]]>
11368
-
在 cuBLAS 中引入分組 GEMM API 以及更多性能更新
http://www.open-lab.net/zh-cn/blog/introducing-grouped-gemm-apis-in-cublas-and-more-performance-updates/
Wed, 12 Jun 2024 05:43:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=10332
Continued]]>
最新版本 NVIDIA cuBLAS 庫版本 12.5 將繼續為深度學習(DL)和高性能計算(HPC)工作負載提供功能和性能。本文將概述自版本 12.0以來 cuBLAS 矩陣乘法(matrix multiplications)中的以下更新: 分組的 GEMM API 可視為批量 API 的泛化,可在一次內核啟動中對不同的矩陣大小、轉置和縮放因子進行分組和并行化。 這種方法提供加速的一個示例是多專家 (MoE)模型的批量大小為 8 和 64,以及 FP16 輸入和輸出。在本示例中,分組的 GEMM API 可以使用批量 GEMM API 實現比單純循環快 1.2 倍的速度。 這一點令人印象深刻,因為當前分組的 GEMM 核函數僅利用線程束級 MMA 指令。它們已證明可以與利用線程束級 MMA (wgmma) 指令的分批 GEMM 核函數進行競爭。
Source
]]>
10332
-
全新 NVIDIA RTX A400 和 A1000 GPU 全面加強 AI 設計與生產力工作流
http://www.open-lab.net/zh-cn/blog/rtx-a400-and-a1000-gpu/
Thu, 25 Apr 2024 08:29:08 +0000
http://www.open-lab.net/zh-cn/blog/?p=9723
Continued]]>
兩款 NVIDIA Ampere 架構 GPU 為工作站帶來實時光線追蹤功能和生成式 AI 工具支持。 設計和生產力應用中的 AI 集成正在成為新的標準,推動了對先進計算性能的需求。這意味著無論他們項目的規模、復雜程度或范圍如何,專業人士和創作者都需要運用更強大的算力。 為了滿足這一日益增長的需求,NVIDIA 推出兩款基于 NVIDIA Ampere 架構的全新臺式機 GPU——NVIDIA RTX A400 和 NVIDIA RTX A1000,豐富了 RTX 專業顯卡產品陣容。 這兩款產品讓更多人能夠用上 AI 和光線追蹤技術,為專業人士提供了改變日常工作流所需的工具。 一個追求創意、性能和效率的新時代 RTX A400 GPU 為 RTX 400 系列 GPU 帶來了加速光線追蹤和 AI。它借助 24 顆用于 AI 處理任務的…
Source
]]>
9723
-
在 Direct3D 12 中使用工作圖推進 GPU 驅動的渲染
http://www.open-lab.net/zh-cn/blog/advancing-gpu-driven-rendering-with-work-graphs-in-direct3d-12/
Mon, 11 Mar 2024 06:38:59 +0000
http://www.open-lab.net/zh-cn/blog/?p=9201
Continued]]>
GPU 驅動的渲染一直是許多游戲應用程序的主要目標。它能夠提高處理大型虛擬場景的可擴展性,并減少 CPU 對游戲性能的瓶頸。 除了在 GPU 上運行游戲邏輯之外,我認為 GPU 驅動渲染的巔峰時刻就是 CPU 只發送新幀的攝像頭信息,而 GPU 則負責其余工作,直到屏幕上顯示的最終像素。 NVIDIA Omniverse 平臺已經對 Direct3D 12 (D3D12) API 進行了改進,包括支持 、不受限制的資源數組 和 。這些功能增強了平臺的性能和靈活性,為開發者提供了更多的創作空間。 工作圖形是我很期待討論的另一個功能。工作圖形提供了一種編程范式,允許 GPU 隨時生成自己的工作。這為解決一些知名游戲引擎問題提供了解決方案,并開辟了新的創意思路。 本文介紹了工作圖的高級概念:結構、啟動模式和數據流。我將介紹如何使用 HLSL 編寫工作圖,
Source
]]>
9201
-
使用 NVIDIA Holoscan for Media 進行軟件定義廣播
http://www.open-lab.net/zh-cn/blog/software-defined-broadcast-with-nvidia-holoscan-for-media/
Thu, 14 Sep 2023 05:55:10 +0000
http://www.open-lab.net/zh-cn/blog/?p=7896
Continued]]>
廣播行業正在經歷內容創建、管理、分發和消費方式的轉變。這一轉變包括從受固定功能設備約束的傳統線性工作流程轉變為靈活和混合的軟件定義系統,從而實現直播的未來。 開發人員現在可以申請加入 NVIDIA Holoscan for Media,這是一個軟件定義的平臺,用于在本地、云端和邊緣開發和部署媒體應用程序。 使用 Holoscan for Media,廣播公司和解決方案提供商可以利用最新的 IT 和資源調配技術,以及現代的基于容器的開發、編排和交付方法。 Holoscan for Media 是一個基于 IP 的解決方案,基于行業標準和 API,包括 SMPTE ST 2110、AMWA NMOS、RIST、SRT 和 NDI。 該平臺集成了開源和無處不在的技術,打破了基于 SDI 和 FPGA 的系統的專有性和靈活性。它還可以將最新的功能,例如 生成性 AI,
Source
]]>
7896
-
NVIDIA Ampere 架構的結構化稀疏功能及其在搜索引擎中的應用
http://www.open-lab.net/zh-cn/blog/structured-sparsity-in-the-nvidia-ampere-architecture-and-applications-in-search-engines/
Mon, 03 Jul 2023 03:38:32 +0000
http://www.open-lab.net/zh-cn/blog/?p=7327
Continued]]>
深度學習徹底改變了我們分析、理解和處理數據的方式,而且在各個領域的應用中都取得了巨大的成功,其在計算機視覺、自然語言處理、醫療診斷和醫療保健、自動駕駛汽車、推薦系統以及氣候和天氣建模方面有許多成功案例。 在神經網絡模型不斷變大的時代,對計算速度的高需求對硬件和軟件都形成了巨大的挑戰。模型剪枝和低精度推理是非常有效的解決方案。 自 NVIDIA Ampere 架構開始, 隨著 A100 Tensor Core GPU 的推出,NVIDIA GPU 提供了可用于加速推理的細粒度結構化稀疏功能。在本文中,我們將介紹此類稀疏模型的訓練方法以保持模型精度,包括基本訓練方法、漸進式訓練方法以及與 int8 量化的結合。我們還將介紹如何利用 Ampere 架構的結構化稀疏功能進行推理。 騰訊機器學習平臺部門 (MLPD) 利用了漸進式訓練方法,
Source
]]>
7327
-
NVIDIA AX800 在一個通用云基礎設施上提供高性能 5G vRAN 和 AI 服務
http://www.open-lab.net/zh-cn/blog/nvidia-ax800-delivers-high-performance-5g-vran-and-ai-services-on-one-common-cloud-infrastructure/
Sun, 28 May 2023 06:10:50 +0000
http://www.open-lab.net/zh-cn/blog/?p=7119
Continued]]>
5G 投資和采用的步伐正在加快。根據GSMA Mobile Economy 2023報告稱, 2023 年至 2030 年間,近 1 . 4 萬億美元將用于 5G 資本支出。無線電接入網絡( RAN )可能占超過 60% 的支出。 資本支出越來越多地從傳統的專有硬件方法轉向虛擬化 RAN ( vRAN )和開放式 RAN 架構,這些架構可以從云經濟中受益,不需要專用硬件。盡管有這些好處,但開放式 RAN 的采用卻舉步維艱,因為現有技術尚未提供云經濟的好處,而且無法同時提供高性能和靈活性。 NVIDIA 通過NVIDIA AX800 融合加速器,在可以在任何云上運行的商品硬件上提供真正的云原生和高性能加速 5G 解決方案(圖 1 )。 為了從云經濟中受益,RAN 的未來會在云端(云中的 RAN )。云經濟之路與克萊頓·克里斯滕森在其著作創新者的困境:
Source
]]>
7119
人人超碰97caoporen国产