CUDA

2025年 7月 18日
使用 JAX 和 XLA 優化推理工作負載的低延遲通信
在生產環境中使用大語言模型 (LLM) 進行推理需要滿足嚴格的延遲限制。此過程的關鍵階段是 LLM 解碼,
2 MIN READ

2025年 7月 16日
CUTLASS:基于張量和空間微核處理多維數據的原理抽象
在生成式 AI 時代,充分發揮 GPU 的潛力對于訓練更好的模型和大規模服務用戶至關重要。通常,
4 MIN READ

2025年 7月 16日
CUTLASS 3.x:用于 GEMM 內核設計的正交、可重用和組合抽象
GPU 上的 GEMM 優化是一個模塊化問題。高性能實現需要指定超參數,例如圖塊形狀、數學和復制指令以及線程束專用方案。
3 MIN READ

2025年 7月 9日
為 NVIDIA CUDA 內核融合提供 Python 中缺失的構建模塊
CUB 和 Thrust 等 C++ 庫提供高級構建塊,使 NVIDIA CUDA 應用和庫開發者能夠編寫跨架構可移植的光速代碼。
2 MIN READ

2025年 7月 2日
先進的 NVIDIA CUDA 內核優化技術:手寫 PTX
隨著加速計算不斷提升 AI 和科學計算各個領域的應用程序性能,人們對 GPU 優化技術的興趣也越來越濃厚,以確保應用程序獲得盡可能好的性能。
3 MIN READ

2025年 6月 18日
NVIDIA 在制造和運營領域的 AI 應用:借助 NVIDIA CUDA-X 數據科學加速 ML 模型
從晶圓制造和電路探測到封裝芯片測試,NVIDIA 利用數據科學和機器學習來優化芯片制造和運營工作流程。這些階段會產生 TB 級的數據,
3 MIN READ

2025年 6月 18日
編譯器資源管理器:CUDA 開發者必備的內核實驗室
您是否曾想過,當您編寫 GPU 核函數時,CUDA 編譯器究竟會生成什么?是否曾想與同事輕松分享精簡的 CUDA 示例,
2 MIN READ

2025年 6月 17日
R2D2:利用 NVIDIA Research 構建AI驅動的3D機器人感知與地圖構建技術
機器人必須感知和解釋其 3D 環境,才能安全有效地行動。這對于非結構化或陌生空間中的自主導航、對象操作和遠程操作等任務尤為重要。
3 MIN READ

2025年 6月 12日
借助 MMseqs2-GPU 和 NVIDIA NIM 加速蛋白質科學序列對齊
蛋白質序列對齊 (比較蛋白質序列的相似性) 是現代生物學和醫學的基礎。它通過重建進化關系 (技術上稱為 homology…
3 MIN READ

2025年 6月 11日
使用 Siemens Teamcenter 數字現實查看器打造栩栩如生的數字孿生
現代產品通常由數百萬個部件組成,需要復雜的設計和協作。工業世界在管理復雜性方面面臨重大挑戰,傳統的可視化工具無法渲染這些大型、
1 MIN READ

2025年 6月 4日
借助 NVIDIA 多進程服務更大限度地提高 OpenMM 分子動力學吞吐量
分子動力學 (MD) 模擬模擬原子在一段時間內的相互作用,并且需要強大的計算能力。然而,許多模擬的系統規模很小 (約 400K 個原子) ,
3 MIN READ

2025年 5月 23日
AI 將腦部 MRI 轉化為潛在的中風預測因子
研究人員使用 AI 分析常規腦部掃描,發現了一種前景良好的新方法,可以可靠地識別常見但難以檢測的多中風先兆。
1 MIN READ

2025年 5月 22日
Blackwell 借助 Meta 的 Llama 4 Maverick 突破 1000 TPS/ 用戶門檻
NVIDIA 的大語言模型 (LLM) 推理速度創下了世界紀錄。在包含 400 億參數的 Llama 4 Maverick 模型 (…
3 MIN READ

2025年 5月 9日
CUDA C++ 編譯器更新對 ELF 可見性和鏈接影響
在下一個 CUDA 主要版本 CUDA 13.0 中,NVIDIA 將對 NVIDIA CUDA 編譯器驅動程序 (NVCC)…
4 MIN READ

2025年 5月 2日
CUDA 入門教程:更簡單的介紹 (更新版)
注意:本博文最初發布于 2017 年 1 月 25 日,但已進行編輯以反映新的更新。 本文非常簡單地介紹了 CUDA,
5 MIN READ

2025年 5月 1日
借助 NVIDIA cuBLAS 12.9 提高矩陣乘法速度和靈活性
NVIDIA CUDA-X 數學庫助力開發者為 AI、科學計算、數據處理等領域構建加速應用。
3 MIN READ