Development & Optimization

2025年 7月 18日
使用 JAX 和 XLA 優化推理工作負載的低延遲通信
在生產環境中使用大語言模型 (LLM) 進行推理需要滿足嚴格的延遲限制。此過程的關鍵階段是 LLM 解碼,
2 MIN READ

2025年 7月 16日
CUTLASS:基于張量和空間微核處理多維數據的原理抽象
在生成式 AI 時代,充分發揮 GPU 的潛力對于訓練更好的模型和大規模服務用戶至關重要。通常,
4 MIN READ

2025年 7月 16日
CUTLASS 3.x:用于 GEMM 內核設計的正交、可重用和組合抽象
GPU 上的 GEMM 優化是一個模塊化問題。高性能實現需要指定超參數,例如圖塊形狀、數學和復制指令以及線程束專用方案。
3 MIN READ

2025年 7月 15日
NVIDIA Dynamo 新增對 AWS 服務的支持,可大規模提供經濟高效的推理
Amazon Web Services (AWS) 開發者和解決方案架構師現在可以在基于 NVIDIA GPU 的 Amazon EC2…
2 MIN READ

2025年 7月 9日
為 NVIDIA CUDA 內核融合提供 Python 中缺失的構建模塊
CUB 和 Thrust 等 C++ 庫提供高級構建塊,使 NVIDIA CUDA 應用和庫開發者能夠編寫跨架構可移植的光速代碼。
2 MIN READ

2025年 7月 9日
使用 NVIDIA NeMo-RL 進行強化學習:通過 GRPO 復制 DeepScaleR 配方
強化學習 (RL) 是交互式 AI 的支柱。它對于教導智能體推理和從人類偏好中學習、實現多輪工具使用等至關重要。
2 MIN READ

2025年 7月 7日
提出一個維基百科規模的問題:如何利用數百萬 token 的實時推理使世界更加智能
現代 AI 應用越來越依賴于將龐大的參數數量與數百萬個令牌的上下文窗口相結合的模型。無論是經過數月對話的 AI 智能體、
3 MIN READ

2025年 7月 3日
新視頻:使用 NVIDIA Data Flywheel Blueprint 構建可自我提升的 AI 代理
由大語言模型驅動的 AI 智能體正在改變企業工作流,但高昂的推理成本和延遲可能會限制其可擴展性和用戶體驗。為解決這一問題,
1 MIN READ

2025年 7月 2日
先進的 NVIDIA CUDA 內核優化技術:手寫 PTX
隨著加速計算不斷提升 AI 和科學計算各個領域的應用程序性能,人們對 GPU 優化技術的興趣也越來越濃厚,以確保應用程序獲得盡可能好的性能。
3 MIN READ

2025年 6月 25日
如何使用 NVIDIA NeMo 技能簡化復雜的 LLM 工作流程
改進 LLM 的典型方法涉及多個階段:合成數據生成 (SDG) 、通過監督式微調 (SFT) 或強化學習 (RL) 進行模型訓練以及模型評估。
4 MIN READ

2025年 6月 18日
編譯器資源管理器:CUDA 開發者必備的內核實驗室
您是否曾想過,當您編寫 GPU 核函數時,CUDA 編譯器究竟會生成什么?是否曾想與同事輕松分享精簡的 CUDA 示例,
2 MIN READ

2025年 6月 18日
NVIDIA 集合通信庫 2.26 實現性能和監控功能的提升
NVIDIA 集合通信庫 (NCCL) 可實現針對 NVIDIA GPU 和網絡優化的多 GPU 和多節點通信基元。
3 MIN READ

2025年 6月 13日
使用 FlashInfer 運行 NVIDIA 的高性能 LLM 推理內核
出色的 LLM 推理需要兩個關鍵要素:速度和開發者速度。速度是指通過使用高度優化的計算內核算法,最大限度地提高底層硬件的效率。
2 MIN READ

2025年 6月 12日
借助 MMseqs2-GPU 和 NVIDIA NIM 加速蛋白質科學序列對齊
蛋白質序列對齊 (比較蛋白質序列的相似性) 是現代生物學和醫學的基礎。它通過重建進化關系 (技術上稱為 homology…
3 MIN READ

2025年 6月 11日
隆重推出 NVIDIA DGX 云 Lepton:面向開發者的統一 AI 平臺
AI 原生應用的時代已經到來。開發者正在構建先進的代理式 AI 和物理 AI 系統,但跨地區和 GPU 提供商進行擴展仍然是一項挑戰。
2 MIN READ

2025年 6月 11日
使用開源 NVIDIA cuOpt 加速決策優化
企業每天都會做出成千上萬的決策,包括生產什么、在哪里發貨、如何分配資源。大規模優化這些決策成為一項計算挑戰。線性規劃 (LP) 、
2 MIN READ