Intermediate Technical

2025年 7月 7日
使用 DPU 加速的 Kubernetes 服務代理增強 AI 工廠
隨著 AI 借助代理式 AI 向規劃、研究和推理發展,工作流變得越來越復雜。為了高效部署代理式 AI 應用,AI 云需要軟件定義、
2 MIN READ

2025年 7月 7日
NVIDIA cuQuantum 增加了動態梯度、DMRG 和模擬加速
NVIDIA cuQuantum 是一個包含優化庫和工具的 SDK,可將電路和設備級別的量子計算模擬加速幾個數量級。
1 MIN READ

2025年 7月 7日
提出一個維基百科規模的問題:如何利用數百萬 token 的實時推理使世界更加智能
現代 AI 應用越來越依賴于將龐大的參數數量與數百萬個令牌的上下文窗口相結合的模型。無論是經過數月對話的 AI 智能體、
3 MIN READ

2025年 7月 3日
RAPIDS 新增 GPU Polars 串流、統一 GNN API 和零代碼 ML 加速功能
RAPIDS 是一套用于 Python 數據科學的 NVIDIA CUDA-X 庫,發布了 25.06 版本,引入了令人興奮的新功能。
2 MIN READ

2025年 7月 2日
通過低精度量化優化用于圖像編輯的 FLUX.1 Kontext
FLUX.1 Kontext 是 Black Forest Labs 最近發布的模型,是對社區圖像生成模型的一項令人著迷的補充。
3 MIN READ

2025年 7月 2日
先進的 NVIDIA CUDA 內核優化技術:手寫 PTX
隨著加速計算不斷提升 AI 和科學計算各個領域的應用程序性能,人們對 GPU 優化技術的興趣也越來越濃厚,以確保應用程序獲得盡可能好的性能。
3 MIN READ

2025年 7月 1日
適用于有效 FP8 訓練的按張量和按塊擴展策略
在本博文中,我們將分解主要的 FP8 縮放策略 (按張量縮放、延遲和電流縮放以及按塊縮放 (包括 Blackwell 支持的 MXFP8…
2 MIN READ

2025年 6月 30日
出色的多模態 RAG:Llama 3.2 NeMo 檢索器嵌入模型如何提高工作流準確性
數據遠不止于文本,它本質上是多模態的,包括圖像、視頻、音頻等,通常采用復雜的非結構化格式。雖然常見的方法是將 PDF、掃描圖像、
2 MIN READ

2025年 6月 27日
如何在 Polars GPU 引擎中處理超過 VRAM 的數據
在量化金融、算法交易和欺詐檢測等高風險領域,數據從業者經常需要處理數百 GB 的數據,才能快速做出明智的決策。
1 MIN READ

2025年 6月 25日
提高嵌入模型準確性,實現定制化信息檢索
自定義嵌入模型對于有效的信息檢索至關重要,尤其是在處理法律文本、病歷或多輪客戶對話等特定領域的數據時。通用、
2 MIN READ

2025年 6月 25日
NVIDIA DOCA 3.0 助力 AI 平臺開啟網絡新紀元
NVIDIA DOCA 框架已發展成為新一代 AI 基礎設施的重要組成部分。從初始版本到備受期待的 NVIDIA DOCA 3.0 發布,
3 MIN READ

2025年 6月 25日
如何使用 NVIDIA NeMo 技能簡化復雜的 LLM 工作流程
改進 LLM 的典型方法涉及多個階段:合成數據生成 (SDG) 、通過監督式微調 (SFT) 或強化學習 (RL) 進行模型訓練以及模型評估。
4 MIN READ

2025年 6月 24日
借助 NVIDIA Isaac Manipulator 和 Vention Machine 提高工業機器人的靈活性 Motion AI
隨著工業自動化的加速,工廠越來越依賴先進的機器人技術來提高生產力和運營彈性。機器人的成功部署取決于精確的運動規劃、
2 MIN READ

2025年 6月 24日
隆重推出 NVFP4,實現高效準確的低精度推理
為了充分利用 AI,優化至關重要。當開發者考慮優化用于推理的 AI 模型時,通常會想到量化、蒸餾和剪枝等模型壓縮技術。毫無疑問,
4 MIN READ

2025年 6月 18日
基準測試大型語言模型推理成本以實現更智能的擴展和部署
這是大語言模型延遲-吞吐量基準測試系列的第三篇博文,旨在指導開發者如何通過估算總體擁有成本 (TCO) 來確定 LLM 推理的成本。
3 MIN READ

2025年 6月 18日
NVIDIA 在制造和運營領域的 AI 應用:借助 NVIDIA CUDA-X 數據科學加速 ML 模型
從晶圓制造和電路探測到封裝芯片測試,NVIDIA 利用數據科學和機器學習來優化芯片制造和運營工作流程。這些階段會產生 TB 級的數據,
3 MIN READ