LLM

2025年 7月 7日
LLM 推理基準測試:使用 TensorRT-LLM 進行性能調優
這是大語言模型延遲 – 吞吐量基準測試系列的第三篇博文,旨在指導開發者如何使用 TensorRT-LLM 對 LLM 推理進行基準測試。
3 MIN READ

2025年 7月 7日
提出一個維基百科規模的問題:如何利用數百萬 token 的實時推理使世界更加智能
現代 AI 應用越來越依賴于將龐大的參數數量與數百萬個令牌的上下文窗口相結合的模型。無論是經過數月對話的 AI 智能體、
3 MIN READ

2025年 6月 30日
出色的多模態 RAG:Llama 3.2 NeMo 檢索器嵌入模型如何提高工作流準確性
數據遠不止于文本,它本質上是多模態的,包括圖像、視頻、音頻等,通常采用復雜的非結構化格式。雖然常見的方法是將 PDF、掃描圖像、
2 MIN READ

2025年 6月 26日
在 NVIDIA Jetson 和 RTX 上運行 Google DeepMind 的 Gemma 3n
截至今日,NVIDIA 現已支持在 NVIDIA RTX 和 Jetson 上全面推出 Gemma 3n。上個月,
1 MIN READ

2025年 6月 25日
如何使用 NVIDIA NeMo 技能簡化復雜的 LLM 工作流程
改進 LLM 的典型方法涉及多個階段:合成數據生成 (SDG) 、通過監督式微調 (SFT) 或強化學習 (RL) 進行模型訓練以及模型評估。
4 MIN READ

2025年 6月 24日
隆重推出 NVFP4,實現高效準確的低精度推理
為了充分利用 AI,優化至關重要。當開發者考慮優化用于推理的 AI 模型時,通常會想到量化、蒸餾和剪枝等模型壓縮技術。毫無疑問,
4 MIN READ

2025年 6月 18日
借助 NVIDIA NIM 推理微服務和 ITMonitron 實現實時 IT 事故檢測和情報
在當今快節奏的 IT 環境中,并非所有事件都始于明顯的警報。這些問題可能始于細微的分散信號、錯過的警報、悄無聲息的 SLO 漏洞,
2 MIN READ

2025年 6月 18日
使用一個 GPU 運行多模態提取以實現更高效的 AI 工作流
隨著企業生成和使用越來越多的多樣化數據,從 PDF 和演示文稿等多模態文檔中提取見解已成為一項重大挑戰。
4 MIN READ

2025年 6月 17日
微調 LLMOps 以實現快速模型評估和持續優化
大語言模型 (LLM) 為各行各業帶來了前所未有的機遇。然而,將 LLM 從研發轉向可靠、可擴展和可維護的生產系統會帶來獨特的運營挑戰。
4 MIN READ

2025年 6月 16日
人工智能致力于為法律領域帶來秩序
斯坦福大學的一個研究團隊開發了一個 LLM 系統,以減少官樣文章。 被稱為“System for Statutory Research”…
1 MIN READ

2025年 6月 11日
借助統一的 NVIDIA NIM 工作流簡化 LLM 部署和 AI 推理
將大語言模型 (LLM) 集成到真實用戶與之大規模交互的生產環境中,是任何 AI 工作流中最重要的部分。這不僅僅是讓模型運行,
3 MIN READ

2025年 6月 11日
通過開源 AI-Q NVIDIA Blueprint 與您的企業數據交流
企業數據呈爆炸式增長,PB 級的電子郵件、報告、Slack 消息和數據庫的堆積速度比任何人都快。市場調研人員 Gartner 表示,
2 MIN READ

2025年 6月 6日
隆重推出 Nemotron-H 推理模型家族:吞吐量提升無需妥協
隨著大語言模型在數學和科學等領域越來越多地承擔推理密集型任務,其輸出長度也變得越來越長,有時會跨越數萬個 token。
2 MIN READ

2025年 6月 6日
NVIDIA GB200 NVL72 和 NVIDIA Dynamo 如何提升 MoE 模型的推理性能
最新一批開源大語言模型 (LLMs) 采用了 Mixture of Experts (MoE) 架構,如 DeepSeek R1、
4 MIN READ

2025年 5月 30日
借助 NVIDIA NIM 加速 Vanna 上的文本到 SQL 推理,從而提升分析效率
從自然語言輸入生成查詢緩慢且效率低下,是決策制定的瓶頸。這迫使分析師和業務用戶嚴重依賴數據團隊,從而延遲洞察并限制敏捷性。
4 MIN READ

2025年 5月 28日
聚焦:使用 Iguazio 的 MLRun 和 NVIDIA NIM 構建可擴展和可觀察的 AI 以投入生產
Iguazio (被麥肯錫收購) 與 NVIDIA 的合作使企業組織能夠構建生產級 AI 解決方案,這些解決方案不僅具有高性能和可擴展性,
2 MIN READ