生成式人工智能/大語言模型

2025年 7月 1日
如何使用 NVIDIA NeMo Agent 工具套件開源庫構建自定義 AI 智能體
AI 智能體通過轉變業務運營、自動執行復雜任務和解鎖新的效率,正在徹底改變數字員工隊伍。借助協作能力,這些智能體現在可以協同工作,
1 MIN READ

2025年 7月 1日
適用于有效 FP8 訓練的按張量和按塊擴展策略
在本博文中,我們將分解主要的 FP8 縮放策略 (按張量縮放、延遲和電流縮放以及按塊縮放 (包括 Blackwell 支持的 MXFP8…
2 MIN READ

2025年 6月 30日
出色的多模態 RAG:Llama 3.2 NeMo 檢索器嵌入模型如何提高工作流準確性
數據遠不止于文本,它本質上是多模態的,包括圖像、視頻、音頻等,通常采用復雜的非結構化格式。雖然常見的方法是將 PDF、掃描圖像、
2 MIN READ

2025年 6月 27日
NVIDIA?TensorRT-LLM?支持騰訊混元最新大語言模型?Hunyuan-A13B?推理加速
騰訊混元 (Hunyuan) 最新大語言模型 Hunyuan-A13B 今日發布,NVIDIA TensorRT-LLM 作為全球領先的…
1 MIN READ

2025年 6月 26日
在魔搭社區使用 NVIDIA TensorRT-LLM PyTorch 新架構優化 Qwen3 系列模型推理
摘要: TensorRT-LLM 采用 PyTorch 全新架構進一步優化模型部署流程,提升開發者使用體驗。
2 MIN READ

2025年 6月 26日
在 NVIDIA Jetson 和 RTX 上運行 Google DeepMind 的 Gemma 3n
截至今日,NVIDIA 現已支持在 NVIDIA RTX 和 Jetson 上全面推出 Gemma 3n。上個月,
1 MIN READ

2025年 6月 25日
提高嵌入模型準確性,實現定制化信息檢索
自定義嵌入模型對于有效的信息檢索至關重要,尤其是在處理法律文本、病歷或多輪客戶對話等特定領域的數據時。通用、
2 MIN READ

2025年 6月 25日
如何使用 NVIDIA NeMo 技能簡化復雜的 LLM 工作流程
改進 LLM 的典型方法涉及多個階段:合成數據生成 (SDG) 、通過監督式微調 (SFT) 或強化學習 (RL) 進行模型訓練以及模型評估。
4 MIN READ

2025年 6月 24日
隆重推出 NVFP4,實現高效準確的低精度推理
為了充分利用 AI,優化至關重要。當開發者考慮優化用于推理的 AI 模型時,通常會想到量化、蒸餾和剪枝等模型壓縮技術。毫無疑問,
4 MIN READ

2025年 6月 24日
NVIDIA Run:ai 和 Amazon SageMaker HyperPod 攜手簡化復雜 AI 訓練管理
NVIDIA Run:ai 和 Amazon Web Services 引入了集成,使開發者能夠無縫擴展和管理復雜的 AI 訓練工作負載。
2 MIN READ

2025年 6月 18日
基準測試大型語言模型推理成本以實現更智能的擴展和部署
這是大語言模型延遲-吞吐量基準測試系列的第三篇博文,旨在指導開發者如何通過估算總體擁有成本 (TCO) 來確定 LLM 推理的成本。
3 MIN READ

2025年 6月 18日
搶先體驗 NVIDIA GB200 系統如何幫助 LMarena 構建評估 LLM 的模型
在 NVIDIA 和 Nebius 的幫助下,加州大學伯克利分校的 LMArena 可以更輕松地了解哪些大語言模型在特定任務中表現出色。
2 MIN READ

2025年 6月 18日
尋找實現準確 AI 響應的最優文本分塊策略
分塊策略是一種將大型文檔分解為較小、可管理的部分的方法,用于 AI 檢索。糟糕的分塊會導致結果不相關、效率低下并降低業務價值。
3 MIN READ

2025年 6月 18日
借助 NVIDIA NIM 推理微服務和 ITMonitron 實現實時 IT 事故檢測和情報
在當今快節奏的 IT 環境中,并非所有事件都始于明顯的警報。這些問題可能始于細微的分散信號、錯過的警報、悄無聲息的 SLO 漏洞,
2 MIN READ

2025年 6月 18日
使用一個 GPU 運行多模態提取以實現更高效的 AI 工作流
隨著企業生成和使用越來越多的多樣化數據,從 PDF 和演示文稿等多模態文檔中提取見解已成為一項重大挑戰。
4 MIN READ

2025年 6月 17日
通過 NVIDIA Holoscan for Media 上的全新 AI 應用實例,實現實時 AI 媒體效果增強
直播媒體工作流越來越多地使用 AI 微服務來增強制作能力。然而,先進的 AI 模型大多托管在云端,由于網絡延遲、帶寬和實時可擴展性方面的限制,
1 MIN READ