基準測試大型語言模型推理成本以實現更智能的擴展和部署

Wed, 18 Jun 2025 04:48:43 +0000

這是大語言模型延遲-吞吐量基準測試系列的第三篇博文，旨在指導開發者如何通過估算總體擁有成本 (TCO) 來確定 LLM 推理的成本。有關基準測試和參數的常用指標的背景知識，請參閱 LLM Inference Benchmarking：基本概念。請參閱 LLM Inference Benchmarking 指南：NVIDIA GenAI-Perf 和 NIM，了解如何在您的應用中使用 GenAI-Perf 和 NVIDIA NIM。大語言模型 (LLMs) 已成為現代軟件產業不可或缺的一部分，其功能類似于構建許多應用的“操作系統”基礎層。這些應用包括 AI 助手、客戶支持代理、編碼助手和“深度研究”助手。正如 DeepSeek R1 模型系列所示，算法和模型效率方面的最新進展降低了訓練和推理成本。隨著效率的提高，LLM 應用有望變得更加經濟實惠和普及，

Source

]]>

借助 iGenius 和 NVIDIA DGX 云，繼續為主權 AI 和受監管行業預訓練先進的 LLM

Thu, 16 Jan 2025 06:37:38 +0000

近年來，大語言模型（LLMs）在推理、代碼生成、機器翻譯和摘要等領域取得了非凡的進步。然而，盡管基礎模型具有先進的功能，但在涉及特定領域的專業知識（例如金融或醫療健康）或捕捉英語以外的文化和語言細微差別時，它們存在局限性。通過使用持續預訓練 (CPT)、指令微調和檢索增強型生成 (RAG) 進行進一步開發，可以克服這些限制。這需要高質量的特定領域的數據集、強大的 AI 平臺 (軟件和硬件堆棧) 以及先進的 AI 專業知識。 iGenius 是一家意大利技術公司，專門為金融服務和公共管理等高度監管行業的企業提供人工智能服務。iGenius 在歐洲和美國之間開展工作，致力于讓 AI 為人們和企業服務。該公司成立于 2016 年，其使命是實現數據人性化和業務知識普及。 iGenius 是 NVIDIA Inception 合作伙伴，

Source

]]>

Sergio Perez – NVIDIA 技術博客

基準測試大型語言模型推理成本以實現更智能的擴展和部署

借助 iGenius 和 NVIDIA DGX 云，繼續為主權 AI 和受監管行業預訓練先進的 LLM