]]>14288利用 NVIDIA NIM 實現 AI 模型微調部署
http://www.open-lab.net/zh-cn/blog/deploying-fine-tuned-ai-models-with-nvidia-nim/
Thu, 21 Nov 2024 06:46:49 +0000http://www.open-lab.net/zh-cn/blog/?p=12157Continued]]>對于使用特定領域數據調整 AI 基礎模型的組織而言,快速創建和部署微調模型的能力是高效地通過企業生成式 AI 應用提供價值的關鍵。 NVIDIA NIM 為最新的 AI 基礎模型提供預構建、性能優化的推理微服務,包括使用參數高效微調 (PEFT) 自定義的模型的 無縫部署 。 在某些情況下,理想的做法是使用持續預訓練、DPO、監督微調(SFT)或模型合并等方法,這些方法直接在訓練或自定義過程中調整基礎模型權重,這與使用低階適應(LoRA)的 PEFT 不同。在這些情況下,必須更新模型的推理軟件配置,以便在給定新權重時獲得最佳性能。 NIM 可以自動構建針對本地環境中調整后的模型和 GPU 優化的 TensorRT-LLM 推理引擎性能,然后加載該引擎,以便在單步模型部署流程中運行推理,而無需承擔這一通常漫長的過程。 在本文中,
]]>12157NVIDIA NIM 1.4 現已部署可用,推理速度提升 2.4 倍
http://www.open-lab.net/zh-cn/blog/nvidia-nim-1-4-ready-to-deploy-with-2-4x-faster-inference/
Fri, 15 Nov 2024 07:01:07 +0000http://www.open-lab.net/zh-cn/blog/?p=12026Continued]]>隨著 生成式 AI 重塑各行各業,對可立即部署的高性能推理的需求也在不斷增長。 NVIDIA NIM 為 AI 模型推理提供生產就緒型微服務容器,不斷提高企業級生成式 AI 性能。即將推出的 NIM 版本 1.4 定于 12 月初發布,開箱即用的請求性能可提升高達 2.4 倍,并提供相同的單命令部署體驗。 NIM 的核心是多個 LLM 推理引擎,包括 NVIDIA TensorRT-LLM ,可實現光速推理性能。在每個版本中,NIM 都整合了來自這些引擎的內核優化、內存管理和調度方面的最新進展,以提高性能。 在 NIM 1.4 中,內核效率、運行時啟發式算法和內存分配有了顯著改進,推理速度提高了 2.4 倍。這些進步對于依賴快速響應和高吞吐量的生成式 AI 應用的企業至關重要。 NIM 還受益于全棧加速計算的持續更新,可提升計算堆棧各個級別的性能和效率。
]]>12026NVIDIA NIM 現為開發者計劃成員免費開放
http://www.open-lab.net/zh-cn/blog/access-to-nvidia-nim-now-available-free-to-developer-program-members/
Mon, 29 Jul 2024 06:10:29 +0000http://www.open-lab.net/zh-cn/blog/?p=10761Continued]]>使用簡單的 API 將預訓練的 AI 基礎模型集成到產品和體驗的能力顯著提高了開發者對 LLM 端點和應用開發框架的使用率。NVIDIA NIM 使開發者和工程團隊能夠快速部署自己的 AI 模型端點,以便使用熱門開發工具和框架安全開發加速生成式 AI 應用程序。 開發者表示,出于開發目的,他們希望更輕松地訪問 NVIDIA Inference Microservices (NIM),因此我們很高興為超過 500 萬 NVIDIA Developer Program 成員提供用于開發、測試和研究的可下載 NIM 微服務的免費訪問權限。該計劃的成員可以獲得全面的資源、培訓、工具和專家社區,幫助構建加速應用程序和解決方案。 在本文中,我們簡要介紹了 NIM 微服務的技術概述,重點介紹了一些可供下載和自托管部署的微服務,并提供了入門所需的手冊資源以開始使用。 NIM 提供用于跨云、