Carl (Izzy) Putterman – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Wed, 08 Jan 2025 04:44:22 +0000 zh-CN hourly 1 196178272 借助 NVIDIA TensorRT-LLM 預測解碼,將 Llama 3.3 的推理吞吐量提升 3 倍 http://www.open-lab.net/zh-cn/blog/boost-llama-3-3-70b-inference-throughput-3x-with-nvidia-tensorrt-llm-speculative-decoding/ Tue, 17 Dec 2024 04:36:12 +0000 http://www.open-lab.net/zh-cn/blog/?p=12513 Continued]]> 隨著近期新增的 Llama 3.3 70B (一種純文本指令調整模型),Meta 的開放 大語言模型 (LLMs) 集合將繼續增長。Llama 3.3 相對于較舊的 Llama 3.1 70B 模型提供了增強的性能,甚至可以在數學、推理、編碼和多語種支持等多項任務中匹配更大、計算成本更高的 Llama 3.1 405B 模型的功能。 NVIDIA TensorRT-LLM 是一款功能強大的推理引擎,可在最新的 LLM 上提供先進的性能,并整合了許多優化措施,可提供出色的 Llama 3.3 70B 推理吞吐量。其中包括在飛批處理、 KV 緩存 、 自定義 FP8 量化 、推測解碼等,可實現快速、經濟高效的 LLM 服務。 動態批處理默認作為運行時配置參數激活,TensorRT-LLM 支持同時批處理多個不同的請求,從而提高服務吞吐量。通過在上下文和生成階段交錯處理請求,

Source

]]>
12513
NVIDIA NIM 1.4 現已部署可用,推理速度提升 2.4 倍 http://www.open-lab.net/zh-cn/blog/nvidia-nim-1-4-ready-to-deploy-with-2-4x-faster-inference/ Fri, 15 Nov 2024 07:01:07 +0000 http://www.open-lab.net/zh-cn/blog/?p=12026 Continued]]> 隨著 生成式 AI 重塑各行各業,對可立即部署的高性能推理的需求也在不斷增長。 NVIDIA NIM 為 AI 模型推理提供生產就緒型微服務容器,不斷提高企業級生成式 AI 性能。即將推出的 NIM 版本 1.4 定于 12 月初發布,開箱即用的請求性能可提升高達 2.4 倍,并提供相同的單命令部署體驗。 NIM 的核心是多個 LLM 推理引擎,包括 NVIDIA TensorRT-LLM ,可實現光速推理性能。在每個版本中,NIM 都整合了來自這些引擎的內核優化、內存管理和調度方面的最新進展,以提高性能。 在 NIM 1.4 中,內核效率、運行時啟發式算法和內存分配有了顯著改進,推理速度提高了 2.4 倍。這些進步對于依賴快速響應和高吞吐量的生成式 AI 應用的企業至關重要。 NIM 還受益于全棧加速計算的持續更新,可提升計算堆棧各個級別的性能和效率。

Source

]]>
12026
使用 GPUNet 在 NVIDIA GPU 上擊敗 SOTA 推理性能 http://www.open-lab.net/zh-cn/blog/beating-sota-inference-performance-on-nvidia-gpus-with-gpunet/ Tue, 30 Aug 2022 05:13:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5014 Continued]]> GPUNet 由 AI 為 AI 精心打造,是一類卷積神經網絡,旨在使用 NVIDIA TensorRT 最大化 NVIDIA GPU 的性能。 使用新的神經架構搜索( NAS )方法構建, GPUNet 展示了最先進的推理性能,比 EfficientNet-X 和 FBNet-V3 快兩倍。 NAS 方法有助于為廣泛的應用構建 GPUNet ,以便深度學習工程師可以根據相對精度和延遲目標直接部署這些神經網絡。 高效的體系結構搜索和部署就緒模型是 NAS 設計方法的關鍵目標。這意味著幾乎不與領域專家進行交互,并且有效地使用集群節點來培訓潛在的架構候選。最重要的是,生成的模型已準備好部署。 為目標設備尋找性能最佳的架構搜索可能很耗時。 NVIDIA 構建并部署了一種新型的 NAS AI 代理,該代理可以有效地做出構建 GPUNET 所需的艱難設計選擇,

Source

]]>
5014
利用NVIDIA 時間序列預測平臺和 Triton 推理服務器進行時間序列預測 http://www.open-lab.net/zh-cn/blog/time-series-forecasting-with-the-nvidia-time-series-prediction-platform-and-triton-inference-server/ Tue, 15 Feb 2022 03:53:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=3066 Continued]]> 在這篇文章中,我們詳細介紹了最近發布的 NVIDIA 時間序列預測平臺( TSPP ),這是一個設計用于輕松比較和實驗預測模型、時間序列數據集和其他配置的任意組合的工具。 TSPP 還提供了探索超參數搜索空間的功能,使用分布式訓練和自動混合精度( AMP )運行加速模型訓練,并在NVIDIA Triton 推理服務器上加速和運行加速模型格式的推理。 事實證明,在理解和管理復雜系統(包括但不限于電網、供應鏈和金融市場)時,使用以前的值準確預測未來的時間序列值至關重要。在這些預測應用中,預測精度的單位百分比提高可能會產生巨大的財務、生態和社會影響。除了需要精確之外,預測模型還必須能夠在實時時間尺度上運行。 滑動窗口預測問題,如圖 1 所示,涉及使用先前的數據和未來值的知識來預測未來的目標值。傳統的統計方法,如 ARIMA 及其變體,或 Holt-Winters 回歸,

Source

]]>
3066
人人超碰97caoporen国产