TensorRTLLM – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Mon, 10 Mar 2025 06:55:01 +0000 zh-CN hourly 1 196178272 借助 NVIDIA TensorRT-LLM 和 NVIDIA Triton 推理服務器提升 Meta Llama 3 性能 http://www.open-lab.net/zh-cn/blog/turbocharging-meta-llama-3-performance-with-nvidia-tensorrt-llm-and-nvidia-triton-inference-server/ Mon, 22 Apr 2024 05:16:27 +0000 http://www.open-lab.net/zh-cn/blog/?p=9656 Continued]]> 我們很高興地宣布支持 Meta Llama 3 系列模型,通過 NVIDIA TensorRT LLM 加速和優化 LLM 推理性能。您現在可以立即嘗試 Llama 3 8B 和 Llama 3 70B,該系列中的第一個模型,通過瀏覽器用戶界面進行體驗。另外,您也可以通過 NVIDIA API 產品目錄 中的 API 端點訪問 Llama 3,后者被包裝為 NVIDIA NIM,提供了標準 API,能夠部署在任何地方。 大型語言模型需要大量的計算資源。它們的大小使其運行成本高昂且速度緩慢,尤其是在沒有正確技術的情況下。許多優化技術都可用,例如內核融合和量化到運行時優化(如 C++ 實現、KV 緩存、連續運行中批處理和分頁注意力)。 開發人員必須決定哪種組合有助于他們的用例。 TensorRT-LLM 簡化了這項工作。 TensorRT-LLM 是一個開源庫,

Source

]]>
9656
使用 NVIDIA TensorRT-LLM 調整和部署 LoRA LLM http://www.open-lab.net/zh-cn/blog/tune-and-deploy-lora-llms-with-nvidia-tensorrt-llm/ Tue, 02 Apr 2024 07:51:54 +0000 http://www.open-lab.net/zh-cn/blog/?p=9445 Continued]]> 大型語言模型 (LLM) 可以從大量文本中學習,并為各種任務和領域生成流暢、一致的文本,從而徹底改變自然語言處理 (NLP)。然而,定制 LLM 是一個具有挑戰性的任務,通常需要 訓練過程,這非常耗時且計算成本高昂。此外,訓練 LLM 需要多樣化且具有代表性的數據集,這可能很難獲取和整理。 企業如何在不支付全部訓練成本的情況下利用 LLM 的強大功能?一個很有前景的解決方案是 Low-Rank Adaptation (LoRA),這是一種微調方法,可以顯著減少可訓練參數的數量、內存需求和訓練時間,同時實現與各種 NLP 任務和領域的微調相當甚至更好的性能。 本文介紹了 LoRA 的直覺、實現和一些應用。它還比較了 LoRA 與監督式微調和提示工程,并討論了它們的優缺點。本文概述了訓練和推理 LoRA 調整模型的實用指南。最后,它演示了如何使用 NVIDIA TensorRT-LLM…

Source

]]>
9445
NVIDIA H200 Tensor Core GPU 和 NVIDIA TensorRT-LLM 集 MLPerf LLM 推理記錄 http://www.open-lab.net/zh-cn/blog/nvidia-h200-tensor-core-gpus-and-nvidia-tensorrt-llm-set-mlperf-llm-inference-records/ Wed, 27 Mar 2024 08:46:53 +0000 http://www.open-lab.net/zh-cn/blog/?p=9478 Continued]]> 隨著生成式 AI 模型的持續創新,生成式 AI 在計算應用方面取得了巨大進步,從而大幅增強人類能力。這些模型包括 生成式 AI 模型,例如 大型語言模型 (LLM),用于創作營銷文案、編寫代碼、渲染圖像、作曲和生成視頻等。隨著新模型的不斷出現,所需的計算量也隨之增加。 生成式 AI 的計算強度要求芯片、系統和軟件要卓越。MLPerf 推理是一個基準套件,用于衡量多個熱門深度學習用例的推理性能。最新版本 MLPerf Inference v4.0 加入兩個新工作負載,代表了熱門的現代生成式 AI 用例。其中一個是基于最大的 Meta Lama 2 系列大型語言模型 (LLM) 的 LLM 基準測試,以及另一個是基于 Stable Diffusion XL 穩定漫反射的。 NVIDIA 加速計算平臺利用 NVIDIA H200 Tensor Core GPU。

Source

]]>
9478
使用新的 NVIDIA AI 基礎模型生成代碼、回答查詢并翻譯文本 http://www.open-lab.net/zh-cn/blog/generate-code-answer-queries-and-translate-text-with-leading-generative-ai-models/ Mon, 05 Feb 2024 07:43:41 +0000 http://www.open-lab.net/zh-cn/blog/?p=8903 Continued]]> 本周的 Model Monday 版本包含 NVIDIA 優化的代碼 Lama、Kosmos-2 和 SeamlessM4T,您可以直接在瀏覽器中體驗。 通過NVIDIA AI 基礎模型和端點,您可以訪問由 NVIDIA 構建的一系列精選社區,生成式 AI用于在企業應用程序中體驗、自定義和部署的模型。 Meta 的 Code Llama 70B 是最新的先進代碼 LLM,專用于代碼生成。它基于 Llama 2 模型構建,提供更高的性能和適應性。該模型可以從自然語言生成代碼,在編程語言之間翻譯代碼,編寫單元測試,并協助調試。 Code Lama 70B 具有 10 萬個令牌的大上下文長度,因此能夠處理和生成時間更長、更復雜的代碼,這對于更全面的代碼生成和提高處理復雜編碼任務的性能非常重要。這種開源模型可用于代碼翻譯、匯總、文檔、分析和調試等各種應用。

Source

]]>
8903
借助 NVIDIA TensorRT-LLM 和 NVIDIA Triton 部署 AI 編碼助手 http://www.open-lab.net/zh-cn/blog/deploy-an-ai-coding-assistant-with-nvidia-tensorrt-llm-and-nvidia-triton/ Thu, 01 Feb 2024 08:00:40 +0000 http://www.open-lab.net/zh-cn/blog/?p=8908 Continued]]> 大型語言模型 (LLM) 的出現革新了人工智能領域,為與數字世界的交互提供了全新的方式。盡管 LLM 通常能夠提供良好的通用解決方案,但為了更好地支持特定領域和任務,它們往往需要進行調整。 AI 編碼助手(或代碼 LLM)已成為幫助實現這一目標的一個領域。到 2025 年,80% 的產品開發生命周期將使用 生成式 AI 進行代碼生成,開發者將充當后端和前端組件及集成的驗證者和編排者。您可以調整用于代碼任務的 LLM,簡化開發者的工作流程,并降低新手編程人員的門檻。Code LLM 不僅可以生成代碼,還可以填充缺失的代碼、添加文檔,并提供解決難題的提示。 本文將介紹如何部署端到端代碼 LLM,包括具體的提示指南、優化技術和客戶端 – 服務器部署。我們使用NVIDIA Triton 推理服務器并使用NVIDIA TensorRT-LLM,

Source

]]>
8908
人人超碰97caoporen国产