AI 推理 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Wed, 19 Mar 2025 08:40:50 +0000 zh-CN hourly 1 196178272 使用 NVIDIA AI 端點和 Ragas 對醫療 RAG 的評估分析 http://www.open-lab.net/zh-cn/blog/evaluating-medical-rag-with-nvidia-ai-endpoints-and-ragas/ Tue, 01 Oct 2024 08:59:35 +0000 http://www.open-lab.net/zh-cn/blog/?p=11492 Continued]]> 在快速發展的醫學領域,尖端技術的集成對于增強患者護理和推進研究至關重要。其中一項創新是 檢索增強生成(RAG),它正在改變醫療信息的處理和使用方式。 RAG 將 大語言模型 (LLMs) 的功能與外部知識檢索相結合,解決了信息過時和生成不準確數據(稱為“幻覺”)等關鍵限制。通過從結構化數據庫、科學文獻和患者記錄中檢索最新的相關信息,RAG 為醫療應用提供了更準確、更符合情境感知的基礎。這種混合方法提高了生成輸出的準確性和可靠性,并增強了可解釋性,使其成為藥物研發和臨床試驗篩選等領域的重要工具。 隨著我們繼續探索 RAG 在醫學領域 的潛力,必須嚴格評估其性能,同時考慮檢索和生成組件,以確保在醫療應用中實現更高的準確性和相關性標準。醫療 RAG 系統具有獨特的需求和要求,這凸顯了對全面評估框架的需求,這些框架可以有力地解決這些問題。 在本文中,

Source

]]>
11492
使用 NVIDIA NIM 微服務實現語音和翻譯功能,快速賦予應用語音能力 http://www.open-lab.net/zh-cn/blog/quickly-voice-your-apps-with-nvidia-nim-microservices-for-speech-and-translation/ Wed, 18 Sep 2024 07:42:34 +0000 http://www.open-lab.net/zh-cn/blog/?p=11374 Continued]]> NVIDIA NIM 是 NVIDIA AI Enterprise 的一部分,為自行托管的 GPU 加速推理微服務提供容器,用于跨云、數據中心和工作站的預訓練和自定義 AI 模型。NIM 微服務現已支持 語音和翻譯 。 新的語音和翻譯微服務利用 NVIDIA Riva ,提供 自動語音識別(ASR)、 神經網絡機器翻譯(NMT) 和 文本轉語音(TTS) 服務。 通過 NVIDIA 語音和翻譯 NIM 微服務,將多語種語音功能集成到您的應用中,不僅能提供先進的自動語音識別(ASR)、神經機器翻譯(NMT)和文本轉語音(TTS),還可增強全球用戶體驗和可訪問性。無論您是構建客戶服務機器人、交互式語音助手,還是構建多語種內容平臺,這些 NIM 微服務都針對大規模高性能 AI 推理進行了優化,并提供準確性和靈活性,以盡可能減少開發工作量為您的應用提供語音支持。

Source

]]>
11374
使用 NVIDIA NeMo 和 NVIDIA TensorRT 模型優化器對 LLM 進行訓練后量化 http://www.open-lab.net/zh-cn/blog/post-training-quantization-of-llms-with-nvidia-nemo-and-nvidia-tensorrt-model-optimizer/ Tue, 10 Sep 2024 08:47:34 +0000 http://www.open-lab.net/zh-cn/blog/?p=11299 Continued]]> 隨著大語言模型(LLMs)的規模不斷擴大,提供易于使用且高效的部署路徑變得越來越重要,因為為此類 LLMs 提供服務的成本越來越高。一種降低這一成本的方法是應用訓練后量化(PTQ),其中包括減少為經過訓練的模型提供服務所需的計算和內存需求的技術。 在本文中,我們概述了如何在 NVIDIA NeMo 中實施 PTQ。這是通過使用 NVIDIA TensorRT Model Optimizer 庫實現的,該庫可量化和壓縮深度學習模型,以在 GPU 上優化推理。它還使用 NVIDIA TensorRT-LLM,這是一個開源庫,用于優化大語言模型(LLM)推理。我們展示了量化模型的準確性和性能結果。在整個示例中,我們使用了 Llama 3 模型。 PTQ 是 NeMo LLM 構建和自定義功能的自然擴展,使用 NVIDIA TensorRT 模型優化器和 NVIDIA TensorRT…

Source

]]>
11299
NVIDIA Triton 推理服務器在 MLPerf Inference 4.1 基準測試中實現出色性能 http://www.open-lab.net/zh-cn/blog/nvidia-triton-inference-server-achieves-outstanding-performance-in-mlperf-inference-4-1-benchmarks/ Wed, 28 Aug 2024 06:44:39 +0000 http://www.open-lab.net/zh-cn/blog/?p=11085 Continued]]> 六年前,我們踏上了開發 AI 推理服務解決方案的旅程,該解決方案專為高吞吐量和時間敏感型生產用例而設計。當時,ML 開發者正在部署定制的、框架特定的 AI 解決方案,這推高了他們的運營成本,并且無法滿足其延遲和吞吐量服務級別協議。 我們很早就決定構建一個多功能的開源服務器,能夠服務于任何模型,不管其AI后端框架如何。 今天,NVIDIA Triton Inference Server 是 NVIDIA 最受歡迎的開源項目之一,被一些世界領先的組織用于在生產環境中部署 AI 模型,包括 Amazon、Microsoft、Oracle Cloud、American Express、Snap、Docusign 等。 我們很高興地宣布,NVIDIA Triton 在配備 8 個 H200 GPU 的系統上運行,實現了一個重要的里程碑,與 MLPerf Inference v4.1…

Source

]]>
11085
Google Cloud Run 現已支持 NVIDIA L4 GPU、NVIDIA NIM 及大規模無服務器 AI 推理部署 http://www.open-lab.net/zh-cn/blog/google-cloud-run-adds-support-for-nvidia-l4-gpus-nvidia-nim-and-serverless-ai-inference-deployments-at-scale/ Wed, 21 Aug 2024 09:24:43 +0000 http://www.open-lab.net/zh-cn/blog/?p=11018 Continued]]> 部署 AI 賦能的應用和服務給企業帶來了重大的挑戰: 應對這些挑戰需要一種全棧方法,該方法可以優化性能、有效管理可擴展性并駕部署的復雜性,使組織能夠在保持運營效率和成本效益的同時最大限度地發揮AI的全部潛力。 Google Cloud 和 NVIDIA 攜手合作,通過結合 NVIDIA AI 平臺的性能和云端無服務器計算的易用性,應對這些挑戰并簡化 AI 推理部署。 Google Cloud 的完全托管式無服務器容器運行時 Cloud Run 增加了對 NVIDIA L4 Tensor Core GPU 的支持(可在預覽版中獲取)。現在,您可以按需運行大規模加速的實時 AI 應用程序,而無需擔心基礎設施管理。結合 NVIDIA NIM 微服務的強大功能,Cloud Run 能夠顯著簡化生產優化和服務 AI 模型的復雜性,同時更大限度地提高應用程序性能。

Source

]]>
11018
LLM 推理規模和性能優化的實踐策略 http://www.open-lab.net/zh-cn/blog/practical-strategies-for-optimizing-llm-inference-sizing-and-performance/ Wed, 21 Aug 2024 07:43:33 +0000 http://www.open-lab.net/zh-cn/blog/?p=11025 Continued]]> 隨著聊天機器人和內容創建等許多應用越來越多地使用大型語言模型(LLM),了解擴展和優化推理系統的過程非常重要,以便就 LLM 推理的硬件和資源做出明智的決策。 在接下來的一場演講中,NVIDIA 的高級深度學習解決方案架構師Dmitry Mironov 和 Sergio Perez 將指導您了解 LLM 推理規模的關鍵方面。他們分享了他們的專業知識、最佳實踐和技巧,并將指導您如何高效地處理部署和優化 LLM 推理項目的復雜性。 請閱讀會議的 PDF,同時了解如何通過了解 LLM 推理規模中的關鍵指標為您的 AI 項目選擇正確的路徑。探索如何準確確定硬件和資源的規模、優化性能和成本,以及選擇最佳的部署策略,不論是在本地還是在云端。 您還將介紹NVIDIA NeMo推理規模計算器(使用此NIM進行LLM基準測試指南復制)和NVIDIA Triton性能分析器等高級工具,

Source

]]>
11025
首個設備上小語言模型的部署提高游戲角色扮演體驗 http://www.open-lab.net/zh-cn/blog/deploy-the-first-on-device-small-language-model-for-improved-game-character-roleplay/ Tue, 20 Aug 2024 08:34:24 +0000 http://www.open-lab.net/zh-cn/blog/?p=11042 Continued]]> 在 Gamescom 2024 游戲展上,NVIDIA 宣布推出首款用于提高游戲角色對話能力的設備上小語言模型 (SLM)。我們還宣布,首款展示 NVIDIA ACE 和數字人技術的游戲是由 Seasun Games 開發的‘機甲突破 (Mecha BREAK)’,該游戲可讓角色如生,并在 NVIDIA GeForce RTX AI PC 上提供更動態、更身臨其境的游戲體驗。 NVIDIA ACE 是一套數字人技術,可以提供由生成式 AI 提供動力支持的語音、智能和動畫。它現在包含首款 NVIDIA SLM,即 Nemotron-4 4B Instruct。這款新模型可作為 NVIDIA NIM 提供,供游戲開發者在云和設備上部署。NVIDIA NIM 是一套易于使用的微服務,可以加快基礎模型在任何云或數據中心的部署速度。

Source

]]>
11042
NVIDIA TensorRT 模型優化器 v0.15 提高推理性能擴展模型支持能力 http://www.open-lab.net/zh-cn/blog/nvidia-tensorrt-model-optimizer-v0-15-boosts-inference-performance-and-expands-model-support/ Thu, 15 Aug 2024 08:58:32 +0000 http://www.open-lab.net/zh-cn/blog/?p=11049 Continued]]> NVIDIA 宣布推出新版 v0.15 NVIDIA TensorRT 模型優化器,這是一種先進的模型優化技術量化工具包,包含量化、稀疏和剪枝。這些技術可降低模型復雜性,使 NVIDIA TensorRT-LLM 和 NVIDIA TensorRT 等下游推理框架能夠更有效地優化生成式 AI 模型的推理速度。 本文將概述近期 TensorRT Model Optimizer 版本的一些主要特性和升級,包括緩存擴散、使用 NVIDIA NeMo 的全新量化感知訓練工作流程以及 QLoRA 支持。 以前,TensorRT Model Optimizer(簡稱‘Model Optimizer’)利用其 8 位訓練后量化(PTQ)技術強效助力 NVIDIA TensorRT,為 Stable Diffusion XL 的性能設立了標桿。為進一步普及擴散模型的快速推理,

Source

]]>
11049
NVIDIA NIM 微服務助力大規模 LLM 推理效率優化 http://www.open-lab.net/zh-cn/blog/optimizing-inference-efficiency-for-llms-at-scale-with-nvidia-nim-microservices/ Wed, 14 Aug 2024 05:14:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=10967 Continued]]> 隨著大型語言模型 (LLMs) 繼續以前所未有的速度發展,企業希望構建生成式 AI 驅動的應用程序,以最大限度地提高吞吐量,降低運營成本,并盡可能減少延遲,從而提供卓越的用戶體驗。 本文將討論 LLM 的吞吐量和延遲的關鍵性能指標,探索其重要性以及兩者之間的權衡。本文還將探討吞吐量和延遲如何影響 AI 應用程序的效率和用戶體驗,以及如何使用 NVIDIA NIM 微服務對其進行優化。 當用戶向LLM發送請求時,系統會處理該請求,并通過輸出一系列令牌開始生成響應。通常會有多個請求發送到系統,系統會嘗試同時處理這些請求,以盡可能縮短每個請求的等待時間。 吞吐量用于衡量單位時間內的成功操作數。吞吐量是企業確定其同時處理用戶請求的能力的重要衡量指標。對于 LLM,吞吐量由令牌每秒來衡量。由于令牌是新貨幣,更高的吞吐量可以降低成本并為企業帶來收入。 此外,

Source

]]>
10967
NVIDIA NVLink 和 NVIDIA NVSwitch 加速大語言模型推理性能 http://www.open-lab.net/zh-cn/blog/nvidia-nvlink-and-nvidia-nvswitch-supercharge-large-language-model-inference/ Mon, 12 Aug 2024 07:03:12 +0000 http://www.open-lab.net/zh-cn/blog/?p=10993 Continued]]> 大型語言模型(LLM)越來越大,增加了處理推理請求所需的計算量。為了滿足服務當今LLM的實時延遲要求,并為盡可能多的用戶提供服務,多GPU計算是必不可少的。這不僅能夠降低延遲,提高用戶體驗,還能夠提高吞吐量,降低服務成本。兩者同時重要。 即使大型模型可以裝入單個state-of-the-art GPU的內存中,該GPU生成令牌的速率也取決于可用于處理請求的總計算量。通過結合多個state-of-the-art GPU的計算能力,可以實現最新模型的實時用戶體驗。 為了解對每秒高令牌的需求,以下 GIF 展示了兩種情況: 通過使用多個 GPU 的組合計算性能和張量并行 (TP) 等技術來運行大型模型,可以快速處理推理請求,從而實現實時響應。通過精心選擇用于運行模型的 GPU 數量,云推理服務還可以同時優化用戶體驗和成本。

Source

]]>
10993
使用 CUDA 圖形優化 Llama.cpp AI 推理 http://www.open-lab.net/zh-cn/blog/optimizing-llama-cpp-ai-inference-with-cuda-graphs/ Wed, 07 Aug 2024 02:40:50 +0000 http://www.open-lab.net/zh-cn/blog/?p=10897 Continued]]> 開源 llama.cpp 代碼庫最初于 2023 年發布,是一種輕量級但高效的框架,用于在 Meta Llama 模型上執行推理。llama.cpp 基于去年發布的 GGML 庫構建,由于專注于 C/C++ 而無需復雜的依賴項,因此很快就吸引了許多用戶和開發者(尤其是在個人工作站上使用)。 自首次發布以來,Llama.cpp 已得到擴展,不僅支持各種模型、量化等,還支持多個后端,包括支持 NVIDIA CUDA 的 GPU。在撰寫本文之時,Llama.cpp 在所有 GitHub 庫中排名第 123 位,在所有 C++ GitHub 庫中排名第 11 位。 在 NVIDIA GPU 上使用 Llama.cpp 執行 AI 推理已經帶來了顯著的優勢,因為它們能夠以極高的性能和能效執行基礎 AI 推理的計算,同時在消費設備和數據中心中也很普遍。NVIDIA 和 Llama.

Source

]]>
10897
深入了解使用 NVIDIA NIM 優化的新 AI 模型 http://www.open-lab.net/zh-cn/blog/a-deep-dive-into-the-latest-ai-models-optimized-with-nvidia-nim/ Tue, 06 Aug 2024 05:11:02 +0000 http://www.open-lab.net/zh-cn/blog/?p=10927 Continued]]> NVIDIA NIM 微服務作為優化容器提供,旨在加速各種規模的企業的 AI 應用開發,為 AI 技術的快速生產和部署鋪平道路。這些微服務集可用于在語音 AI、數據檢索、數字生物學、數字人、模擬和大型語言模型(LLMs)中構建和部署 AI 解決方案。 每個月,NVIDIA 都致力于為各行業和領域的領先 AI 模型提供 NIM 微服務。本文將為您介紹新增的最新功能。 用于語音和翻譯的最新 NIM 微服務使組織能夠將先進的多語種語音和翻譯功能集成到其全球對話式應用中。這些功能包括自動語音識別(ASR)、文本轉語音(TTS)和神經網絡機器翻譯(NMT),滿足各種行業需求。 Parakeet ASR-CTC-1.1 B-EnUS ASR 模型擁有 11 億個參數,提供創紀錄的英語轉錄功能。它提供出色的準確性和魯棒性,熟練地處理各種語音模式和噪音級別。

Source

]]>
10927
利用重新排名技術增強 RAG 管道性能 http://www.open-lab.net/zh-cn/blog/enhancing-rag-pipelines-with-re-ranking/ Tue, 30 Jul 2024 06:24:28 +0000 http://www.open-lab.net/zh-cn/blog/?p=10955 Continued]]> 在快速發展的 AI 驅動應用程序格局中,重新排名已成為提高企業搜索結果的準確性和相關性的關鍵技術。通過使用先進的機器學習算法,重新排名可以優化初始搜索輸出,以更好地與用戶意圖和上下文保持一致,從而顯著提高語義搜索的有效性。這通過提供更準確、更符合上下文的結果來提高用戶滿意度,同時還提高了轉化率和參與度指標。 重新排名在優化檢索增強生成(Retrieval-Augmented Generation,RAG)流程方面也發揮著至關重要的作用,可確保大型語言模型(Large Language Models,LLMs)處理最相關和高質量的信息。重新排名的這一雙重優勢(增強語義搜索和RAG流程)使其成為旨在提供卓越搜索體驗并在數字市場中保持競爭優勢的企業不可或缺的工具。 在本文中,我使用了 NVIDIA NeMo Retriever Reranking NIM。

Source

]]>
10955
全新 NVIDIA NIM:可適用于 Mistral 和 Mixtral 模型并為您的 AI 項目賦能 http://www.open-lab.net/zh-cn/blog/power-your-ai-projects-with-new-nvidia-nims-for-mistral-and-mixtral-models/ Mon, 15 Jul 2024 04:13:34 +0000 http://www.open-lab.net/zh-cn/blog/?p=10634 Continued]]> 大語言模型(LLM)在企業組織中的應用日益廣泛,許多企業都將其整合到 AI 應用中。雖然從基礎模型著手十分高效,但需要花費一定的精力才能將它們整合到生產就緒型環境中。NVIDIA NIM 簡化了這一過程,使企業能夠在數據中心、云、工作站和 PC 等任何位置運行 AI 模型。 專為企業設計的 NIM 提供一整套預構建云原生微服務,這些微服務能夠被輕松地整合到現有基礎設施中。這些微服務經過精心的維護和持續的更新,具有開箱即用的性能,并確保您能夠獲得 AI 推理技術的最新進展。 基礎模型的增長源于其能夠滿足各種企業需求的能力,但沒有任何一個單一的模型能夠完全滿足企業的需求,企業通常會根據特定的數據需求和 AI 應用工作流,在其用例中使用不同的基礎模型。 考慮到企業需求的多樣化,我們擴大了 NIM 的陣容,涵蓋了 Mistral-7B、

Source

]]>
10634
揭開萬億參數大型語言模型 AI 推理部署的神秘面紗 http://www.open-lab.net/zh-cn/blog/demystifying-ai-inference-deployments-for-trillion-parameter-large-language-models/ Wed, 12 Jun 2024 06:06:56 +0000 http://www.open-lab.net/zh-cn/blog/?p=10336 Continued]]> 人工智能(AI)正在改變各行各業,解決精準藥物發現、自動駕駛汽車開發等重大人類科學挑戰,并解決自動創建電子商務產品描述和從法律合同中提取見解等商業問題。 如今,每家企業都在探索大語言模型(LLMs),以創造競爭優勢。NVIDIA 云合作伙伴正在介入,為企業的人工智能之旅提供支持。例如,NexGen Cloud 為客戶提供通過其按需云平臺 Hyperstack 運行proofs-of-concept(PoCs)的機會,然后再致力于大規模的 supercloud 合同。您可以立即試用新一代 NVIDIA GPUs,從而快速采用其他服務層,例如 NVIDIA AI 平臺。 在試點項目取得成功后,許多企業正在將這些計劃投入生產,以提高利潤。這就提出了一個重要問題:企業如何在提供出色用戶體驗的同時保持強勁的投資回報? 大語言模型(LLM)生成的 tokens…

Source

]]>
10336
人人超碰97caoporen国产