Triton 推斷服務器 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Tue, 27 Feb 2024 23:07:40 +0000 zh-CN hourly 1 196178272 使用新的 NVIDIA AI 基礎模型生成代碼、回答查詢并翻譯文本 http://www.open-lab.net/zh-cn/blog/generate-code-answer-queries-and-translate-text-with-leading-generative-ai-models/ Mon, 05 Feb 2024 07:43:41 +0000 http://www.open-lab.net/zh-cn/blog/?p=8903 Continued]]> 本周的 Model Monday 版本包含 NVIDIA 優化的代碼 Lama、Kosmos-2 和 SeamlessM4T,您可以直接在瀏覽器中體驗。 通過NVIDIA AI 基礎模型和端點,您可以訪問由 NVIDIA 構建的一系列精選社區,生成式 AI用于在企業應用程序中體驗、自定義和部署的模型。 Meta 的 Code Llama 70B 是最新的先進代碼 LLM,專用于代碼生成。它基于 Llama 2 模型構建,提供更高的性能和適應性。該模型可以從自然語言生成代碼,在編程語言之間翻譯代碼,編寫單元測試,并協助調試。 Code Lama 70B 具有 10 萬個令牌的大上下文長度,因此能夠處理和生成時間更長、更復雜的代碼,這對于更全面的代碼生成和提高處理復雜編碼任務的性能非常重要。這種開源模型可用于代碼翻譯、匯總、文檔、分析和調試等各種應用。

Source

]]>
8903
借助 NVIDIA TensorRT-LLM 和 NVIDIA Triton 部署 AI 編碼助手 http://www.open-lab.net/zh-cn/blog/deploy-an-ai-coding-assistant-with-nvidia-tensorrt-llm-and-nvidia-triton/ Thu, 01 Feb 2024 08:00:40 +0000 http://www.open-lab.net/zh-cn/blog/?p=8908 Continued]]> 大型語言模型 (LLM) 的出現革新了人工智能領域,為與數字世界的交互提供了全新的方式。盡管 LLM 通常能夠提供良好的通用解決方案,但為了更好地支持特定領域和任務,它們往往需要進行調整。 AI 編碼助手(或代碼 LLM)已成為幫助實現這一目標的一個領域。到 2025 年,80% 的產品開發生命周期將使用 生成式 AI 進行代碼生成,開發者將充當后端和前端組件及集成的驗證者和編排者。您可以調整用于代碼任務的 LLM,簡化開發者的工作流程,并降低新手編程人員的門檻。Code LLM 不僅可以生成代碼,還可以填充缺失的代碼、添加文檔,并提供解決難題的提示。 本文將介紹如何部署端到端代碼 LLM,包括具體的提示指南、優化技術和客戶端 – 服務器部署。我們使用NVIDIA Triton 推理服務器并使用NVIDIA TensorRT-LLM,

Source

]]>
8908
借助 NVIDIA AI Enterprise 推進生產級 AI 發展 http://www.open-lab.net/zh-cn/blog/advancing-production-ai-with-nvidia-ai-enterprise/ Thu, 25 Jan 2024 04:22:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=8872 Continued]]> 盡管許多企業將利用人工智能的潛力作為優先事項,但開發和部署人工智能模型需要時間和精力。通常,必須克服將模型投入生產的挑戰,這對于任務關鍵型業務運營尤為重要。根據IDC 研究,只有 18% 的受訪企業能夠在一個月內將 AI 模型投入生產。 本文探討了降低 AI 部署速度的挑戰,并介紹了使用一致、安全且可靠的平臺加速將 AI 投入生產之旅的優勢。 開源軟件(OSS)在推動人工智能(AI)的采用方面發揮著至關重要的作用。根據2023 年 10 月的現狀報告,與生成式 AI 相關的公共 GitHub 項目在 2023 年達到了 65000 個,同比增長了 249%。盡管開源社區推動了 AI 時代的發展,但在構建 AI 應用程序中使用的各種 OSS 使得維護可靠的企業級 AI 軟件堆棧成為一項復雜且資源密集型的工作,類似于維護開源操作系統的難度。 例如,

Source

]]>
8872
借助 NVIDIA AI 軟件構建企業級 AI http://www.open-lab.net/zh-cn/blog/build-enterprise-grade-ai-with-nvidia-ai-software/ Wed, 24 Jan 2024 03:57:48 +0000 http://www.open-lab.net/zh-cn/blog/?p=8792 Continued]]> 在推出 ChatGPT 后,全球各地的企業開始意識到 AI 的優勢和功能,并競相將其應用到工作流程中。 隨著這種采用的加速,企業不僅必須跟上 AI 的快速發展,而且還必須解決優化、可擴展性和安全性等相關挑戰。 企業 AI 開發之旅通常從數據 ETL (提取、轉換、加載)階段開始,在此期間準備用于訓練的數據。接下來是訓練 AI 模型。模型完成訓練后,接下來的步驟包括部署和運行推理。企業需要在每個階段使用經過優化的安全軟件來構建生產就緒型 AI 應用。 NVIDIA NGC 目錄 通過以容器形式提供一系列 GPU 優化的軟件和 SDK,幫助企業加速其 AI 開發。 目錄中的一些熱門容器包括用于數據 ETL 階段的 RAPIDS,以及用于模型開發階段的 TensorFlow 和 PyTorch。此外,還有用于模型部署階段的 NVIDIA TensorRT 和…

Source

]]>
8792
強大的場景文本檢測和識別:簡介 http://www.open-lab.net/zh-cn/blog/robust-scene-text-detection-and-recognition-introduction/ Tue, 16 Jan 2024 06:53:07 +0000 http://www.open-lab.net/zh-cn/blog/?p=8774 Continued]]> 識別和識別自然場景和圖像中的文本對于視頻標題文本識別、檢測車載攝像頭的標牌、信息檢索、場景理解、車牌識別以及識別產品文本等用例變得非常重要。 大多數這些用例都需要近乎實時的性能。常用的文本提取技術包括使用光學字符識別 (OCR) 系統。但是,大多數免費的商用 OCR 系統都經過訓練,可以識別文檔中的文本。在識別自然場景或帶字幕的視頻(如圖像透視、反射、模糊等)中的文本方面存在許多挑戰。 在本系列的下一篇文章中,強大的場景文本檢測和識別:實施,討論了如何使用先進的深度學習算法和技術(例如增量學習和微調)實現 STDR 工作流。第三篇博文強大的場景文本檢測和識別:推理優化,涵蓋了為您的 STDR 工作流提供生產就緒型優化和性能。 通常,文本提取過程涉及以下步驟: 由于文本外觀的可變性(例如曲率、方向和失真),識別自然場景圖像中的不規則文本可能具有挑戰性。

Source

]]>
8774
強大的場景文本檢測和識別:實施 http://www.open-lab.net/zh-cn/blog/robust-scene-text-detection-and-recognition-implementation/ Tue, 16 Jan 2024 06:46:22 +0000 http://www.open-lab.net/zh-cn/blog/?p=8764 Continued]]> 要使場景文本檢測和識別適用于不規則文本或特定用例,您必須完全控制模型,以便根據用例和數據集執行增量學習或微調。請記住,此工作流是場景理解、基于 AI 的檢查和文檔處理平臺的主要構建塊。它應該準確且低延遲。 在本系列的第一篇文章中,強大的場景文本檢測和識別:簡介 討論了穩健的場景文本檢測和識別(STDR)在各行各業中的重要性以及所面臨的挑戰。第三篇博文 強大的場景文本檢測和識別:推理優化 涵蓋了 STDR 工作流的生產就緒型優化和性能。 在這篇博文中,我們決定采用高度精確的先進深度學習模型。為了確保準確性并維持較低的端到端延遲,我們采用了以下工具和框架來執行模型推理優化:NVIDIA TensorRT 和 ONNX Runtime。為了確保標準模型能夠被部署和執行,同時保證具有可擴展性的高性能推理,我們還選擇使用了 NVIDIA Triton 推理服務器。 為了訓練模型,

Source

]]>
8764
強大的場景文本檢測和識別:推理優化 http://www.open-lab.net/zh-cn/blog/robust-scene-text-detection-and-recognition-inference-optimization/ Tue, 16 Jan 2024 06:41:55 +0000 http://www.open-lab.net/zh-cn/blog/?p=8759 Continued]]> 在本文中,我們將深入探討推理優化過程,以在推理階段提高機器學習模型的性能和效率。我們將討論所采用的技術,例如推理計算圖形簡化、量化和降低精度。我們還展示了場景文本檢測和識別模型的基準測試結果,其中比較了 ONNX 運行時 和 NVIDIA TensorRT 使用 NVIDIA Triton 推理服務器。 最后,我們總結了優化深度學習模型對于推理的重要性,以及使用端到端 NVIDIA 軟件解決方案的優勢,NVIDIA AI Enterprise 用于構建高效可靠的場景文本 OCR 系統。 在本系列的第一篇文章中,強大的場景文本檢測和識別:簡介 討論了穩健場景文本檢測和識別(STDR)在各行各業中的重要性以及所面臨的挑戰。第二篇博文 強大的場景文本檢測和識別:實施 并討論了如何使用先進的深度學習算法和技術(如增量學習和微調)實現 STDR 工作流。

Source

]]>
8759
借助 Metaflow 開發 ML 和 AI,并借助 NVIDIA Triton 推理服務器進行部署 http://www.open-lab.net/zh-cn/blog/develop-ml-ai-with-metaflow-deploy-with-triton-inference-server/ Fri, 05 Jan 2024 06:00:08 +0000 http://www.open-lab.net/zh-cn/blog/?p=8675 Continued]]> 將 ML 模型部署到生產環境的方法有很多。有時,模型每天運行一次,以更新數據庫中的預測。有時,它為移動設備上的小型但關鍵的決策控制面板或語音轉文本提供支持。如今,該模型也可以是自定義的大型語言模型 (LLM),支持新的 AI 驅動的產品體驗。 通常情況下,模型通過帶有微服務的 API 端點暴露在其環境中,從而能夠實時查詢模型。雖然這聽起來很簡單,但由于通常有大量用于構建和部署微服務的框架,因此在嚴格的生產環境中服務模型并非易事。 請考慮以下典型挑戰(表 1)。 為全面應對這些挑戰,請考慮 ML 系統從開發的早期階段到部署(及后續)的整個生命周期。 雖然您可以通過為每個步驟采用單獨的工具來完成整個過程,但通過提供連接各個點的一致 API,可以實現更流暢的開發者體驗和更快的部署速度。 出于這一愿景,Netflix 于 2017 年開始開發名為…

Source

]]>
8675
借助 H2O.ai 和 NVIDIA 加速端到端工作流程的推理 http://www.open-lab.net/zh-cn/blog/accelerating-inference-on-end-to-end-workflows-with-h2o-ai-and-nvidia/ Thu, 04 Jan 2024 06:08:44 +0000 http://www.open-lab.net/zh-cn/blog/?p=8683 Continued]]> 數據科學家利用生成式 AI和預測分析構建新一代 AI 應用。在金融服務領域,AI 建模和推理可用于多種解決方案,包括用于投資分析的替代數據、AI 智能文檔自動化,以及交易、銀行和支付中的欺詐檢測。 H2O.ai 與 NVIDIA 合作,利用 NVIDIA AI Enterprise 平臺以及 H2O.ai 的 LLM Studio 和 Driverless AI AutoML,為生成式 AI 和數據科學提供了一個端到端的工作流程。H2O.ai 還利用 NVIDIA AI Enterprise 部署了新一代 AI 推理技術,包括大型語言模型 (LLM),用于構建安全可靠的企業級金融 GPT 和大規模定制應用。 此集成旨在幫助組織開發和部署自己的 LLM 和自定義模型,以用于自然語言處理 (NLP) 以外的各種應用(包括圖像生成)。這些模型支持使用多種內容模式(例如文本、音頻、

Source

]]>
8683
RAG 101:揭秘檢索增強生成流程 http://www.open-lab.net/zh-cn/blog/rag-101-demystifying-retrieval-augmented-generation-pipelines/ Mon, 18 Dec 2023 05:24:55 +0000 http://www.open-lab.net/zh-cn/blog/?p=8575 Continued]]> 大型語言模型 (LLM) 在理解和生成類似人類的響應方面具有前所未有的能力,這給世界留下了深刻的印象。它們的聊天功能在人類和大型數據語料庫之間提供了快速且自然的交互。例如,它們可以從數據中總結和提取亮點,或者用自然語言替換 SQL 查詢等復雜查詢。 雖然假設這些模型可以輕松地創造商業價值非常吸引人,但遺憾的是現實并非總是這樣。幸運的是,企業可以通過使用自己的數據來增強大型語言模型(LLM),從而從中提取價值。這可以通過檢索增強生成(RAG)來實現,正如 NVIDIA 生成式 AI 示例 在面向開發者的 GitHub 庫中所展示的。 通過使用業務數據增強 LLM,企業可以提高其 AI 應用的敏捷性并響應新的開發。例如: 本文介紹了在構建 LLM 應用時使用 RAG 技術的好處,以及 RAG 工作流的組成部分。閱讀完本文后,歡迎參閱RAG 101:

Source

]]>
8575
RAG 101:檢索增強型生成問題 http://www.open-lab.net/zh-cn/blog/rag-101-retrieval-augmented-generation-questions-answered/ Mon, 18 Dec 2023 05:17:10 +0000 http://www.open-lab.net/zh-cn/blog/?p=8569 Continued]]> 在設計和部署 RAG 工作流時,數據科學家、AI 工程師、MLOps 工程師和 IT 基礎架構專業人員必須考慮各種因素:從 LLM 等核心組件到評估方法,不一而足。 關鍵在于,RAG 是一個系統,而不僅僅是一個模型或一組模型。該系統由幾個階段組成,在 RAG 101:揭秘檢索增強生成流程 中有詳細解釋。所有這些階段都提供了根據您的需求做出設計決策的機會。 以下是熱門問題和答案的列表。 在 LLM 領域中,在微調、高效參數微調 (PEFT)、提示工程和檢索增強生成 (RAG) 之間進行選擇取決于應用程序的特定需求和限制。 這并不是說使用一種或另一種技術。事實上,這些技術可以同時使用。例如,PEFT 可能會集成到 RAG 系統中,以進一步優化 LLM 或嵌入模型。最佳方法取決于應用程序的特定要求,以及在準確性、資源可用性和計算限制之間取得平衡。

Source

]]>
8569
借助 NVIDIA DeepStream 和 Edge Impulse 實現計算機視覺快速部署 http://www.open-lab.net/zh-cn/blog/fast-track-computer-vision-deployments-with-nvidia-deepstream-and-edge-impulse/ Thu, 14 Dec 2023 05:46:30 +0000 http://www.open-lab.net/zh-cn/blog/?p=8593 Continued]]> 基于 AI 的計算機視覺 (CV) 應用程序不斷增加,對于從視頻源中提取實時見解尤為重要。這項革命性的技術使您能夠解鎖在沒有重大操作人員干預的情況下無法獲得的寶貴信息,并為創新和解決問題提供新的機會。 NVIDIA DeepStream SDK 旨在為智能視頻分析 (IVA) 用例提供從視頻流中提取見解的能力,利用機器學習 (ML) 技術。在 NVIDIA 硬件上運行時,DeepStream 利用 GPU 加速和專為 ML 優化的加速硬件,以最大化提升預處理性能。 本文將探討如何結合使用 NVIDIA Omniverse 和 Edge Impulse,利用 NVIDIA DeepStream SDK 進行模型開發和部署,以便您可以快速創建端到端應用。Edge Impulse 是 NVIDIA 初創加速計劃的一部分。 在當今環境中,快速構建復雜、

Source

]]>
8593
借助 NVIDIA H100 Tensor Core GPU 和 NVIDIA TensorRT-LLM 實現出色的推理性能 http://www.open-lab.net/zh-cn/blog/achieving-top-inference-performance-with-the-nvidia-h100-tensor-core-gpu-and-nvidia-tensorrt-llm/ Wed, 13 Dec 2023 07:00:42 +0000 http://www.open-lab.net/zh-cn/blog/?p=8494 Continued]]> 出色的 AI 性能需要高效的并行計算架構、高效的工具堆棧和深度優化的算法。NVIDIA 發布了 NVIDIA TensorRT-LLM,它包括專為 NVIDIA RTX GPU 設計的優化,以及針對 NVIDIA Hopper 架構 的優化,這些架構是 NVIDIA H100 Tensor Core GPU 的核心,位于 NVIDIA Omniverse 中。這些優化使得如 Lama 2 70B 等模型能夠在 H100 GPU 上利用加速的 FP8 運算進行執行,同時保持推理準確性。 在最近的一次發布活動中,AMD 談到了 H100 GPU 與其 MI300X 芯片相比的推理性能。分享的結果沒有使用經過優化的軟件,如果基準測試正確,H100 的速度會提高 2 倍。 以下是在 Llama 2 70B 模型上搭載 8 個 NVIDIA H100 GPU 的單個 NVIDIA…

Source

]]>
8494
掌握 LLM 技術:推理優化 http://www.open-lab.net/zh-cn/blog/mastering-llm-techniques-inference-optimization/ Fri, 17 Nov 2023 05:14:21 +0000 http://www.open-lab.net/zh-cn/blog/?p=8306 Continued]]> 通過堆疊 Transformer 層來創建大型模型,可以提高準確性、實現少量學習功能,并且在各種語言任務中實現近乎人類的性能。這些基礎模型的訓練成本高昂,而且在推理過程中可能會占用大量內存和計算資源(這是一種重復性成本)。目前最熱門的大型語言模型 (LLM)可以達到數百億到數千億的參數規模,并且根據用例,可能需要處理長輸入(或上下文),這也會增加費用。 本文討論了大型語言模型(LLM)推理中最緊迫的挑戰及其實用解決方案。建議讀者對 Transformer 架構 和通用注意力機制有基本的了解。我們將在下一節重點討論掌握 LLM 推理復雜性的重要性。 大多數熱門的僅使用解碼器的 LLM (例如 GPT-3)都基于因果關系建模目標進行了預訓練,本質上是作為次詞預測器。這些 LLM 接受一系列標記作為輸入,并以自回歸方式生成后續標記,直到它們滿足停止標準(例如,

Source

]]>
8306
借助 NVIDIA AI on Azure 機器學習提升企業生成式 AI 應用開發速度 http://www.open-lab.net/zh-cn/blog/elevate-enterprise-generative-ai-app-development-with-nvidia-ai-on-azure-machine-learning/ Wed, 15 Nov 2023 07:08:50 +0000 http://www.open-lab.net/zh-cn/blog/?p=8256 Continued]]> 生成式 AI 正在徹底改變各行各業的組織利用數據來提高生產力、推進個性化客戶互動并促進創新的方式。鑒于其巨大的價值,企業正在尋找工具和專業知識,以幫助他們有效、可靠地將這項新技術集成到其業務運營和戰略中。 NVIDIA 和 Microsoft 攜手合作,利用 NVIDIA AI on Azure Machine Learning (Azure ML),為企業提供用于構建、優化和部署 AI 應用程序(包括生成式 AI)的全面解決方案。 在本周的 Microsoft Ignite 上, NVIDIA 和 Microsoft 宣布了另外兩個里程碑,為 Azure ML 帶來管理生產級 AI 和開發生成式 AI 應用的新功能。 6 月,我們發布了一篇博文,解釋了 NVIDIA AI Enterprise 軟件與 Azure 機器學習集成 的詳情及入門指南。

Source

]]>
8256
人人超碰97caoporen国产