Restaurant / Quick-Service – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Wed, 30 Apr 2025 08:32:20 +0000
zh-CN
hourly
1
196178272 -
聚焦:個人 AI 借助 NVIDIA Riva 為小企業主帶來 AI 接待員
http://www.open-lab.net/zh-cn/blog/spotlight-personal-ai-brings-ai-receptionists-to-small-business-owners-with-nvidia-riva/
Tue, 29 Apr 2025 08:27:20 +0000
http://www.open-lab.net/zh-cn/blog/?p=13660
Continued]]>
星期二晚上 10 點,Sapochnick Law Firm (一家位于加利福尼亞州圣地亞哥的專業律師事務所) 的電話鈴響了。作為這家公司的客戶,打電話的人在電話鈴響時焦急萬分。他們收到了一封包含可能改變生活的消息的重要信件,并向律師提出了緊急問題。 客戶很快意識到 Sapochnick 團隊可能在幾小時前離開了辦公室,但他們一直在排隊等待,希望至少有一個語音郵件問候可以提供某種幫助。沒有錄音,聲音用熱情、專業的問候打破了沉默。雙方之間自然而然地展開了對話,很明顯,律師事務所發出的聲音遠不止接電話。該公司精通細致入微的移民程序,熟悉該公司處理特定法律場景的方法,最重要的是,該公司擁有公司創始人 Jacob Sapochnick 廣泛的專有知識。 這種真正的互動之所以能夠實現,是因為 Personal AI Receptionist 是一項由 Personal AI 和…
Source
]]>
13660
-
在 cuBLAS 中引入分組 GEMM API 以及更多性能更新
http://www.open-lab.net/zh-cn/blog/introducing-grouped-gemm-apis-in-cublas-and-more-performance-updates/
Wed, 12 Jun 2024 05:43:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=10332
Continued]]>
最新版本 NVIDIA cuBLAS 庫版本 12.5 將繼續為深度學習(DL)和高性能計算(HPC)工作負載提供功能和性能。本文將概述自版本 12.0以來 cuBLAS 矩陣乘法(matrix multiplications)中的以下更新: 分組的 GEMM API 可視為批量 API 的泛化,可在一次內核啟動中對不同的矩陣大小、轉置和縮放因子進行分組和并行化。 這種方法提供加速的一個示例是多專家 (MoE)模型的批量大小為 8 和 64,以及 FP16 輸入和輸出。在本示例中,分組的 GEMM API 可以使用批量 GEMM API 實現比單純循環快 1.2 倍的速度。 這一點令人印象深刻,因為當前分組的 GEMM 核函數僅利用線程束級 MMA 指令。它們已證明可以與利用線程束級 MMA (wgmma) 指令的分批 GEMM 核函數進行競爭。
Source
]]>
10332
-
聚焦:思科借助 NVIDIA BlueField-3 DPU 提高工作負載安全性和運營效率
http://www.open-lab.net/zh-cn/blog/spotlight-cisco-enhances-workload-security-and-operational-efficiency-with-nvidia-bluefield-3-dpus/
Mon, 10 Jun 2024 06:59:14 +0000
http://www.open-lab.net/zh-cn/blog/?p=10346
Continued]]>
隨著網絡攻擊變得越來越復雜,組織必須不斷采用先進的解決方案來保護其關鍵資產。其中一種解決方案是Cisco Secure Workload,這是一種全面的安全解決方案,旨在保護跨不同基礎設施、位置和外形尺寸的應用程序工作負載。 Cisco 最近發布了 Cisco Secure Workload 3.9 版,該版本將企業的安全性和運營效率提升到了新的水平。它提供了新的功能來緩解威脅和漏洞,并為部署 microsegmentation 提供了更大的靈活性。現在,它還擴展到NVIDIA BlueField-3 數據處理器,其專用 Arm 核心可以加速硬件任務并隔離特定操作,從而確保高效數據處理和強大的安全性,從而打造更精簡、更安全的基礎設施。 思科安全工作負載可為每次工作負載交互提供出色的可見性,并利用 AI 的強大功能自動執行人類管理員無法完成的任務,從而保護應用程序工作負載。
Source
]]>
10346
-
借助 NVIDIA NIM 無縫部署大量 LoRA Adapters
http://www.open-lab.net/zh-cn/blog/seamlessly-deploying-a-swarm-of-lora-adapters-with-nvidia-nim/
Fri, 07 Jun 2024 07:49:27 +0000
http://www.open-lab.net/zh-cn/blog/?p=10358
Continued]]>
最新的先進基礎大型語言模型 (LLM) 擁有數十億個參數,并已在數萬億個輸入文本標記上進行了預訓練。它們通常在各種用例上都取得了驚人的成果,而無需進行任何定制。盡管如此,研究表明,通過使用高質量、特定領域的數據集調整 LLM 可以實現下游任務的最佳準確率。 在許多情況下,較小的自定義模型可以美甚至優于較大的通用 LLM,同時顯著降低部署成本。但是,針對特定下游任務定制模型可能會在創建和部署期間帶來重大挑戰。 完整的 full fine-tuning 對于大型語言模型(LLM,即更新模型的所有參數),由于在整個模型中學習所需的計算基礎設施數量,可能很困難。在部署時,基礎設施成本也會增加,因為用戶需要在內存中托管多個大型模型,或者隨著整個模型的交換而承受更高的延遲。Low-rank adaptation(LoRA)是一種緩解這兩個問題的技術。 本文簡要概述了 LoRA,
Source
]]>
10358
-
在 NVIDIA Holoscan SDK 中 構建集成 OpenCV 的零拷貝 AI 傳感器處理流程
http://www.open-lab.net/zh-cn/blog/build-a-zero-copy-ai-sensor-processing-pipeline-with-opencv-in-nvidia-holoscan-sdk/
Wed, 05 Jun 2024 07:19:36 +0000
http://www.open-lab.net/zh-cn/blog/?p=10193
Continued]]>
NVIDIA Holoscan 是 NVIDIA 的多模態實時 AI 傳感器處理平臺,旨在幫助開發者構建端到端傳感器處理流程。該平臺的核心組件是 NVIDIA Holoscan SDK,其功能包括: Holoscan SDK 可用于為多種行業和應用場景構建流式 AI 流程,包括醫療設備、邊緣高性能計算和工業檢測等領域。有關更多信息,請參閱 使用 NVIDIA Holoscan 開發生產就緒型 AI 傳感器處理應用,以獲取詳細信息。 Holoscan SDK 通過充分利用軟件和硬件來加速流式 AI 應用。它可以與 RDMA 技術 結合,通過 GPU 加速進一步提高端到端流程性能。通常,端到端傳感器處理流程包括: 此流程中的所有數據都存儲在 GPU 顯存中,Holoscan 原生運算符可以直接訪問,而無需主機設備內存傳輸。
Source
]]>
10193
-
借助 NVIDIA JetPack 6.0 助力邊緣云原生微服務,現已正式發布
http://www.open-lab.net/zh-cn/blog/power-cloud-native-microservices-at-the-edge-with-nvidia-jetpack-6-0-now-ga/
Tue, 04 Jun 2024 07:34:51 +0000
http://www.open-lab.net/zh-cn/blog/?p=10204
Continued]]>
NVIDIA JetPack SDK 為 NVIDIA Jetson 模組提供支持,為構建端到端加速的人工智能應用提供全面的解決方案。JetPack 6 通過微服務和一系列新功能擴展了 Jetson 平臺的靈活性和可擴展性。這是 JetPack 2024 年下載次數最多的版本。 隨著 JetPack 6.0 正式發布,開發者可以滿懷信心地將這些新功能引入更先進的嵌入式 AI 和機器人應用。本文重點介紹了主要功能和新的 AI 工作流程。 JetPack 6 支持在 Jetson 上擴展一系列基于 Linux 的發行版。其中包括 Canonical 的 Ubuntu 服務器、Redhat 的 RHEL 9.4、SUSE、Wind River Linux、Redhawk Real Time OS 以及各種基于 Yocto 的發行版。這些基于 Linux 的發行版在 Jetson…
Source
]]>
10204
-
生成式 AI 智能體開發者競賽:入門技巧
http://www.open-lab.net/zh-cn/blog/generative-ai-agents-developer-contest-top-tips-for-getting-started/
Wed, 29 May 2024 06:34:26 +0000
http://www.open-lab.net/zh-cn/blog/?p=10133
Continued]]>
參加我們將于 6 月 17 日結束的比賽,使用前沿技術展示您的創新成果:由生成式 AI 驅動的應用程序,該應用程序使用 NVIDIA 和 LangChain 技術。為了讓您開始,我們將探索一些用于激發您的創意之旅的應用程序,同時分享提示和最佳實踐,幫助您在開發過程中取得成功。 生成式 AI 智能體有許多不同的實際應用。在之前的比賽中開發的智能體或 Copilot 應用會根據應用的隱私、安全和計算要求使用大型語言模型 (LLM) 或小型語言模型 (SLM)。 這些示例包括: 開發者可以在游戲、醫療健康、媒體和娛樂等領域創建用于內容生成的應用。其他選項包括總結、在醫療健康領域,客服人員可以通過分析患者癥狀、病史和臨床數據來幫助診斷疾病,例如問答環節。 其中許多想法都適用于您的數據和您想要解決的問題 – 無論是使用客服改善每周的雜貨店購物,
Source
]]>
10133
-
NVIDIA TensorRT 模型優化器加速生成人工智能推理性能,現已公開
http://www.open-lab.net/zh-cn/blog/accelerate-generative-ai-inference-performance-with-nvidia-tensorrt-model-optimizer-now-publicly-available/
Wed, 08 May 2024 04:49:34 +0000
http://www.open-lab.net/zh-cn/blog/?p=9822
Continued]]>
在快速發展的環境中,生成人工智能的發展對加速推理速度的需求仍然是一個緊迫的問題。隨著模型規模和復雜性的指數級增長,對快速生成結果以同時服務于眾多用戶的需求也在持續增長。NVIDIA 平臺站在這一努力的前沿,通過芯片、系統、軟件和算法等全技術堆棧的創新,實現永久的性能飛躍。 NVIDIA 正在擴展其推理產品 NVIDIA TensorRT 模型優化器,一個集成了最先進的后期訓練和環中訓練模型優化技術的綜合庫。這些技術包括量化和稀疏性,旨在降低模型復雜性,以實現更高效的下游推理庫,如 NVIDIA TensorRT LLM,從而更有效地優化深度學習模型的推理速度。 作為 NVIDIA TensorRT 生態系統的一部分,NVIDIA TensorRT 模型優化器(簡稱模型優化器)可用于多種流行的體系結構,包括 NVIDIA Hopper、NVIDIA Ampere 和 NVIDIA…
Source
]]>
9822
-
Mistral Large 和 Mixtral 8x22B LLM 現已由 NVIDIA NIM 和 NVIDIA API 提供支持
http://www.open-lab.net/zh-cn/blog/mistral-large-and-mixtral-8x22b-llms-now-powered-by-nvidia-nim-and-nvidia-api/
Mon, 22 Apr 2024 04:56:57 +0000
http://www.open-lab.net/zh-cn/blog/?p=9644
Continued]]>
本周發布的模型包括兩個新的 NVIDIA AI 基礎模型:Mistral Large 和 Mixtral 8x22B。這兩個高級文本生成 AI 模型由 Mistral AI 開發,并通過 NVIDIA NIM 微服務提供預構建容器,以簡化部署過程,將部署時間從數周縮短到幾分鐘。這兩個模型可通過 NVIDIA API 目錄 訪問。 Mistral Large 是大型語言模型 (LLM),它擅長處理復雜的多語種推理任務,包括文本理解、轉換和代碼生成。它因精通英語、法語、西班牙語、德語和意大利語以及對語法和文化語境的深入理解而脫穎而出。 該模型具有 32K 令牌上下文窗口,可從大量文檔中調用精確信息。它在指令跟隨和函數調用方面表現出色。Mistral Large 在各種基準測試中表現強勁,并展示了應對編碼和數學挑戰的強大推理能力。
Source
]]>
9644
-
使用 NVIDIA TensorRT-LLM 調整和部署 LoRA LLM
http://www.open-lab.net/zh-cn/blog/tune-and-deploy-lora-llms-with-nvidia-tensorrt-llm/
Tue, 02 Apr 2024 07:51:54 +0000
http://www.open-lab.net/zh-cn/blog/?p=9445
Continued]]>
大型語言模型 (LLM) 可以從大量文本中學習,并為各種任務和領域生成流暢、一致的文本,從而徹底改變自然語言處理 (NLP)。然而,定制 LLM 是一個具有挑戰性的任務,通常需要 訓練過程,這非常耗時且計算成本高昂。此外,訓練 LLM 需要多樣化且具有代表性的數據集,這可能很難獲取和整理。 企業如何在不支付全部訓練成本的情況下利用 LLM 的強大功能?一個很有前景的解決方案是 Low-Rank Adaptation (LoRA),這是一種微調方法,可以顯著減少可訓練參數的數量、內存需求和訓練時間,同時實現與各種 NLP 任務和領域的微調相當甚至更好的性能。 本文介紹了 LoRA 的直覺、實現和一些應用。它還比較了 LoRA 與監督式微調和提示工程,并討論了它們的優缺點。本文概述了訓練和推理 LoRA 調整模型的實用指南。最后,它演示了如何使用 NVIDIA TensorRT-LLM…
Source
]]>
9445
-
借助 NVIDIA NeMo Evaluator 簡化 LLM 的準確性評估
http://www.open-lab.net/zh-cn/blog/streamline-evaluation-of-llms-for-accuracy-with-nvidia-nemo-evaluator/
Wed, 27 Mar 2024 08:36:07 +0000
http://www.open-lab.net/zh-cn/blog/?p=9472
Continued]]>
大型語言模型 (LLM) 從處理復雜的編碼任務到創作引人入勝的故事,再到翻譯自然語言,已展示出非凡的功能。企業正在定制這些模型,以提高特定于應用程序的效率,從而為最終用戶提供更高的準確性和更好的響應。 然而,為特定任務定制大語言模型 (LLM) 會導致模型對先前學習的任務“忘記”。這稱為 **災難性遺忘**。因此,隨著企業在應用中采用 LLM,有必要針對原始任務和新學習的任務評估 LLM,不斷優化模型以提供更好的體驗。這意味著在自定義模型上運行評估需要重新運行基礎和對齊評估,以檢測任何潛在的回退。 為了簡化 LLM 評估,NVIDIA NeMo 團隊宣布 搶先體驗計劃 用于 NeMo Evaluator。NeMo Evaluator 是一種云原生微服務,可提供自動基準測試功能。它評估先進的 基礎模型 和自定義模型,這些模型使用一系列多樣化、精心策劃的學術基準測試、
Source
]]>
9472
-
重新思考如何訓練 Diffusion 模型
http://www.open-lab.net/zh-cn/blog/rethinking-how-to-train-diffusion-models/
Thu, 21 Mar 2024 09:46:57 +0000
http://www.open-lab.net/zh-cn/blog/?p=9503
Continued]]>
在探索了擴散模型采樣、參數化和訓練的基礎知識之后,我們的團隊開始研究這些網絡架構的內部結構。請參考 生成式 AI 研究聚焦:揭開基于擴散的模型的神秘面紗 了解更多詳情。 結果證明這是一項令人沮喪的練習。任何直接改進這些模型的嘗試都會使結果更加糟糕。它們似乎處于微妙、微調、高性能的狀態,任何更改都會破壞平衡。雖然通過徹底重新調整超參數可以實現好處,但下一組改進將需要重新經歷整個過程。 如果您熟悉這種繁瑣的開發循環,但您不直接使用擴散,請繼續閱讀。我們的研究結果針對大多數神經網絡及其訓練背后的普遍問題和組件。 我們決定打破這個循環,回顧一下基礎知識。為什么架構如此易碎?網絡中是否存在破壞訓練進程的未知現象?我們如何使其更加穩健?歸根結底:由于這些問題,我們目前還剩下多少性能? 我們最近的論文 分析和改進擴散模型的訓練動力學 中報告了我們的研究結果和細節。
Source
]]>
9503
-
突破性的 NVIDIA cuOpt 算法將路線優化解決方案的速度提高 100 倍
http://www.open-lab.net/zh-cn/blog/record-breaking-nvidia-cuopt-algorithms-deliver-route-optimization-solutions-100x-faster/
Wed, 20 Mar 2024 05:44:33 +0000
http://www.open-lab.net/zh-cn/blog/?p=9332
Continued]]>
NVIDIA cuOpt 是一個加速優化引擎,專為解決復雜的路線規劃問題而設計。它能夠高效地處理各種問題,包括但不限于:休息和等待時間、車輛的多個成本和時間矩陣、多目標優化、訂單與車輛的匹配、車輛的起始和結束位置、以及車輛的起始和結束時間等。 更具體地說,cuOpt 解決了兩個問題的多個變體:時間窗口容量車輛路線規劃問題 (CVRPTW) 和時間窗口拾貨和交付問題 (PDPTW).這些問題的目的是滿足客戶請求,同時盡可能減少車輛數量和按相應順序行駛的總距離。 cuOpt 在過去三年中設定的最大路由基準測試中打破了 23 項世界紀錄,由 SINTEF 進行。 本文將探討優化算法的關鍵要素及其定義,以及將 NVIDIA cuOpt 與該領域的領先解決方案進行基準測試的過程,并重點介紹這些比較的重要性。在整篇博文中,我們將術語“請求”用于 CVRPTW 的訂單,
Source
]]>
9332
-
NVIDIA 語音和翻譯 AI 模型在速度和準確性方面創下記錄
http://www.open-lab.net/zh-cn/blog/nvidia-speech-and-translation-ai-models-set-records-for-speed-and-accuracy/
Tue, 19 Mar 2024 06:06:09 +0000
http://www.open-lab.net/zh-cn/blog/?p=9349
Continued]]>
NVIDIA 開發的語音和翻譯 AI 模型正在推動性能和創新的發展。NVIDIA Parakeet 自動語音識別 (ASR) 模型系列以及 NVIDIA Canary 多語種、多任務 ASR 和翻譯模型在 Hugging Face 開放 ASR 排行榜 上表現出色。此外,多語種 P-Flow 基于文本轉語音 (TTS) 的模型在 LIMMITS 的 24 項挑戰 中取得了優異成績,使用簡短的音頻片段將說話者的聲音合成為 7 種語言。 本文詳細介紹了其中一些出色的模型如何在語音和翻譯 AI (從語音識別到自定義語音創建) 領域開辟新天地。 NVIDIA Parakeet 模型系列包括 Parakeet CTC 1.1 B, Parakeet CTC 0.6 B, Parakeet RNNT 1.1 B, Parakeet RNNT 0.6 B 以及 Parakeet-TDT…
Source
]]>
9349
-
在 LLM 架構中應用多專家模型
http://www.open-lab.net/zh-cn/blog/applying-mixture-of-experts-in-llm-architectures/
Thu, 14 Mar 2024 07:13:19 +0000
http://www.open-lab.net/zh-cn/blog/?p=9407
Continued]]>
多專家模型 (MoE) 大型語言模型 (LLM) 架構最近出現了,無論是在 GPT-4 等專有 LLM 中,還是在開源版本的社區模型中,如 Mistral Mixtral 8x7B。Mixtral 模型的強勁相對性能引起了極大的興趣,并引發了許多關于 MoE 及其在 LLM 架構中使用的問題。那么,什么是 MoE,為什么它很重要? 多專家模型是神經網絡的架構模式,它將層或運算 (例如線性層、MLP 或注意力投影) 的計算拆分為多個“專家”子網絡。這些子網絡各自獨立執行自己的計算,并組合其結果以創建 MoE 層的最終輸出。MoE 架構可以是密集的,這意味著每個專家都用于每個輸入,也可以是稀疏的,這意味著每個輸入都使用一個專家子集。 本文主要探討MoE在LLM架構中的應用。如需了解MoE在其他領域的應用,請參閱使用稀疏的專家混合模型擴展視覺、
Source
]]>
9407
人人超碰97caoporen国产