文本生成 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 12 Dec 2024 04:05:48 +0000 zh-CN hourly 1 196178272 使用 NVIDIA Megatron-LM 構建強大日語能力的 1720 億語言模型 http://www.open-lab.net/zh-cn/blog/developing-a-172b-llm-with-strong-japanese-capabilities-using-nvidia-megatron-lm/ Mon, 11 Nov 2024 08:09:35 +0000 http://www.open-lab.net/zh-cn/blog/?p=12065 Continued]]> 生成式 AI 具有創建全新內容的能力,這是傳統機器學習(ML)方法難以實現的。在自然語言處理(NLP)領域, 大型語言模型(LLMs) 的出現特別催生了許多創新和創造性的 AI 應用案例,包括客戶支持聊天機器人、語音助手、文本摘要和翻譯等——這些任務以前由人類處理。 LLMs 通過各種方法不斷發展,包括增加參數數量和采用 Mixture of Experts (MoE) 等新算法。預計許多行業 (包括零售、制造和金融) 都會應用和調整 LLMs。 然而,許多目前在 LLM 排行榜上名列前茅的模型在非英語語言(包括日語)方面表現出的理解和性能不足。其中一個原因是訓練語料庫包含大量英語數據。例如, GPT-3 語料庫中只有 0.11%是日語數據 。創建在日語(日語的訓練數據比英語少)中表現良好的 LLM 模型極具挑戰性。 本文介紹了在 生成式 AI 加速器挑戰賽(GENIAC)…

Source

]]>
12065
IBM 全新推出的 GRANITE 3.0 生成式 AI 模型:小體積、高準確度、高效率 http://www.open-lab.net/zh-cn/blog/ibms-new-granite-3-0-generative-ai-models-are-small-yet-highly-accurate-and-efficient/ Mon, 21 Oct 2024 06:03:07 +0000 http://www.open-lab.net/zh-cn/blog/?p=11713 Continued]]> 今天,IBM 發布了第三代 IBM Granite,這是一個開放語言模型和輔助工具的集合。前幾代 Granite 專注于特定領域的用例;最新的 IBM Granite 模型在學術和企業基準測試中達到或超過領先的類似規模的開放模型的性能。 對開發者友好的 Granite 3.0 生成式 AI 模型專為函數調用而設計,支持基于工具的用例。這些模型是作為主流企業模型開發的,能夠作為跨用例復雜工作流的主要構建塊,包括文本生成、代理 AI、分類、工具調用、摘要、實體提取、客戶服務聊天機器人等。 隆重推出 IBM 的第三代 GRANITE 系列 IBM 開發了 Granite 系列,可作為 NVIDIA NIM 微服務 供企業使用,在不影響性能的情況下優先考慮行業領先的信任、安全性和成本效益。 總體而言,Granite 3.0 版本包 GRANITE 架構的核心組件包括:

Source

]]>
11713
使用 NVIDIA 檢索 QA 嵌入模型構建企業檢索增強生成應用 http://www.open-lab.net/zh-cn/blog/build-enterprise-retrieval-augmented-generation-apps-with-nvidia-retrieval-qa-embedding-model/ Thu, 30 Nov 2023 06:31:11 +0000 http://www.open-lab.net/zh-cn/blog/?p=8359 Continued]]> 大型語言模型 (LLM) 對人類語言和編程語言的深刻理解正在改變 AI 格局。對于新一代企業生產力應用程序而言,它們至關重要,可提高用戶在編程、文案編輯、頭腦風暴和回答各種主題的問題等任務中的效率。 然而,這些模型通常難以處理實時事件和特定知識領域,從而導致不準確之處。微調這些模型可以增強其知識,但成本高昂,并且需要定期更新。 檢索增強生成(RAG)通過將信息檢索與 LLM 結合,為開放領域的問答應用提供解決方案。RAG 為 LLM 提供大量可更新的知識,有效解決了這些限制(圖 1)。NVIDIA NeMo 框架中的 NVIDIA NeMo Retriever 優化了 RAG 的嵌入和檢索部分,以提供更高的準確性和更高效的響應。 本文概述了 RAG 工作流組件的工作原理,以及與創建支持 RAG 的 AI 應用相關的企業挑戰(例如商業可行性)。

Source

]]>
8359
宣布推出 HelpSteer:用于構建實用 LLM 的開源數據集 http://www.open-lab.net/zh-cn/blog/announcing-helpsteer-an-open-source-dataset-for-building-helpful-llms/ Mon, 27 Nov 2023 06:37:06 +0000 http://www.open-lab.net/zh-cn/blog/?p=8368 Continued]]> NVIDIA 最近宣布了 NVIDIA NeMo SteerLM 技術,它是 NVIDIA NeMo 的一部分。此技術允許用戶在推理期間控制大型語言模型(LLM)的響應。開發者社區對使用此方法構建自定義 LLM 表現出極大的興趣。 NVIDIA NeMo 團隊目前正在開源一個名為 Helpfulness SteerLM 數據集(HelpSteer)的資源。有了這個新資源,開發者可以迅速開始利用 SteerLM 技術,并構建先進的自定義模型。 HelpSteer 是我們團隊與 Scale AI 之間的協作成果。它與 SteerLM 技術相結合,提高了響應的真實性和一致性。現在,開發者可以根據復雜性和詳細程度等其他屬性來指導 LLM 響應,并增強最終用戶響應的整體可控性。 通過使用此新數據集和 SteerLM 技術,NVIDIA 訓練了一個 Llama 2 70B 基礎模型,

Source

]]>
8368
掌握 LLM 技術:訓練 http://www.open-lab.net/zh-cn/blog/mastering-llm-techniques-training/ Thu, 16 Nov 2023 05:30:20 +0000 http://www.open-lab.net/zh-cn/blog/?p=8313 Continued]]> 大型語言模型 (LLM) 是一類使用 Transformer 網絡構建的生成式 AI 模型,能夠利用非常大的數據集來識別、匯總、翻譯、預測和生成語言。正如我們所知,LLM 有望改變社會,但訓練這些基礎模型極具挑戰性。 此博客闡述了使用 Transformer 網絡構建 LLM 的基本原理,涵蓋模型架構、注意力機制、嵌入技術和基礎模型訓練策略。 模型架構定義了 Transformer 網絡的骨干,大致規定了模型的功能和限制。LLM 的架構通常稱為編碼器、解碼器或編碼器 – 解碼器模型。 一些熱門架構包括: 另一個熱門架構決策是擴展到多模態模型,這些模型結合了來自文本、圖像、音頻和視頻等多種模式或形式的數據的信息。雖然訓練具有挑戰性,但多模態模型提供了來自不同模式的互補信息的關鍵優勢,正如人類通過分析來自多種感官的數據所理解的那樣。

Source

]]>
8313
使用 NVIDIA AI 基礎模型構建自定義企業級生成式 AI http://www.open-lab.net/zh-cn/blog/build-custom-enterprise-grade-generative-ai-with-nvidia-ai-foundation-models/ Wed, 15 Nov 2023 07:14:09 +0000 http://www.open-lab.net/zh-cn/blog/?p=8261 Continued]]> 在構建企業級 生成式 AI 和 大型語言模型 (LLM) 時,需要收集高質量數據、搭建加速基礎架構以及擁有優化模型的專業知識。 開發者可以從預訓練模型開始,并根據其用例對其進行微調,從而節省時間,并使其解決方案更快地投入市場。開發者需要一種簡單的方法來嘗試模型,并通過 API 集成模型來評估其功能。這有助于他們確定最適合其應用的模型。 NVIDIA AI 基礎模型 是一組經過精心策劃的社區模型和 NVIDIA 構建的模型,它們針對峰值性能進行了優化。開發者可以直接通過 API 或 * 圖形用戶界面從瀏覽器中快速使用這些模型,無需任何設置。模型 * 通過 NVIDIA TensorRT-LLM 和激活感知型權重量化 (AWQ) 進行配置,以實現最高吞吐量和最低延遲,并在 NVIDIA 加速計算堆棧上大規模運行。 我們的 NVIDIA Nemotron-3 8B…

Source

]]>
8261
借助 NVIDIA AI on Azure 機器學習提升企業生成式 AI 應用開發速度 http://www.open-lab.net/zh-cn/blog/elevate-enterprise-generative-ai-app-development-with-nvidia-ai-on-azure-machine-learning/ Wed, 15 Nov 2023 07:08:50 +0000 http://www.open-lab.net/zh-cn/blog/?p=8256 Continued]]> 生成式 AI 正在徹底改變各行各業的組織利用數據來提高生產力、推進個性化客戶互動并促進創新的方式。鑒于其巨大的價值,企業正在尋找工具和專業知識,以幫助他們有效、可靠地將這項新技術集成到其業務運營和戰略中。 NVIDIA 和 Microsoft 攜手合作,利用 NVIDIA AI on Azure Machine Learning (Azure ML),為企業提供用于構建、優化和部署 AI 應用程序(包括生成式 AI)的全面解決方案。 在本周的 Microsoft Ignite 上, NVIDIA 和 Microsoft 宣布了另外兩個里程碑,為 Azure ML 帶來管理生產級 AI 和開發生成式 AI 應用的新功能。 6 月,我們發布了一篇博文,解釋了 NVIDIA AI Enterprise 軟件與 Azure 機器學習集成 的詳情及入門指南。

Source

]]>
8256
NVIDIA AI Foundation 模型:使用生產就緒型 LLM 構建自定義企業聊天機器人和 Co-Pilot http://www.open-lab.net/zh-cn/blog/nvidia-ai-foundation-models-build-custom-enterprise-chatbots-and-co-pilots-with-production-ready-llms/ Wed, 15 Nov 2023 07:01:39 +0000 http://www.open-lab.net/zh-cn/blog/?p=8252 Continued]]> 大型語言模型(LLM)正在革新數據科學領域,特別是在自然語言理解、AI 以及 機器學習 方面。針對特定領域的見解量身打造的自定義 LLM 在企業應用程序中的吸引力越來越大。 NVIDIA NeMo Megatron-3 8B 系列 基礎模型 是一款功能強大的新工具,用于構建生產就緒型 生成式 AI。從客戶服務 AI 聊天機器人到尖端 AI 產品,它在企業中促進創新的應用廣泛。 這些新的基礎模型 NVIDIA NeMo 端到端框架,用于構建、自定義和部署為企業量身打造的 LLM。企業現在可以使用這些工具快速、經濟高效地大規模開發 AI 應用程序。這些應用程序可以在云、數據中心以及 Windows 臺式機和筆記本電腦上運行。 Nemotron-3 8B 系列可在 Azure AI 模型目錄、HuggingFace 和 NVIDIA NGC 的 NVIDIA AI…

Source

]]>
8252
用于矛式網絡釣魚檢測的生成式人工智能和加速計算 http://www.open-lab.net/zh-cn/blog/generative-ai-and-accelerated-computing-for-spear-phishing-detection/ Tue, 12 Sep 2023 10:05:56 +0000 http://www.open-lab.net/zh-cn/blog/?p=7864 Continued]]> 矛式網絡釣魚是最大、成本最高的網絡威脅形式。據估計,2021 年有 30 萬受害者,僅在美國就損失了 4400 萬美元,根據 FBI 網絡犯罪報告。同時,IBM 安全數據泄露成本報告也對此進行了說明。 矛式網絡釣魚電子郵件與受害者可能收到的善意電子郵件無法區分。這也是為什么魚叉式網絡釣魚電子郵件的傳統分類如此困難的原因。騙局和合法電子郵件之間的內容差異可能很小。通常,兩者之間唯一的區別是發件人的意圖:發票是合法的,還是騙局? 這篇文章詳細介紹了一種雙重方法,通過使用增強意圖信號來改進魚叉式網絡釣魚檢測。這種方法利用了 NVIDIA Morpheus 進行數據處理和推理。 第一步包括使用生成式人工智能創建大量多樣的電子郵件語料庫,其中包含與魚叉式網絡釣魚和詐騙相關的各種意圖。隨著新威脅的出現,NVIDIA Morpheus 團隊使用 NVIDIA NeMo…

Source

]]>
7864
選擇大型語言模型定制技術 http://www.open-lab.net/zh-cn/blog/selecting-large-language-model-customization-techniques/ Thu, 10 Aug 2023 05:12:36 +0000 http://www.open-lab.net/zh-cn/blog/?p=7609 Continued]]> 大語言模型(LLM)正在成為企業不可或缺的工具,用于改善他們的運營、客戶互動和決策過程。然而,由于行業特定的術語、領域專業知識或獨特的要求,現成的 LLM 往往無法滿足企業的特定需求。 這就是自定義 LLM 發揮作用的地方。 企業需要自定義模型來根據其特定的用例和領域知識定制語言處理能力。自定義 LLM 使企業能夠在特定行業或組織環境中更高效、更準確地生成和理解文本。 定制模型使企業能夠創建符合其品牌聲音的個性化解決方案,優化工作流程,提供更精確的見解,并提供增強的用戶體驗,最終推動市場競爭優勢。 這篇文章介紹了各種模型定制技術以及何時使用它們。 NVIDIA NeMo 支持許多方法。 NVIDIA NeMo 是一個端到端的云原生框架,用于在任何地方構建、定制和部署生成人工智能模型。它包括訓練和推理框架、護欄工具包、數據管理工具和預訓練模型,

Source

]]>
7609
如何從大型語言模型中獲得更好的輸出 http://www.open-lab.net/zh-cn/blog/how-to-get-better-outputs-from-your-large-language-model/ Wed, 14 Jun 2023 05:19:46 +0000 http://www.open-lab.net/zh-cn/blog/?p=7215 Continued]]> 大語言模型(LLM)因其前所未有的規模理解和處理人類語言的能力,在全球引發轟動,改變了我們與技術互動的方式。 經過大量文本語料庫的訓練, LLM 可以在沒有太多指導或訓練的情況下為各種應用程序操作和生成文本。但是,生成的輸出的質量在很大程度上取決于您給模型的指令,即提示。這對你來說意味著什么?如今,與模型交互是設計提示的藝術,而不是設計模型架構或訓練數據。 考慮到構建和培訓模型所需的專業知識和資源,處理 LLM 可能會付出代價。NVIDIA NeMo 提供了預訓練的語言模型,可以靈活地適應幾乎所有的語言處理任務,同時我們可以完全專注于從可用的 LLM 中獲得最佳輸出。 在本文中,我討論了一些可以充分利用 LLM 的方法。要了解更多關于如何開始使用 LLM 的信息,請參閱《大型語言模型介紹:提示工程和 P-Tuning》。 在我進入生成最佳輸出的策略之前,

Source

]]>
7215
NVIDIA 實現值得信賴、安全可靠的大型語言模型對話系統 http://www.open-lab.net/zh-cn/blog/nvidia-enables-trustworthy-safe-and-secure-large-language-model-conversational-systems/ Tue, 25 Apr 2023 05:35:01 +0000 http://www.open-lab.net/zh-cn/blog/?p=6789 Continued]]> 大語言模型( LLM )非常強大,能夠回答復雜的問題,進行創造性的寫作、開發、調試源代碼等。通過將 LLM 應用程序連接到外部工具,例如從實時源讀取數據,或者使 LLM 能夠決定根據用戶的請求采取什么行動,您可以構建極其復雜的 LLM 應用。然而,以安全可靠的方式構建這些 LLM 應用程序具有挑戰性。 NeMo Guardrails 是一個開源工具包,用于輕松開發安全可靠的 LLM 會話系統。由于生成人工智能的安全性是全行業關注的問題, NVIDIA 設計 NeMo Guardrails 與所有 LLM 一起工作,包括 OpenAI 的 ChatGPT 。 該工具包由社區構建的工具包提供支持,如 LangChain ,它在短短幾個月內就在 GitHub 上聚集了約 3 萬顆星。工具包提供了可組合、易于使用的模板和模式,通過將 LLM 、

Source

]]>
6789
大型語言模型簡介:提示工程和 P 調優 http://www.open-lab.net/zh-cn/blog/an-introduction-to-large-language-models-prompt-engineering-and-p-tuning/ Sun, 23 Apr 2023 04:54:48 +0000 http://www.open-lab.net/zh-cn/blog/?p=6778 Continued]]> ChatGPT 給人留下了深刻印象。用戶很樂意使用人工智能聊天機器人提問、寫詩、塑造互動角色、充當個人助理等等。大語言模型( LLM )為 ChatGPT 供電,這些模型就是本文的主題 在更仔細地考慮 LLM 之前,我們首先想確定語言模型的作用。語言模型給出了一個單詞在單詞序列中有效的概率分布。從本質上講,語言模型的工作是預測哪個詞最適合一個句子。圖 1 提供了一個示例。 雖然像 BERT 這樣的語言模型已經被有效地用于處理文本分類等許多下游任務,但已經觀察到,隨著這些模型規模的增加,某些額外的能力也會出現 這種規模的增加通常伴隨著以下三個維度的相應增加:參數的數量、訓練數據和訓練模型所需的計算資源。有關詳細信息,請參閱Emergent Abilities of Large Language Models. LLM 是一種深度學習模型,可以使用大型數據集識別、

Source

]]>
6778
人人超碰97caoporen国产