Zhilin Wang – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Fri, 11 Apr 2025 06:27:19 +0000
zh-CN
hourly
1
196178272 -
使用先進的開放式 NVIDIA Llama Nemotron 推理模型構建企業 AI 智能體
http://www.open-lab.net/zh-cn/blog/build-enterprise-ai-agents-with-advanced-open-nvidia-llama-nemotron-reasoning-models-2/
Tue, 08 Apr 2025 06:21:51 +0000
http://www.open-lab.net/zh-cn/blog/?p=13515
Continued]]>
此更新文章最初發布于 2025 年 3 月 18 日 。 企業組織正在采用 AI 智能體 來提高生產力并簡化運營。為了更大限度地發揮影響,這些智能體需要強大的推理能力來解決復雜問題、發現隱藏的聯系,并在動態環境中自主做出邏輯決策。 推理模型能夠解決復雜問題,因此已成為代理式 AI 生態系統的關鍵組成部分。通過使用長思考、Best-of-N 或自我驗證等技術,這些模型能夠更好地處理代理式流程不可或缺的推理密集型任務。 從自動化客戶支持到優化供應鏈和執行財務戰略,推理模型正在為各種應用提供支持。在物流領域,它們通過模擬假設場景 (例如在貨物中斷期間改變路線) 來提高效率。在科學研究中,它們有助于假設生成和多步驟解決問題。在醫療保健領域,它們可增強診斷和治療規劃。通過實現精確的邏輯推理,這些模型正在推動各行各業提供更可靠、更可擴展的 AI 解決方案。
Source
]]>
13515
-
使用先進的開放式 NVIDIA Llama Nemotron 推理模型構建企業級 AI 智能體
http://www.open-lab.net/zh-cn/blog/build-enterprise-ai-agents-with-advanced-open-nvidia-llama-nemotron-reasoning-models/
Tue, 18 Mar 2025 05:22:03 +0000
http://www.open-lab.net/zh-cn/blog/?p=13323
Continued]]>
企業組織正在采用 AI 智能體 來提高生產力并簡化運營。為了更大限度地發揮影響,這些智能體需要強大的推理能力來解決復雜的問題,發現隱藏的聯系,并在動態環境中自主做出邏輯決策。 由于推理模型能夠解決復雜問題,因此已成為代理式 AI 生態系統的關鍵部分。通過使用長思考、Best-of-N 或自我驗證等技術,這些模型可以更好地處理代理式流程不可或缺的推理密集型任務。 從自動化客戶支持到優化供應鏈和執行財務策略,推理模型正在為各種應用提供支持。在物流領域,它們通過模擬假設場景 (例如在中斷運輸期間改變貨運路線) 來提高效率。在科學研究中,它們有助于生成假設和多步驟解決問題。在醫療健康領域,它們增強了診斷和治療規劃。通過實現精確的邏輯推理,這些模型正在推動各行各業實現更可靠、更可擴展的 AI 解決方案。 本文將介紹 NVIDIA Llama Nemotron 推理模型系列 。
Source
]]>
13323
-
新的獎勵模型有助于改善 LLM 與人類偏好的匹配
http://www.open-lab.net/zh-cn/blog/new-reward-model-helps-improve-llm-alignment-with-human-preferences/
Thu, 03 Oct 2024 08:33:19 +0000
http://www.open-lab.net/zh-cn/blog/?p=11471
Continued]]>
從人類反饋中進行強化學習(Reinforcement learning from human feedback)對于開發符合人類價值觀和偏好的 AI 系統至關重要。RLHF 使最強大的 LLMs,包括 ChatGPT、Claude 和 Nemotron 系列能夠生成出色的響應。 通過將人工反饋集成到訓練過程中,RLHF 使模型能夠學習更細致入微的行為,并做出更好地反映用戶期望的決策。這一方法提高了 AI 生成的響應的質量,并增強了 AI 應用中的信任度和可靠性。 為了幫助 AI 社區輕松采用 RLHF 來構建和自定義模型,NVIDIA 發布了 Llama 3.1-Nemotron-70B-Reward ,這是一種先進的獎勵模型,可對 LLM 生成的響應進行評分。這些分數可用于提高 LLM 響應質量,使人類與 AI 之間的互動更加積極、更具影響力。 Llama 3.1…
Source
]]>
11471
-
宣布推出 HelpSteer:用于構建實用 LLM 的開源數據集
http://www.open-lab.net/zh-cn/blog/announcing-helpsteer-an-open-source-dataset-for-building-helpful-llms/
Mon, 27 Nov 2023 06:37:06 +0000
http://www.open-lab.net/zh-cn/blog/?p=8368
Continued]]>
NVIDIA 最近宣布了 NVIDIA NeMo SteerLM 技術,它是 NVIDIA NeMo 的一部分。此技術允許用戶在推理期間控制大型語言模型(LLM)的響應。開發者社區對使用此方法構建自定義 LLM 表現出極大的興趣。 NVIDIA NeMo 團隊目前正在開源一個名為 Helpfulness SteerLM 數據集(HelpSteer)的資源。有了這個新資源,開發者可以迅速開始利用 SteerLM 技術,并構建先進的自定義模型。 HelpSteer 是我們團隊與 Scale AI 之間的協作成果。它與 SteerLM 技術相結合,提高了響應的真實性和一致性。現在,開發者可以根據復雜性和詳細程度等其他屬性來指導 LLM 響應,并增強最終用戶響應的整體可控性。 通過使用此新數據集和 SteerLM 技術,NVIDIA 訓練了一個 Llama 2 70B 基礎模型,
Source
]]>
8368
-
宣布推出 SteerLM:在推理期間自定義 LLM 的簡單實用技術
http://www.open-lab.net/zh-cn/blog/announcing-steerlm-a-simple-and-practical-technique-to-customize-llms-during-inference/
Wed, 11 Oct 2023 06:22:13 +0000
http://www.open-lab.net/zh-cn/blog/?p=8024
Continued]]>
近年來,隨著大語言模型 (LLMs)例如 GPT-3、Megatron-Turing、Chinchilla、PaLM-2、Falcon 和 Lama 2 在自然語言生成方面取得了顯著進展。然而,盡管這些 LLM 能夠生成類似人類的文本,但它們可能無法提供符合用戶偏好的有用且細致入微的響應。 當前改進大語言模型 (LLM) 的方法包括監督精調 (SFT),然后是從人類反饋中進行強化學習 (RLHF)。雖然 RLHF 可以提高性能,但它有一些局限性,包括訓練復雜性和缺乏用戶控制。 NVIDIA 研究團隊為了克服這些挑戰,開發并發布了 SteerLM,這是一種新的四步技術,可以簡化 LLM 的自定義,并根據您指定的屬性動態轉向模型輸出,作為 NVIDIA NeMo 的一部分。本文將深入探討 SteerLM 的工作原理,為什么它標志著一個顯著的進步,
Source
]]>
8024
人人超碰97caoporen国产