合成數據生成 – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 22 May 2025 07:40:49 +0000
zh-CN
hourly
1
196178272 -
使用先進的開放式后訓練數據集構建自定義推理模型
http://www.open-lab.net/zh-cn/blog/build-custom-reasoning-models-with-advanced-open-post-training-datasets/
Wed, 14 May 2025 07:35:47 +0000
http://www.open-lab.net/zh-cn/blog/?p=13992
Continued]]>
合成數據已成為大語言模型 (LLM) 后訓練程序的標準組成部分。使用從單個或一組經商業許可的開源 LLM 中合成生成的大量示例,通過監督微調或 RLHF 對基礎 LLM 進行微調,以獲得指導遵循和推理技能。這個過程可以被視為一個知識蒸餾過程,從一組 LLM 教師到目標 LLM 學生。 NVIDIA 最近開源了 Llama-Nemotron 后訓練數據集 ,該數據集包含 3000 萬個合成訓練示例,支持改進數學、代碼、一般推理、函數調用和指令遵循功能。作為證據,NVIDIA 使用此數據集訓練并發布了三個模型: 每個模型在其各自權重類別內的推理和代理式任務中都具有領先的準確性。 此數據集版本代表著模型開發和改進在開放性和透明度方面的重大進步。除了訓練方法、工具和最終模型權重之外,NVIDIA 還發布了完整的訓練集,為這種方法的重建和改進提供支持。
Source
]]>
13992
-
使用 NVIDIA NeMo Curator 構建 Nemotron-CC:一個高質量萬億令牌數據集,用于大型語言模型預訓練,源自 Common Crawl
http://www.open-lab.net/zh-cn/blog/building-nemotron-cc-a-high-quality-trillion-token-dataset-for-llm-pretraining-from-common-crawl-using-nvidia-nemo-curator/
Wed, 07 May 2025 06:32:25 +0000
http://www.open-lab.net/zh-cn/blog/?p=13827
Continued]]>
對于想要訓練先進的 大語言模型 (LLM) 的企業開發者而言,整理高質量的預訓練數據集至關重要。為了讓開發者能夠構建高度準確的 LLM,NVIDIA 之前發布了 Nemotron-CC ,這是一個價值 6.3 萬億個 token 的英語語言 Common Crawl (CC) 數據集。今天,NVIDIA NeMo Curator 團隊很高興地與大家分享,用于構建 Nemotron-CC 數據集的 pipeline 現已合并到 NeMo Curator GitHub 存儲庫 中。 Nemotron-CC 工作流現已集成到 NeMo Curator 中,為平衡大規模準確性和數據量之間的權衡提供了一種新穎的解決方案。Nemotron-CC 工作流結合使用分類器集成和合成數據重述,提供了一種可擴展的方法,可從原始數據集中生成高質量的合成數據,以擴展原始數據集。
Source
]]>
13827
-
使用合成數據評估和增強 RAG 工作流性能
http://www.open-lab.net/zh-cn/blog/evaluating-and-enhancing-rag-pipeline-performance-using-synthetic-data/
Mon, 07 Apr 2025 06:31:42 +0000
http://www.open-lab.net/zh-cn/blog/?p=13521
Continued]]>
隨著 大語言模型 (LLM) 在各種問答系統中的普及, 檢索增強生成 (RAG) 流程也成為焦點。RAG 流程將 LLM 的生成能力與外部數據源和檢索機制相結合,使模型能夠訪問微調期間可能不存在的特定領域信息。 RAG 性能很大程度上取決于底層文本嵌入模型的質量。嵌入模型不佳會導致檢索結果欠佳,進而降低 RAG 系統的整體性能。在處理企業特定的內部數據時尤其如此,因為開箱即用的模型可能無法提供所需的準確性。 為確保 RAG 系統能夠有效處理您的特定數據,您必須評估預訓練嵌入模型在語料庫中的表現是否良好。此評估所需的標注數據與最終用戶提交的查詢類型非常相似。例如,帶標注的樣本數據集可能包括以下內容: 在許多情況下,現有嵌入模型在應用于特定領域的數據時無法產生最佳結果。這就需要使用與企業語料庫共享相同分布的標注數據來定制這些模型。 在本文中,
Source
]]>
13521
-
掌握 LLM 技術:評估
http://www.open-lab.net/zh-cn/blog/mastering-llm-techniques-evaluation/
Wed, 29 Jan 2025 05:34:32 +0000
http://www.open-lab.net/zh-cn/blog/?p=12917
Continued]]>
評估大語言模型(LLMs) 和 檢索增強生成(RAG) 系統是一個復雜而微妙的過程,反映了這些系統的復雜性和多面性。 與傳統機器學習(ML) 模型不同,LLMs 會生成各種不同且往往不可預測的輸出,因此無法滿足標準評估指標的需求。 主要挑戰包括許多任務缺乏確定的真值、數據污染的風險,以及模型對提示變化和解碼策略的敏感度。此外,LLMs 通常會生成高質量的輸出,甚至可以超越低質量的人類引用,從而無法滿足基于引用的傳統指標的需求。 在本文中,我們將探討用于評估 LLMs 和 RAG 系統準確性和可靠性的可靠評估技術和最佳實踐。 在 生成式 AI 應用的開發過程中,嚴格的評估對于確保系統有效性和可靠性至關重要。此過程具有多個關鍵功能,包括通過確認 AI 符合預期并提供有意義的交互來驗證用戶滿意度。評估還可確保輸出一致性,驗證生成的內容在邏輯上是否一致且符合上下文。
Source
]]>
12917
-
NVIDIA Cosmos World 基礎模型平臺助力物理 AI 進步
http://www.open-lab.net/zh-cn/blog/advancing-physical-ai-with-nvidia-cosmos-world-foundation-model-platform/
Thu, 09 Jan 2025 08:43:45 +0000
http://www.open-lab.net/zh-cn/blog/?p=12593
Continued]]>
隨著機器人和 自動駕駛汽車 的發展,加速 物理 AI 的發展變得至關重要,而物理 AI 使自主機器能夠感知、理解并在現實世界中執行復雜的操作。這些系統的核心是 世界基礎模型 (WFMs),即通過物理感知視頻模擬物理狀態的 AI 模型,使機器能夠做出準確決策并與周圍環境無縫交互。 NVIDIA Cosmos 平臺可幫助開發者大規模為物理 AI 系統構建自定義世界模型。它為從數據管護、訓練到定制的每個開發階段提供開放世界基礎模型和工具。 本文將介紹 Cosmos 及其加速物理 AI 開發的主要功能。Cosmos 是一種開源的 Python 庫,用于加速物理 AI 開發。 構建物理 AI 極具挑戰性,需要精確的模擬以及真實世界的行為理解和預測。克服這些挑戰的一個關鍵工具是世界模型,該模型根據過去的觀察結果和當前的輸入結果預測未來的環境狀態。
Source
]]>
12593
-
如何為基于感知的物理 AI 構建支持生成式 AI 的合成數據管道
http://www.open-lab.net/zh-cn/blog/how-to-build-a-generative-ai-enabled-synthetic-data-pipeline-for-perception-ai/
Mon, 06 Jan 2025 08:38:33 +0000
http://www.open-lab.net/zh-cn/blog/?p=12590
Continued]]>
訓練用于為機器人和自動駕駛汽車等自主機器提供動力支持的 物理 AI 模型 需要大量數據。獲取大量不同的訓練數據可能十分困難、耗時且昂貴。由于隱私限制或問題,數據通常會受到限制,或者只是在新用例中可能不存在。此外,可用數據可能不適用于所有潛在情況,從而限制了模型準確預測和應對各種場景的能力。 合成數據由在 NVIDIA Omniverse 中構建的數字孿生仿真生成,現在已通過 NVIDIA Cosmos 進行升級,能夠彌補真實數據中的差距,使開發者能夠啟動物理 AI 模型訓練。您可以通過改變許多不同的參數 (例如布局、資產位置、位置、顏色、物體大小和照明條件) 來快速生成大量不同的數據集。然后,可以使用這些數據來幫助創建廣義模型。 為幫助您構建由生成式 AI 提供支持的合成數據生成工作流和工作流,請查看“使用生成式 AI 參考工作流生成合成數據”。
Source
]]>
12590
-
簡化攝像頭校準,提高 AI 驅動的多攝像頭跟蹤能力
http://www.open-lab.net/zh-cn/blog/simplifying-camera-calibration-to-enhance-ai-powered-multi-camera-tracking/
Tue, 27 Aug 2024 07:21:55 +0000
http://www.open-lab.net/zh-cn/blog/?p=11098
Continued]]>
這篇文章是關于構建多攝像頭追蹤視覺AI應用的系列文章中的第三篇。我們將在第一部分和第二部分中介紹整體端到端工作流程和微調流程,以提高系統準確性。 NVIDIA Metropolis 是一個應用框架和一套開發者工具,可利用 AI 進行各行各業的視覺數據分析。其多攝像頭追蹤參考 AI 工作流由云原生 NVIDIA Metropolis 微服務提供支持,可跨多個攝像頭實現高級物體追蹤和定位。本文討論了攝像頭校準、如何使用 NVIDIA Metropolis 攝像頭校準工具包校準真實攝像頭,以及如何使用 NVIDIA Omniverse 擴展程序校準合成攝像頭。 攝像頭校正是確定特定攝像頭參數或估計攝像頭特征的過程。攝像頭校正可以將攝像頭在 2D 中看到的內容轉換為真實的坐標系統,它是許多基于視覺的應用程序的基礎。例如,在創建多攝像頭跟蹤應用程序時,
Source
]]>
11098
-
如何使用 OpenUSD 構建支持生成式 AI 的合成數據工作流
http://www.open-lab.net/zh-cn/blog/how-to-build-a-generative-ai-enabled-synthetic-data-pipeline-with-openusd/
Mon, 29 Jul 2024 07:40:46 +0000
http://www.open-lab.net/zh-cn/blog/?p=10823
Continued]]>
訓練 物理 AI 模型用于驅動自主機器(例如機器人和自動駕駛汽車),需要大量數據。獲取大量多樣化的訓練數據可能很困難、耗時且昂貴。數據通常因隱私限制或問題而受到限制,或者僅僅因為新穎的用例而不存在。此外,可用數據可能不適用于各種潛在情況的全范圍,從而限制了模型準確預測和響應各種場景的能力。 合成數據, 通過計算機模擬從數字孿生中生成,可替代真實數據,使開發者能夠啟動物理 AI 模型訓練。您可以快速生成大量多樣化的數據集,通過改變許多不同的參數,如布局、資產放置、位置、顏色、物體大小和光照條件。然后,這些數據可用于幫助創建通用模型。 實現逼真度對于縮小模擬到現實領域的差距至關重要。該過程旨在使用正確的屬性(例如材料和紋理)表示虛擬環境中的每個對象,以準確地模仿其真實世界的表示。如果沒有人工智能的幫助,這是一個耗時的手動過程。
Source
]]>
10823
-
利用 Llama 3.1 405B 生成合成數據
http://www.open-lab.net/zh-cn/blog/creating-synthetic-data-using-llama-3-1-405b/
Tue, 23 Jul 2024 05:54:38 +0000
http://www.open-lab.net/zh-cn/blog/?p=10755
Continued]]>
合成數據并不是創建新信息,而是將現有信息轉換為不同的變體。十多年來,合成數據一直用于全面提高模型準確性,無論是轉換圖像以改進對象檢測模型、加強欺詐性信用卡檢測,還是改進BERT模型以實現問答。 有什么新功能?隨著大型語言模型(LLMs)的出現,生成合成數據的動力和生成合成數據的技術都得到了大幅提升。 各行各業的企業都在生成合成數據,以針對各種用例微調基礎語言模型,例如改善金融領域的風險評估、優化零售業供應鏈、改善電信領域的客戶服務,以及推進醫療健康領域的患者護理。 今天,Meta 發布了 Llama 3.1 405B,這是一款功能強大的開放語言模型(LLM),可用于批量和在線推理。它還可以作為基礎,針對特定領域進行專門的預訓練或微調。鑒于模型的大小及其訓練的數據量,它非常適合生成合成數據。 在這篇博客文章中,我們將涵蓋幾個合成數據生成的應用案例,并深入探討其中的一個。
Source
]]>
10755
-
NVIDIA Metropolis Microservices 和 NVIDIA Isaac Sim 的實時視覺 AI 從數字孿生到云原生部署
http://www.open-lab.net/zh-cn/blog/real-time-vision-ai-from-digital-twins-to-cloud-native-deployment-with-nvidia-metropolis-microservices-and-nvidia-isaac-sim/
Mon, 24 Jun 2024 05:35:32 +0000
http://www.open-lab.net/zh-cn/blog/?p=10434
Continued]]>
隨著視覺人工智能復雜性的增加,精簡的部署解決方案對優化空間和流程至關重要。NVIDIA 通過 NVIDIA Metropolis AI 工作流和微服務 加速開發,將想法在數周而非數月內轉化為現實。 在這篇文章中,我們將探討Metropolis 微服務的功能: 視頻 1。從數字孿生到多攝像機跟蹤的端到端工作流程 使用人工智能管理和自動化基礎設施具有挑戰性,尤其是對于超市、倉庫、機場、港口和城市等大型復雜空間。這不僅僅是為了擴大攝像頭的數量,而是構建視覺人工智能應用程序,可以智能地監控、提取見解,并在數萬或數十萬平方英尺空間內數百或數千臺攝像頭中突出顯示異常情況。 微服務架構通過將復雜的多攝像頭 AI 應用程序分解為更小、獨立的單元,并通過定義良好的 API 進行交互,從而實現其可擴展性、靈活性和彈性,
Source
]]>
10434
-
利用合成數據生成解決醫學成像的局限性
http://www.open-lab.net/zh-cn/blog/addressing-medical-imaging-limitations-with-synthetic-data-generation/
Mon, 24 Jun 2024 05:18:32 +0000
http://www.open-lab.net/zh-cn/blog/?p=10430
Continued]]>
醫學成像中的合成數據提供了許多好處,包括在真實數據有限的情況下,以多樣化和逼真的圖像增強數據集的能力,從而減少與注釋真實圖像相關聯的成本和人工。此外,合成數據還為使用敏感患者數據提供了一種合乎道德的替代方案,有助于在不損害患者隱私的情況下進行教育和培訓。 這篇文章介紹了 MAISI,一個NVIDIA AI Foundation 模型用于 3D 計算機斷層掃描(CT)圖像生成。MAISI 的首要目標是通過提供一種可靠高效的方法來生成高質量合成圖像,以用于各種研究和臨床應用,從而徹底改變醫學成像領域。通過克服數據稀缺和隱私問題的挑戰,MAISI 旨在提高醫學成像數據的可訪問性和可用性。 該模型可以生成高分辨率合成 CT 圖像和相應的分割掩模,最多 127 個解剖類別(包括骨骼、器官和腫瘤),同時實現 512×512×512 的標志性體素尺寸和 1.0×1.0×1.0 mm³的間距。
Source
]]>
10430
-
使用 NVIDIA Nemotron-4 340B,利用我們最新的開放式模型生成合成數據
http://www.open-lab.net/zh-cn/blog/leverage-our-latest-open-models-for-synthetic-data-generation-with-nvidia-nemotron-4-340b/
Tue, 18 Jun 2024 08:26:53 +0000
http://www.open-lab.net/zh-cn/blog/?p=10454
Continued]]>
自從引入并隨后廣泛采用大型語言模型(LLM)以來,數據一直是企業構建準確安全的人工智能系統的生命線。一家公司的數據代表了其累積的知識,可以通過各種方式加以利用,從定制(監督微調、參數高效微調、持續預訓練等)到訓練全新的特定領域小型語言模型(SLM)。數據雖然是現代人工智能管道中最關鍵的部分之一,但在創新 LLM 和 SLM 的開發過程中,傳統上成本高昂且受到限制的是從付費人工注釋到導航大量特定領域數據的來源,當前生成高質量數據的過程是一項艱巨的任務。 通過一個稱為合成數據生成(SDG)的過程,該過程將在博客的其余部分中更仔細地定義,企業可以通過利用 LLM 創建大量定制的高質量數據來增強現有的數據存儲。 NVIDIA 宣布了一套專門為 SDG 構建的新模型系列——Nemotron-4 340B family,包括最先進的 Reward Model 和一款 Instruct 模型,
Source
]]>
10454
-
利用內置 Flowstate 和 NVIDIA Isaac 機械手實現智能取放自動化
http://www.open-lab.net/zh-cn/blog/automating-smart-pick-and-place-with-intrinsic-flowstate-and-nvidia-isaac-manipulator/
Thu, 09 May 2024 07:11:07 +0000
http://www.open-lab.net/zh-cn/blog/?p=9868
Continued]]>
我們宣布與Intrinsic.ai 合作,學習工業機器人任務的基礎技能模型。 工業制造中的許多挑選和放置問題仍然由人工操作員完成,因為為這些任務編程機器人仍然具有挑戰性。例如,在機器維護環境中,作為復雜的多步驟零件制造過程的一部分,協作機器人可以用來從料倉中挑選原材料零件,并將其送入數控或彎曲機。 這樣的機器人可以通過編程基礎模型,從而實現對物體零件、機器人實施例和真實世界工業環境方面的顯著可變性的推廣。 我們利用 NVIDIA Isaac 操縱器 生成抓取姿勢和機器人運動,首先在 NVIDIA Isaac Sim 中進行模擬,然后在現實世界中使用 固有流狀態 實現。 感知也是通過 Flowstate 完成的,在 Flowstate 中,我們使用對象姿態估計包來獲得雜亂場景中可抓取對象的位置和方向。 在這篇文章中,我們在一個具有挑戰性的智能取放應用程序上演示了該系統:
Source
]]>
9868
人人超碰97caoporen国产