AI 基礎模型 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Wed, 25 Jun 2025 05:14:28 +0000 zh-CN hourly 1 196178272 R2D2:利用 NVIDIA Research 構建AI驅動的3D機器人感知與地圖構建技術 http://www.open-lab.net/zh-cn/blog/r2d2-building-ai-based-3d-robot-perception-and-mapping-with-nvidia-research/ Tue, 17 Jun 2025 04:57:57 +0000 http://www.open-lab.net/zh-cn/blog/?p=14388 Continued]]> 機器人必須感知和解釋其 3D 環境,才能安全有效地行動。這對于非結構化或陌生空間中的自主導航、對象操作和遠程操作等任務尤為重要。機器人感知的進步越來越側重于在統一的實時工作流程中使用強大的感知模塊來集成 3D 場景理解、通用物體追蹤和持久空間內存。 本期 NVIDIA 機器人研發摘要 (R2D2)探討了 NVIDIA Research 的多個感知模型和系統,這些模型和系統支持統一的機器人 3D 感知堆棧。它們可在不同的現實世界環境中實現可靠的深度估計、攝像頭和物體姿態追蹤以及 3D 重建: 這些項目的核心在于強調 3D 空間表示,即以機器人可以使用的形式捕獲環境或物體的結構。FoundationStereo 可處理立體圖像深度估計的基本任務。它引入了一個用于立體深度的基礎模型,專為實現強零樣本泛化而設計。

Source

]]>
14388
使用世界基礎模型生成的合成軌跡數據提高機器人學習效果 http://www.open-lab.net/zh-cn/blog/enhance-robot-learning-with-synthetic-trajectory-data-generated-by-world-foundation-models/ Mon, 16 Jun 2025 07:17:01 +0000 http://www.open-lab.net/zh-cn/blog/?p=14215 Continued]]> 在機電一體化和機器人 AI 基礎模型的進步的推動下,通用型機器人技術已經問世。但關鍵的瓶頸依然存在:機器人需要大量的訓練數據來訓練裝配和檢查等技能,而且手動演示不可擴展。NVIDIA Isaac GR00T-Dreams 藍圖基于 NVIDIA Cosmos 構建,只需一個圖像和語言提示即可生成大量合成軌跡數據,從而應對這一挑戰。 借助 Cosmos 世界基礎模型 (WFMs) 和生成式 AI,開發者可以快速為 NVIDIA Isaac GR00T N1.5 等模型創建訓練數據。 本文將介紹 Isaac GR00T-Dreams 藍圖,詳細介紹其高級功能及其在開發 Isaac GR00T N1.5 基礎模型中發揮的作用。 Isaac GR00T-Dreams 藍圖是一個用于生成大量合成軌跡數據的參考工作流。這些數據用于教人形機器人在新環境中執行新動作。

Source

]]>
14215
使用 NVIDIA Cosmos Predict-2 構建自定義物理人工智能基礎模型 http://www.open-lab.net/zh-cn/blog/develop-custom-physical-ai-foundation-models-with-nvidia-cosmos-predict-2/ Wed, 11 Jun 2025 09:01:13 +0000 http://www.open-lab.net/zh-cn/blog/?p=14300 Continued]]> 構建更智能的機器人和自動駕駛汽車 (AV) 始于能夠理解現實世界動態的物理 AI 模型。這些模型發揮著兩個關鍵作用:加速合成數據生成 (SDG) ,幫助自主機器了解現實世界的物理特性和交互(包括罕見的邊緣案例),以及作為基礎模型,可針對專門任務進行后訓練或適應不同的輸出類型。 Cosmos Predict-1 正是為此而打造,能夠生成逼真的物理感知型未來世界狀態。 現在,全新 Cosmos Predict-2 在速度、視覺質量和自定義方面進行了重大升級。在本文中,您將了解該模型,以及如何針對特定領域的用例對其進行后期訓練。 Cosmos Predict-2 是一款性能出色的世界基礎模型,經過架構優化,可提高速度和可擴展性,并跨用例和硬件平臺提供分辨率和幀速率靈活性。有兩個模型變體針對任務復雜性進行了優化: 開發者可以首先使用文本轉圖像模型生成預覽,

Source

]]>
14300
借助 NVIDIA 生物醫學 AI-Q 研究代理 Blueprint 推進文獻回顧和目標發現 http://www.open-lab.net/zh-cn/blog/advancing-literature-review-amp-target-discovery-with-nvidia-biomedical-ai-q-research-agent-blueprint/ Wed, 11 Jun 2025 08:14:02 +0000 http://www.open-lab.net/zh-cn/blog/?p=14270 Continued]]> 長期以來,生物醫學研究和藥物研發一直受到勞動密集型流程的限制。為了發起藥物研發活動,研究人員通常會梳理大量科學論文,了解已知蛋白質標和小分子對的詳細信息。 閱讀和深入理解一篇論文需要一至六個小時,而在沒有 AI 輔助的情況下總結研究結果,平均每篇論文需要 165 分鐘。從目標識別到 U.S. Food and Drug Administration 批準,藥物研發活動歷時 12 到 15 年,而在這一過程中,這些效率低下的問題變得更加復雜。 NVIDIA 開發了 Biomedical AI-Q 研究智能體,幫助藥物研發科學家快速審查可用文獻、得出復雜的假設,然后將未發現的蛋白質點交給虛擬篩選代理。傳統上,手動執行此過程既耗時又繁瑣,需要數天時間來閱讀和總結論文。 此生物醫學 AI-Q 研究智能體開發者 Blueprint 基于多個現有框架進行設計。

Source

]]>
14270
借助 EoRA 快速恢復 LLM 壓縮錯誤的免微調方法 http://www.open-lab.net/zh-cn/blog/a-fine-tuning-free-approach-for-rapidly-recovering-llm-compression-errors-with-eora/ Mon, 09 Jun 2025 05:08:54 +0000 http://www.open-lab.net/zh-cn/blog/?p=14397 Continued]]> 模型壓縮技術已經過廣泛探索,可減少為大語言模型 (LLM) 或其他大型神經網絡提供服務所需的計算資源。 但是,與未壓縮的模型相比,大多數現有方法的準確性顯著下降,或者訓練時間較長。此外,其適應性通常受到硬件支持的壓縮格式(例如 2:4 sparsity、3/4-bit quantization)范圍有限的限制,難以滿足用戶對準確性和效率的各種要求。 NVIDIA Research 臺灣、Learning & Perception Research Group、AI Accelerator & VLSI Research Group 以及 NeMo Group 將模型壓縮重構為自定義補償。他們開發了 Fine-tuning-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation…

Source

]]>
14397
R2D2:通過 NVIDIA Research 解鎖機器人裝配和豐富的接觸操作 http://www.open-lab.net/zh-cn/blog/r2d2-unlocking-robotic-assembly-and-contact-rich-manipulation-with-nvidia-research/ Fri, 16 May 2025 06:45:13 +0000 http://www.open-lab.net/zh-cn/blog/?p=13961 Continued]]> 本期 NVIDIA 機器人研發摘要 (R2D2) 探討了 NVIDIA Research 針對機器人裝配任務提供的多個接觸性豐富的操作工作流,以及它們如何通過固定自動化來應對魯棒性、適應性和可擴展性等關鍵挑戰。 接觸性豐富的操作是指涉及機器人與其環境中的物體之間持續或重復物理接觸的機器人任務,需要精確控制力和運動。與簡單的拾取和放置操作不同,這些任務需要精細交互來管理不確定性下的摩擦、合規性和對齊。 它在 機器人 、 制造 和 汽車 等行業中發揮著關鍵作用,在這些行業中,插入定位器、合齒輪、螺紋螺栓或組裝卡扣配合部件等任務很常見。作為機器人裝配的核心能力,具有豐富接觸性的操作使機器人能夠執行復雜的高精度任務,這對于自動化裝配和處理現實世界的可變性至關重要。 由于需要在動態環境中進行精確操作,因此解決機器人裝配任務一直具有挑戰性。傳統上,

Source

]]>
13961
R2D2:利用 NVIDIA 研究中心的新型工作流和 AI 基礎模型,提升機器人的移動和全身控制能力 http://www.open-lab.net/zh-cn/blog/r2d2-advancing-robot-mobility-whole-body-control-with-ai-from-nvidia-research/ Thu, 27 Mar 2025 05:47:44 +0000 http://www.open-lab.net/zh-cn/blog/?p=13416 Continued]]> 歡迎閱讀首期“NVIDIA 機器人研究與開發摘要(R²D²)”。此技術博客系列將讓開發者和研究人員更深入地了解 NVIDIA 各個研究實驗室在物理 AI 和機器人領域的最新研究突破。 開發強大的機器人面臨著諸多重大挑戰,例如: 我們通過在自身平臺上經過驗證的先進研究來應對這些挑戰。我們的方法將前沿研究與工程工作流相結合,并在我們的 AI 和機器人平臺(包括 NVIDIA Omniverse、Cosmos、Isaac Sim 和 Isaac Lab)上進行測試。最終生成的模型、策略和數據集可作為研究人員和開發者社區的可定制參考,以適應特定的機器人開發需求。我們期待分享我們的研究成果,共同構建機器人技術的未來。 在本期 R²D² 中,您將了解以下機器人移動及全身控制的工作流及模型,以及它們如何應對機器人導航、移動和控制方面的關鍵挑戰:

Source

]]>
13416
加速通用人形機器人的開發:NVIDIA Isaac GR00T N1 http://www.open-lab.net/zh-cn/blog/accelerate-generalist-humanoid-robot-development-with-nvidia-isaac-gr00t-n1/ Tue, 18 Mar 2025 04:57:31 +0000 http://www.open-lab.net/zh-cn/blog/?p=13314 Continued]]> 人形機器人需要能夠適應人類工作空間,處理重復性或高強度任務。然而,為真實世界的任務和不可預測的環境創建通用人形機器人是一項挑戰。通常來說,這些任務中的每一個都需要一個專用的 AI 模型。由于需要大量特定于任務的數據、高昂的計算成本,且模型的泛化能力有限,針對每一個新的任務和環境,從零開始訓練這些模型是一個非常繁瑣的過程。 NVIDIA Isaac GR00T 通過提供開源的 SimReady 數據、仿真框架(如 NVIDIA Isaac Sim 和 Isaac Lab)、合成數據藍圖和預訓練基礎模型,能夠幫助解決這些挑戰并加速通用人形機器人的開發。 NVIDIA Isaac GR00T N1 的特點和優勢 NVIDIA Isaac GR00T N1 是世界上首個用于通用人形機器人推理和技能的開源基礎模型。這個跨實體模型接受包括語言和圖像在內的多模態輸入,

Source

]]>
13314
輕量級、多模態、多語種 Gemma 3 模型實現性能優化 http://www.open-lab.net/zh-cn/blog/lightweight-multimodal-multilingual-gemma-3-models-are-streamlined-for-performance/ Wed, 12 Mar 2025 06:34:32 +0000 http://www.open-lab.net/zh-cn/blog/?p=13351 Continued]]> 使用基礎模型構建 AI 系統需要在內存、延遲、存儲、計算等資源之間實現微妙的平衡。在將生成式 AI 功能引入快速發展的 AI 應用生態系統時,管理成本和用戶體驗的開發者無法做到一刀切。 您需要高質量、可定制的模型選項,以便支持在數據中心、邊緣計算和設備端用例等不同計算環境中托管和部署的大規模服務,例如使用 GPU、DPU 和 Jetson 等硬件加速。 Google DeepMind 剛剛宣布推出 Gemma 3,這是一系列新的多模態和多語言開放模型。Gemma 3 由一個 1B 純文本小語言模型 (SLM) 和三個大小為 4B、12B 和 27B 的圖像文本模型組成。您可以使用 Hugging Face 中的模型,并在 NVIDIA API Catalog 中演示 1B 模型。 Gemma 3 1B 模型經過優化,可在需要低內存占用的設備應用程序或環境中高效運行,

Source

]]>
13351
在 NVIDIA GPU 上訓練的 Microsoft Phi SLM 的多模態最新進展 http://www.open-lab.net/zh-cn/blog/latest-multimodal-addition-to-microsoft-phi-slms-trained-on-nvidia-gpus/ Wed, 26 Feb 2025 06:19:58 +0000 http://www.open-lab.net/zh-cn/blog/?p=13020 Continued]]> 大語言模型(LLMs)已滲透到各行各業,并改變了技術潛力。但是,由于規模龐大,它們對于許多公司目前面臨的資源限制來說并不切實際。 小語言模型 (SLMs)的興起通過創建資源占用更小的模型,將質量和成本聯系起來。SLMs 是語言模型的一個子集,這些模型傾向于專注于特定領域,并使用更簡單的神經架構構建。隨著模型的發展模仿人類感知周圍環境的方式,模型必須接受多種形式的多模態數據。 Microsoft 宣布在 Phi 系列中推出新一代開放式 SLM,并新增兩項功能: Phi-4-multimodal 是第一個加入該系列的多模態模型,接受文本、音頻和圖像數據輸入。 這些模型足夠小,可以在設備上部署。此版本基于 2024 年 12 月發布的 Phi-4 14B 參數 SLM 的研究版本構建而成,可用于兩個新的較小模型的商業用途。

Source

]]>
13020
NVIDIA DGX 云推出即用型模板,更好地評估 AI 平臺性能 http://www.open-lab.net/zh-cn/blog/nvidia-dgx-cloud-introduces-ready-to-use-templates-to-benchmark-ai-platform-performance/ Tue, 11 Feb 2025 03:20:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=12847 Continued]]> 在快速發展的 AI 系統和工作負載環境中,實現出色的模型訓練性能遠遠超出芯片速度。這需要對整個堆棧進行全面評估,從計算到網絡,再到模型框架。 了解復雜的 AI 系統性能可能比較困難。從精度到并行,您可以對許多應用程序進行更改,但目前需要付出大量努力和掌握專業知識才能有效實施這些更改。 NVIDIA DGX Cloud Benchmarking Recipes 為提高訓練性能提供了指導,通過分享每個工作負載的良好性能以及實現方法的最佳實踐。 如需了解更多信息,請參閱 NVIDIA DGX Cloud Benchmarking Recipes 。 DGX 云 Benchmarking Recipes 是一款端到端基準測試套件,既可以衡量真實環境中的性能,也可以識別 AI 訓練工作負載中的優化機會。這些基準測試方法經過精心設計,可評估真實 AI 應用的性能,

Source

]]>
12847
Llama Nemotron 模型提升智能體 AI 工作流的準確性和效率 http://www.open-lab.net/zh-cn/blog/llama-nemotron-models-accelerate-agentic-ai-workflows-with-accuracy-and-efficiency/ Mon, 06 Jan 2025 08:52:07 +0000 http://www.open-lab.net/zh-cn/blog/?p=12596 Continued]]> Agentic AI 是新一波生成式 AI 浪潮,是一種范式轉變,通過使 AI 系統能夠自主行動并實現復雜的目標,具有變革行業的潛力。智能體 AI 將 大語言模型 (Large Language Models,LLMs) 的強大功能與高級推理和規劃功能相結合,為醫療健康、金融、制造和物流等各行各業帶來無限可能。 智能體 AI 系統將感知、推理和行動相結合,以有效地與其環境交互。它從數據庫和外部來源收集信息,分析目標并制定實現目標的策略。 系統的操作模塊可執行決策,同時保留過去交互的內存,以支持長期任務和個性化響應。借助多智能體協作,智能體可以共享信息并高效協調復雜的任務。 AI 智能體還配備了反饋機制,可創建 數據飛輪 ,并將通過交互生成的數據輸入到系統中,以增強模型。這使得系統能夠隨著時間的推移提高運營效率并做出更明智的決策。 這些系統的核心是基礎模型,

Source

]]>
12596
NVIDIA?TensorRT-LLM?現支持?Recurrent Drafting,實現?LLM?推理優化 http://www.open-lab.net/zh-cn/blog/nvidia-tensorrt-llm-now-supports-recurrent-drafting-for-optimizing-llm-inference/ Wed, 18 Dec 2024 08:20:20 +0000 http://www.open-lab.net/zh-cn/blog/?p=12404 Continued]]> Recurrent Drafting (簡稱 ReDrafter) 是蘋果公司為大語言模型 (LLM) 推理開發并開源的一種新型推測解碼技術,該技術現在可與 NVIDIA TensorRT-LLM 一起使用。ReDrafter 幫助開發者大幅提升了 NVIDIA GPU 上的 LLM 工作負載性能。NVIDIA TensorRT-LLM 是一個 LLM 推理優化庫,提供了一個易于使用的 Python API 來定義 LLM 和構建 NVIDIA TensorRT 引擎,這些引擎具有頂尖的優化功能,可在 GPU 上高效執行推理。優化功能包括自定義 Attention Kernel、Inflight Batching、Paged KV Caching、量化技術 (FP8、INT4 AWQ、INT8 SmoothQuant) 等。 推測解碼 (Speculative decoding)…

Source

]]>
12404
利用 NVIDIA NeMo-Aligner 進行監督式微調的數據高效知識蒸餾 http://www.open-lab.net/zh-cn/blog/data-efficient-knowledge-distillation-for-supervised-fine-tuning-with-nvidia-nemo-aligner/ Tue, 17 Dec 2024 09:36:13 +0000 http://www.open-lab.net/zh-cn/blog/?p=12498 Continued]]> 知識蒸餾是一種將更大的教師模型的知識轉移到更小的學生模型的方法,理想情況下可生成緊湊、易于部署的學生,且準確度與教師相當。知識蒸餾在預訓練設置中越來越受歡迎,但用于在監督式微調(Supervised Fine-Tuning,SFT)期間執行知識蒸餾的資源越來越少。 NVIDIA NeMo-Aligner 開源了一個在 SFT 期間使用知識蒸餾的實現,相較于標準 SFT,該實現的數據效率更高,準確性也更高 (Table 1)。 在表 1 中,SFT 是使用數學/代碼數據集執行的。使用知識蒸餾微調的模型版本在所有數學和代碼相關基準測試中均優于基準,即使僅執行 70%的訓練步驟也是如此。 在 SFT 期間,有許多方法可以從大型模型傳輸知識。最常見的方法是使用教師模型生成合成數據,我們稱之為 KD-SDG。然后,使用合成生成的數據微調學生模型。 還有一種開創性的方法,

Source

]]>
12498
聚焦:借助 AVEVA 動態模擬和 NVIDIA Raptor 推進自動駕駛操作 http://www.open-lab.net/zh-cn/blog/spotlight-advancing-autonomous-operations-with-aveva-dynamic-simulation-and-nvidia-raptor/ Thu, 21 Nov 2024 07:01:57 +0000 http://www.open-lab.net/zh-cn/blog/?p=12164 Continued]]> 工業工程師正在利用人工智能構建先進的流程模擬解決方案,并加快能源、電力和化學行業實現完全自主運營的進程。 融合人工智能的深度強化學習(DRL)代理正在幫助將傳統的工業自動化轉變為核心控制、現場和生產流程的工業自主。這是使用 智能體人工智能 進行高級推理和迭代規劃,旨在實現人類在循環中的目標,通過這種方式,能夠實現新的應用,例如高級工業控制、系統級自主和完全自主的工廠。 在本文中,我們將探討工業軟件領域的領導者 AVEVA 如何將其 Dynamic Simulation 平臺與 NVIDIA Raptor DRL 引擎集成,以最大限度地提高工業設備的產量、減少計劃外停機時間并提高產品質量。 傳統的高級控制技術 (例如高級過程控制或閉環實時優化) 非常適合可重復過程。當工廠條件相對穩定以優化能源消耗、排放和生產時,就會出現這種情況。然而,工業廠房會發生瞬變事件,

Source

]]>
12164
人人超碰97caoporen国产