NVIDIA Research – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 30 Mar 2023 06:55:12 +0000
zh-CN
hourly
1
196178272 -
AutoDMP 利用 AI 和 GPU 優化芯片設計的宏布局
http://www.open-lab.net/zh-cn/blog/autodmp-optimizes-macro-placement-for-chip-design-with-ai-and-gpus/
Mon, 27 Mar 2023 06:37:27 +0000
http://www.open-lab.net/zh-cn/blog/?p=6621
Continued]]>
大多數現代數字芯片以存儲塊或模擬塊的形式集成大量宏,如時鐘生成器。這些宏通常比標準單元大得多,標準單元是數字設計的基本組成部分 宏布局對芯片的外觀有著巨大的影響,直接影響到許多設計指標,如面積和功耗。因此,改進這些宏指令的位置對于優化每個芯片的性能和效率至關重要。 傳統上,設計者會根據歷史悠久的實踐手動放置宏。例如,它們可能出現在樓層平面輪廓的外圍。然而,手動找到最佳宏位置是非常耗時的。考慮到宏布局、標準單元布局以及由此產生的功率、性能和面積( PPA )之間的現代復雜關系,可以改進該過程 最近在改善宏觀布局方面做出的兩項努力是基于強化學習的宏觀布局和宏和標準單元格的并行放置. RL 方法將宏放置問題公式化為一個博弈。游戲代理的動作對應于宏的可能位置。通過采樣許多放置示例,代理學習優化其策略(通常由神經網絡表示),以提高宏放置質量。
Source
]]>
6621
-
推出 NVIDIA Aerial 研究云,用于 5G 和 6G 領域的創新
http://www.open-lab.net/zh-cn/blog/introducing-aerial-research-cloud-for-innovations-in-5g-and-6g/
Thu, 23 Mar 2023 06:45:30 +0000
http://www.open-lab.net/zh-cn/blog/?p=6627
Continued]]>
NVIDIA 推出了Aerial研究云,這是第一個完全可編程的 5G 和 6G 網絡研究沙盒,使研究人員能夠快速模擬、原型化和基準測試通過Aerial網絡部署的創新新軟件。 該平臺通過全棧 C 可編程 5G 網絡實現 6G 創新的民主化,并使用 NVIDIA 加速計算在高級無線通信中啟動 ML 。 為什么這很重要?目前的平臺需要幾個月的時間來進行原型、開發算法或實驗。這是因為在當前使用 MATLAB 或硬件描述語言的方法中潛在的設計效率低下。創新者必須依賴昂貴的黑匣子基礎設施,而這些基礎設施沒有配備 ML 工具鏈。 如今的研究平臺也沒有提供符合標準的驗證和基準測試能力。如果沒有可編程基站和核心節點網絡元件,開發人員在快速原型設計方面會受到很大阻礙。 Aerial 研究云已經消除了必須使用專有黑匣子和接口的束縛,以及對遺留編程工具的需求。
Source
]]>
6627
-
在 VR 中使用 NVIDIA Instant NeRF 將 2D 圖像轉換為沉浸式 3D 場景
http://www.open-lab.net/zh-cn/blog/turn-2d-images-into-immersive-3d-scenes-with-nvidia-instant-nerf-in-vr/
Tue, 31 Jan 2023 07:16:18 +0000
http://www.open-lab.net/zh-cn/blog/?p=6122
Continued]]>
數千名開發人員和內容創作者使用 NVIDIA Instant NeRF 構建了令人驚嘆的 3D 視覺效果,這是一種將一組靜態圖像轉換為真實 3D 場景的渲染工具。現在,也可以在 VR 中導航 Instant NeRF ,并使用最新的 Instant NeRF software update 進行 3D 創作。 被時代雜志命名為 2022 最佳發明 , Instant NeRF 提供了攝影、 3D 圖形和虛擬世界的未來一瞥。 借助 VR 中的 Instant NeRF ,用戶可以使用 2D 圖像快速創建虛擬場景。使用包括中心凹、動態縮放、 NVIDIA DLSS 和可選的第二個 GPU 在內的高級渲染技術,創作者可以在廣泛的預算范圍內實現所需的幀速率和分辨率目標。 傳統上,創建 3D 和虛擬場景是一個耗時、昂貴的過程,需要專門的設備和專業知識。
Source
]]>
6122
-
回顧年度: 2022 年趨勢文章
http://www.open-lab.net/zh-cn/blog/year-in-review-trending-posts-of-2022/
Tue, 03 Jan 2023 05:26:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5914
Continued]]>
2022 年標志著新技術和不斷發展的一年,各行業產生了廣泛的進步和人工智能驅動的解決方案。其中包括提高 HPC 和 AI 的工作量、研究突破以及 3D 圖形、游戲、模擬、機器人等方面的新功能。 在創紀錄的一年里, NVIDIA 技術博客發布了近 550 篇帖子,并獲得了超過 200 萬的訪問量。以下是 2022 年最受歡迎的 10 個帖子。 NVIDIA 發布開源 GPU 內核模塊 Linux 中 NVIDIA GPU 的 GPU 內核模塊的第一個開源版本創建了與操作系統的更緊密集成,并使開發人員能夠調試、集成和貢獻。 開始使用 NVIDIA Instant NeRFs 使用新的 NVIDIA NGP Instant NeRF ,您可以編譯代碼庫、準備圖像并訓練第一個 NeRF 。 Instant NeRF 只需要幾分鐘就能訓練出好看的視覺效果。
Source
]]>
5914
-
利用運動策略網絡生成無碰撞機器人運動
http://www.open-lab.net/zh-cn/blog/improving-robot-motion-generation-with-motion-policy-networks/
Fri, 09 Dec 2022 06:51:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5958
Continued]]>
未知環境中的無碰撞運動生成是機器人應用的核心構建塊。產生這樣的運動具有挑戰性。運動發生器必須足夠快以實現實時性能,并且足夠可靠以實現實際部署。 已經提出了許多解決這些挑戰的方法,從使用本地控制器到全球規劃者。然而,當環境未知且動態時,這些傳統的運動規劃解決方案無法克服缺點。它們還需要復雜的視覺處理程序,如 SLAM ,通過聚合來自多個視點的相機觀察來生成障礙物表示。當對象移動和環境改變時,這些表示最終需要昂貴的更新。 運動策略網絡( M π Nets ),發音為“ M Pi Nets ”,是 NVIDIA 機器人研究團隊開發的一種新的端到端神經策略。 M π Nets 通過使用來自單個靜態相機的連續數據流實時生成無碰撞、平滑的運動。該技術能夠克服傳統運動規劃的挑戰,并且足夠靈活,可以在未知環境中應用。 我們將于 12 月 18 日在新西蘭的 Conference on…
Source
]]>
5958
-
AI 模型概述:跨行業的可擴展預訓練模型
http://www.open-lab.net/zh-cn/blog/ai-models-recap-scalable-pretrained-models-across-industries/
Wed, 07 Dec 2022 02:41:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5971
Continued]]>
到目前為止, 2022 年對 AI 愛好者來說是一個重大、激動人心、勢不可擋的一年。 Get3D 正在突破生成性 3D 建模的邊界, AI 模型 現在可以像董事會認證的放射科醫生一樣準確地從 MRI 診斷乳腺癌,最先進的語音 AI 模型已將其視野擴展到 擴展現實 。 NVIDIA ( NVIDIA )的預訓練模型重新定義了今年的表現,在 America’s Got Talent 的舞臺上逗樂了我們,贏得了四場全球比賽,并獲得了《時代雜志》( Time Magazine )的 2022 最佳發明獎 。 除了增強研究人員和數據科學家的能力外, NVIDIA 預訓練模型還通過提供深度學習預訓練模型和更快的收斂,增強開發人員創建尖端人工智能應用程序的能力。為了實現這一點, NVIDIA 率先開展了研究,為自動語音識別、姿態估計、對象檢測、 3D 生成、語義分割等用例構建和訓練這些預訓練模型。
Source
]]>
5971
-
《時代》雜志將 NVIDIA Instant NeRF 評為 2022 年最佳發明
http://www.open-lab.net/zh-cn/blog/time-magazine-names-nvidia-instant-nerf-a-best-invention-of-2022/
Sat, 12 Nov 2022 07:11:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5681
Continued]]>
時代雜志將 NVIDIA 命名為 Instant NeRF ,這是一種能夠將 2D 圖像轉換為 3D 場景的技術,也是 2022 年最佳發明 之一。 “在 NVIDIA Instant NeRF 之前,創建 3D 場景需要專門的設備、專業知識以及大量的時間和金錢。現在只需要幾張照片和幾分鐘,”《時代周刊》在其發布中寫道。 3D 渲染工具在 2022 年 SIGGRAPH 2022 上推出,這是世界上最大的計算機圖形和交互技術會議。 在 SIGGRAPH 上, NVIDIA 研究人員托馬斯·穆勒、亞歷克斯·埃文斯、克里斯托夫·席德和亞歷山大·凱勒提交了他們的論文 Instant Neural Graphics Primitives with a Multiresolution Hash Encoding 。這項創新研究很快受到歡迎,
Source
]]>
5681
-
通過多尺度說話人分解實現動態尺度加權
http://www.open-lab.net/zh-cn/blog/dynamic-scale-weighting-through-multiscale-speaker-diarization/
Fri, 16 Sep 2022 03:49:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5257
Continued]]>
說話人日記化是按說話人標簽對錄音進行分段的過程,旨在回答“誰在何時發言?”。與語音識別相比,它有著明顯的區別。 在你執行說話人日記化之前,你知道“說的是什么”,但你不知道“誰說的”。因此,說話人日記化是語音識別系統的一個基本特征,它可以用說話人標簽豐富轉錄內容。也就是說,如果沒有說話人日記化過程,會話錄音永遠不能被視為完全轉錄,因為沒有說話者標簽的轉錄無法通知您是誰在和誰說話。 說話人日記必須產生準確的時間戳,因為在會話設置中,說話人的話輪數可能非常短。我們經常使用短的反向通道詞,如“ yes ”、“ uh huh ”或“ oh ”。這些詞對機器轉錄和識別說話人來說很有挑戰性。 雖然根據說話人身份對音頻記錄進行分段,但說話人日記化需要對相對較短的分段進行細粒度決策,從十分之幾秒到幾秒不等。對如此短的音頻片段做出準確、細粒度的決策是一項挑戰,
Source
]]>
5257
-
使用 NVIDIA NeMo 進行文本規范化和反向文本規范化
http://www.open-lab.net/zh-cn/blog/text-normalization-and-inverse-text-normalization-with-nvidia-nemo/
Fri, 16 Sep 2022 03:32:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5254
Continued]]>
文本規范化( TN )將文本從書面形式轉換為口頭形式,是文本到語音( TTS )之前的一個重要預處理步驟。 TN 確保 TTS 可以處理所有輸入文本,而不會跳過未知符號。例如,“ 123 美元”轉換為“一百二十三美元” 反向文本規范化( ITN )是自動語音識別( ASR )后處理管道的一部分。 ITN 將 ASR 模型輸出轉換為書面形式,以提高文本可讀性。例如, ITN 模塊將 ASR 模型轉錄的“ 123 美元”替換為“ 123 美元。” ITN 不僅提高了可讀性,還提高了下游任務(如神經機器翻譯或命名實體識別)的性能,因為這些任務在訓練期間使用書面文本。 TN 和 ITN 任務面臨幾個挑戰: TN 和 ITN 系統支持多種 semiotic classes ,即口語形式不同于書面形式的單詞或標記,需要規范化。例如日期、小數、基數、度量等。
Source
]]>
5254
-
更改 CTC 規則以減少訓練和解碼中的內存消耗
http://www.open-lab.net/zh-cn/blog/changing-ctc-rules-to-reduce-memory-consumption-in-training-and-decoding/
Mon, 12 Sep 2022 05:36:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5281
Continued]]>
訓練自動語音識別( ASR )模型的損失函數并不是一成不變的。舊的損失函數規則不一定是最優的。考慮一下 connectionist temporal classification ( CTC ),看看改變它的一些規則如何能夠減少 GPU 內存,這是訓練和推斷基于 CTC 的模型所需的內存,等等。 若你們要訓練一個 ASR 模型,無論是卷積神經網絡還是遞歸神經網絡、transformer 還是組合,你們很可能是用 CTC 損失訓練它。 CTC 簡單方便,因為它不需要每幀關于“什么聲音何時發音”(所謂的音頻文本時間對齊)的信息。在大多數情況下,這種知識是不可用的,就像在一個典型的 ASR 音頻數據集中,關聯文本沒有時間標記。 真正的時間校準并不總是微不足道的。假設大部分錄音沒有講話,結尾只有一個簡短短語。 CTC 損失并不能告訴模型何時準確地發出預測。相反,
Source
]]>
5281
-
結合卷積和注意機制改進日語 ASR
http://www.open-lab.net/zh-cn/blog/improving-japanese-language-asr-by-combining-convolutions-with-attention-mechanisms/
Mon, 12 Sep 2022 05:31:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5278
Continued]]>
自動語音識別( ASR )研究通常側重于高資源語言,如英語,它由數十萬小時的語音支持。最近的文獻重新關注更復雜的語言,如日語。與其他亞洲語言一樣,日語有大量的基本字符集(普通白話中使用了 3000 多個獨特的字符),并提出了獨特的挑戰,例如多個詞序。 這篇文章討論了最近提高日語 ASR 準確性和速度的工作。首先,我們改進了 Conformer ,這是一種最先進的 ASR 神經網絡架構,在訓練和推理速度方面取得了顯著的改進,并且沒有精度損失。其次,我們增強了一個具有多頭部自我注意機制的純深度卷積網絡,以豐富輸入語音波形的全局上下文表示的學習。 Conformer 是一種神經網絡體系結構,廣泛應用于多種語言的 ASR 系統中,并取得了較高的精度。然而, Conformer 在訓練和推斷方面都相對較慢,因為它使用了多頭自我注意,對于輸入音頻波的長度,其時間/
Source
]]>
5278
-
預測圖像如何影響視覺反應速度
http://www.open-lab.net/zh-cn/blog/predicting-how-images-influence-visual-reaction-speed/
Fri, 05 Aug 2022 05:45:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=4844
Continued]]>
想象一下,當你沿著一條路行駛時,一個障礙突然出現在你的路上。你能多快做出反應?你的反應速度如何隨時間、障礙物的顏色以及它在你視野中的位置而變化? 對視覺事件做出快速反應的能力對日常生活很有價值。它也是快節奏視頻游戲中的一項基本技能。 NVIDIA 、紐約大學和普林斯頓大學的研究人員最近進行了合作 – SIGGRAPH 2022 年技術論文獎得主 – 探索圖像特征與觀察者反應所需時間之間的關系。 隨著顯示技術的不斷進步,人類的反應時間已經成為圖形管道中的主要瓶頸。與遠程服務器通信、渲染和顯示圖像以及收集和處理鼠標或鍵盤輸入的響應時間通常為幾十毫秒或更短。 相比之下,人類感知的管道要慢得多,根據視覺輸入的復雜程度,可以在 100 到 500 毫秒之間。這項研究旨在簡化和優化圖像,盡可能減少我們的反應時間。
Source
]]>
4844
-
MONAI 如何推動醫學人工智能工作流的開放研究
http://www.open-lab.net/zh-cn/blog/how-monai-fuels-open-research-for-medical-ai-workflows/
Tue, 02 Aug 2022 06:50:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=4752
Continued]]>
將強大的人工智能工具交給世界領先的醫學研究人員,這是前所未有的重要。這就是為什么 NVIDIA 投資建立了一個與 MONAI ,人工智能的醫療開放網絡。 MONAI 通過提供加速圖像注釋、訓練最先進的深度學習模型和創建有助于推動研究突破的人工智能應用程序的工具,正在推動醫學成像的開放式創新。 開發特定領域的人工智能可能具有挑戰性,因為缺乏最佳實踐和開放藍圖會造成從研發到臨床評估和部署的各種障礙。研究人員需要一個共同的基礎來加快醫學人工智能研究創新的步伐。 創建項目 MONAI 背后的核心原則是將醫生與數據科學家聯合起來,以釋放醫學數據的力量。 MONAI 是一個由學術界和業界領袖建立的協作開源倡議,旨在建立和標準化醫療成像深度學習的最佳實踐。由成像研究社區創建,為成像研究社區, MONAI 正在加速醫學人工智能工作流的深度學習模型和可部署應用程序的創新。
Source
]]>
4752
-
利用深度強化學習設計算術電路
http://www.open-lab.net/zh-cn/blog/designing-arithmetic-circuits-with-deep-reinforcement-learning/
Fri, 08 Jul 2022 02:56:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=4553
Continued]]>
隨著摩爾定律的放緩,開發其他技術來提高同一技術過程節點上芯片的性能變得越來越重要。我們的方法使用人工智能設計更小、更快、更高效的電路,以在每一代芯片中提供更高的性能。 大量的算術電路陣列為 NVIDIA GPU 提供了動力,使其在人工智能、高性能計算和計算機圖形學方面實現了前所未有的加速。因此,改進這些算術電路的設計對于提高 GPU 的性能和效率至關重要。 如果人工智能能夠學會設計這些電路呢?在 PrefixRL :使用深度強化學習優化并行前綴電路 中,我們證明了人工智能不僅可以從頭開始學習設計這些電路,而且人工智能設計的電路也比最先進的電子設計自動化( EDA )工具設計的電路更小更快。最新 NVIDIA Hopper GPU 結構 擁有近 13000 個人工智能設計電路實例。 在圖 1 中,電路對應于圖 5 中 PrefixRL 曲線中的( 31.4…
Source
]]>
4553
-
使用 NVIDIA Isaac 的新型仿真方法推進機器人裝配
http://www.open-lab.net/zh-cn/blog/advancing-robotic-assembly-with-a-novel-simulation-approach-using-nvidia-isaac/
Fri, 08 Jul 2022 02:50:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=4550
Continued]]>
NVIDIA 機器人技術和仿真研究人員在 2022 年機器人技術:科學與系統( RSS )會議上介紹了 工廠:機器人裝配的快速接觸 。這項工作是機器人研究中普遍存在的接觸豐富交互的模擬和學習方面的一個新突破。其目的是大大加快機器人裝配的研究和開發,并作為一個強大的工具,用于任何類型的接觸豐富的仿真。 裝配在汽車、航空航天、電子和醫療行業中至關重要。示例包括擰緊螺母和螺栓、焊接、插銷和電纜布線。 然而,機器人裝配仍然是機器人技術中最古老、最具挑戰性的任務之一。由于物理復雜性、高可靠性、零件可變性和高精度要求,自動化變得異常困難。 在工業中,機器人裝配方法可能實現高精度、高精度和高可靠性,但通常需要昂貴的設備和定制夾具,這些設備和夾具的設置和維護非常耗時(例如,預編程軌跡和仔細調整)。涉及對變化(零件類型、外觀和位置)魯棒性和復雜操作的任務通常使用人工完成。
Source
]]>
4550
人人超碰97caoporen国产