隆重推出 Nemotron-H 推理模型家族：吞吐量提升無需妥協

Fri, 06 Jun 2025 05:22:25 +0000

隨著大語言模型在數學和科學等領域越來越多地承擔推理密集型任務，其輸出長度也變得越來越長，有時會跨越數萬個 token。這種轉變使得高效吞吐量成為一個關鍵瓶頸，尤其是在現實世界、延遲敏感型環境中部署模型時。為了應對這些挑戰，并使研究社區能夠推進推理模型背后的科學發展，NVIDIA 開發了 Nemotron-H-47B-Reasoning-128K 和 Nemotron-H-8B-Reasoning-128k。這兩種模型還提供 FP8 量化變體。所有模型均基于 Nemotron-H-47B-Base-8K 和 Nemotron-H-8B-Base-8K 基礎模型開發而成。與類似大小的 Transformer 模型相比，該系列中功能最強大的模型 Nemotron-H-47B-Reasoning 可顯著加快推理時間。值得注意的是，

Source

]]>

基于 NVIDIA NeMo 的多語言和代碼切換自動語音識別

Tue, 31 Jan 2023 07:11:46 +0000

多語言自動語音識別（ ASR ）模型因其能夠以多種語言轉錄語音而獲得了極大的興趣。這是由不斷增長的多語言社區以及減少復雜性的需求所推動的。您只需要一個模型來處理多種語言。這篇文章解釋了如何使用 NGC 目錄中的預訓練多語言 NeMo ASR 模型。我們還分享了創建自己的多語言數據集和訓練自己的模型的最佳實踐。 ASR 模型在高級別上將語音轉換為文本。在推斷時，它們使用音頻文件作為輸入，并生成文本標記或字符作為輸出（圖 1 ）。更準確地說，在每個音頻采樣時間步，該模型輸出總共標記中每一個的對數概率。在培訓時，您提供文本記錄以及音頻文件作為輸入。當模型訓練時，它使用成績單來計算訓練損失。它逐漸減少了這種損失，并提高了其權重，使其輸出成績單盡可能接近原始。多語言環境為這幅圖增添了幾個方面。在推斷過程中，您通常不知道音頻中包含的語言。但是，

Source

]]>

Dima Rekesh – NVIDIA 技術博客

隆重推出 Nemotron-H 推理模型家族：吞吐量提升無需妥協

基于 NVIDIA NeMo 的多語言和代碼切換自動語音識別