Rafael Valle – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Fri, 06 Sep 2024 04:59:13 +0000 zh-CN hourly 1 196178272 跨音頻類型實現先進的零樣本波形音頻生成 http://www.open-lab.net/zh-cn/blog/achieving-state-of-the-art-zero-shot-waveform-audio-generation-across-audio-types/ Thu, 05 Sep 2024 04:30:38 +0000 http://www.open-lab.net/zh-cn/blog/?p=11172 Continued]]> 令人驚嘆的音頻內容是虛擬世界的重要組成部分。音頻生成式 AI 在創建此類內容方面發揮著關鍵作用,NVIDIA 正在不斷突破這一研究領域的極限。BigVGAN 是與 NVIDIA 應用深度學習研究團隊和 NVIDIA NeMo 團隊合作開發的生成式 AI 模型,專門用于音頻波形合成,可實現先進的結果。BigVGAN 生成波形的速度比實時快幾個數量級,并且在語音、環境聲音和音樂等各種音頻類型中表現出強大的穩健性。 本文將討論 BigVGAN v2,它可以顯著提高速度和質量,助力打造所生成的音頻與真實音頻相去甚遠的未來。BigVGAN v2 的亮點包括: BigVGAN 是一款通用神經聲碼器,專門用于使用 Mel spectrograms 作為輸入合成音頻波形。神經聲碼器是音頻生成式 AI 中的基石方法,可從緊湊型聲學特征(如 Mel spectrogram)生成聲波。

Source

]]>
11172
人人超碰97caoporen国产