通過文本實現實時圖像編輯的快速反演

Fri, 30 Aug 2024 05:06:18 +0000

文本到圖像的擴散模型可以根據用戶提供的文本提示生成多樣化、高保真的圖像。這些模型的操作方法是：通過一系列降噪步驟，在用戶提供的文本提示符的條件下，從高維空間映射隨機樣本。這將導致相應圖像的表示。這些模型還可用于更復雜的任務，例如圖像編輯、學習描繪個性化概念或語義數據增強。在這種情況下，圖像編輯是指根據文本提示對給定圖像進行局部更改的任務，而圖像的其他部分保持不變。所有這些附加任務都涉及一個名為”inversion“的過程：給定圖像表征及其相應的文本提示，您會尋找噪聲種子，當輸入降噪過程時，該種子會生成重建的圖像。最近提出了 Regularized Newton-Raphson Inversion (RNRI)，這是一種新的反演技術。RNRI 在快速收斂與出色的準確性、執行時間和內存效率之間取得平衡，首次實現了實時圖像編輯，優于現有的反演方法。

Source

]]>

Dvir Samuel – NVIDIA 技術博客

通過文本實現實時圖像編輯的快速反演