穩定擴散 - 架構
大型文字到影像模型已取得顯著成功,能夠根據文字提示合成高質量影像。穩定擴散就是其中一種用於影像生成的模型。它基於一種稱為潛在擴散模型 (Latent Diffusion Model) 的擴散模型,由 CompVis、LMU 和 RunwayML 建立。
這種新的擴散模型透過在低維潛在空間而不是實際高維影像空間上應用擴散過程,減少了記憶體使用和計算時間。
穩定擴散中的三個主要組成部分是:
- 變分自動編碼器 (VAE)
- U-Net
- 文字編碼器
變分自動編碼器 (VAE)
變分自動編碼器 (VAE) 包含兩部分:編碼器和解碼器。在訓練過程中,編碼器將影像轉換為低維潛在表示,用於正向擴散過程,即影像轉換為噪聲的過程。這些小的編碼版本稱為潛在變數 (latents),在每個訓練步驟中都會重複應用噪聲,作為 U-Net 模型的輸入。
VAE 的解碼器用於將低維表示轉換回影像。由反向擴散過程生成的去噪潛在變數,即使用解碼器將噪聲轉換為影像的過程。
U-Net
U-Net 是一種卷積神經網路,它預測噪聲潛在變數的去噪影像表示。U-Net 的輸入是噪聲潛在變數,U-Net 的輸出是潛在變數中的噪聲。此步驟專門用於透過去除噪聲潛在變數的噪聲來獲取實際的潛在變數。
該模型中 U-Net 的架構由 12 個塊組成的編碼器、中間塊以及 12 個塊組成的解碼器組成。在這 25 個塊中,其中 8 個用於下采樣或上取樣卷積層,其餘的是主塊,包含 4 個 ResNet 層和兩個視覺轉換器 (ViT)。
文字編碼器
文字編碼器是一個簡單的基於 Transformer 的模型,它將輸入標記序列轉換為一系列潛在文字嵌入。穩定擴散應用了預訓練的 CLIP 文字編碼器,它生成與給定輸入文字對應的嵌入。嵌入空間進一步用作 U-Net 的輸入,還在 U-Net 的訓練過程中為去噪噪聲潛在變數提供指導。
廣告