GAN與對抗自動編碼器模型的選擇


引言

在過去的幾年裡,生成模型在深度學習社群中受到了廣泛關注。其中,對抗自動編碼器 (AAE) 和生成對抗網路 (GAN) 是兩種最流行的生成逼真影像的模型。AAE更擅長生成各種準確捕捉訓練資料核心特徵的影像,而GAN更擅長生成與訓練資料高度相似的、高質量的影像。本文將討論在影像生成問題中選擇GAN和AAE模型。

生成對抗網路 (GAN)

Ian Goodfellow於2014年提出了生成對抗網路 (GAN)。GAN由兩個神經網路組成:生成器網路和判別器網路。生成器網路接收一個隨機噪聲向量作為輸入,並輸出一個影像。判別器網路試圖區分生成的影像和真實的影像。生成器網路的目標是生成與真實影像無法區分的影像,而判別器網路的目標是準確地區分真實影像和生成的影像。

另一方面,Alireza Makhzani等人於2015年提出了對抗自動編碼器 (AAE)。AAE是GAN和自動編碼器模型的結合。與GAN一樣,AAE也包含一個生成器網路和一個判別器網路。然而,在AAE中,生成器網路是一個自動編碼器,由編碼器網路和解碼器網路組成。編碼器網路將輸入影像對映到低維潛在空間,解碼器網路將潛在向量轉換回影像。在AAE中,判別器網路試圖區分由編碼器網路生成的潛在向量和來自先驗分佈的潛在向量。

生成對抗網路 (GAN) 是目前最著名的深度生成模型方法之一。GAN與VAE的主要區別在於,GAN以不同的方式最佳化模型分佈以逼近真實分佈,並旨在匹配畫素級分佈而不是資料分佈。

訓練GAN網路

我們知道GAN修改輸入以遵循目標分佈,那麼GAN如何最佳化網路以學習輸出分佈呢?這可以透過“直接”和“間接”兩種方法實現。“直接”方法比較真實分佈和生成分佈,識別差異,然後相應地調整網路。這種方法被生成匹配網路 (GMN) 所採用。另一方面,真實分佈可能很難表達。不像高斯分佈,只需均值和方差就能描述。直接表達真實和生成分佈將很困難。取而代之的是,使用真實分佈和生成分佈的樣本進行分佈比較。透過真實和生成資料的樣本,我們可以研究差異並估計分佈。

對抗網路

對抗自動編碼器 (AAE) 巧妙地結合了自動編碼器的架構和GAN中的對抗損失思想。它使用對抗損失而不是KL散度來正則化潛在程式碼,類似於變分自動編碼器 (VAE)。

VAE使用KL散度(分佈之間的差異)(或任何選擇的任意分佈)將編碼的潛在程式碼擬合到正態分佈。AAE用對抗損失代替了這一點,增加了判別器的數量,並將編碼器變成了生成器。與GAN不同的是,GAN的生成器的輸出是生成的影像,判別器的輸入包含真實影像和虛假影像;在AAE中,生成器產生潛在程式碼並試圖欺騙判別器使其相信該潛在程式碼是來自預定義分佈的樣本。另一方面,判別器將判斷特定的潛在程式碼是由自動編碼器生成的(虛假)還是從正態分佈中隨機抽取的向量(真實)。

三種不同的編碼器選擇:

  • 編碼器,與自動編碼器中的編碼器相同,將嘗試將輸入壓縮成表示為向量z的所需特徵。

  • 高斯後驗編碼器將使用兩個變數(均值和方差)記錄每個特徵的高斯分佈,而不是將每個特徵編碼為單個值。

  • 通用逼近器後驗也用於將特徵編碼為分佈。但是,我們不假設特徵分佈本質上是高斯分佈。在這個例子中,編碼器將是一個名為f(x, n)的函式,其中x是輸入,n是任何可能的分佈的隨機噪聲。

因此,AAE架構包含以下元件:

  • 編碼器將輸入轉換為低維表示(潛在程式碼z)。

  • 解碼器將潛在程式碼z轉換為最終影像。

  • 判別器接收自動編碼器的編碼潛在程式碼z(虛假)和從預定義分佈中隨機選擇的向量z(真實)。它將判斷輸入是真實的還是虛假的。

現在讓我們討論一些可以指導我們決定在影像生成任務中使用GAN還是AAE的因素:

  • 資料集:資料集型別會影響模型選擇。如果資料集很大且多樣化,GAN可能是更好的選擇。GAN生成的影像質量高,可以捕捉資料集的多樣性。另一方面,如果資料集較小且多樣性較低,AAE可能更合適。AAE能夠從較小的資料集中生成更多樣化的影像。

  • 數量與質量:生成的影像數量和質量會影響模型的選擇。如果主要目標是生成高質量影像,GAN可能是更好的選擇。GAN能夠生成逼真、清晰且美觀的影像。但是,如果目標是生成大量的影像,AAE是更好的選擇。

  • 熟練程度:使用者的熟練程度會影響模型的選擇。GAN以訓練難度大而聞名,找到合適的超引數可能具有挑戰性。相比之下,AAE更容易訓練,並且比GAN更穩定。因此,如果使用者缺乏深度學習經驗,AAE可能是更好的選擇。

結論

總之,在影像生成任務中選擇GAN還是AAE,取決於資料集、質量與數量、應用場景、計算資源和使用者熟練程度等因素。AAE擅長捕捉訓練資料的本質,生成多樣化的影像,而GAN更擅長生成與訓練資料相似的、高質量的影像。AAE計算量較小,適合資源受限的環境。然而,如果影像質量至關重要,即使計算量更大,GAN仍然是首選。最終的選擇取決於使用者的技能水平和任務需求。

更新於:2023年7月13日

瀏覽量:174

開啟你的職業生涯

完成課程獲得認證

開始學習
廣告
© . All rights reserved.