什麼是風格生成對抗網路 (StyleGAN)?


簡介

人工智慧已成為眾多行業不可或缺的一部分,計算機生成的影像領域也不例外。Style Generative Adversarial Networks (StyleGAN) 是該領域的一項顯著創新。StyleGAN 推動了以前在生成逼真影像方面所能達到的極限,開闢了一個充滿創造力和可能性 的世界。在本文中,我們將探討 StyleGAN 背後的迷人概念及其對計算機圖形學的影響。

風格生成對抗網路 (StyleGAN)

生成器網路旨在建立與給定資料集中的真實資料例項類似的合成數據樣本。同時,鑑別器的作用是識別呈現給它的影像屬於真實資料集還是由生成器生成的。這種來回的相互作用教會生成器如何持續改進其輸出,直到它在感知上與真實的示例無法區分。

StyleGAN——由英偉達的研究人員於 2018 年開發,是對傳統 GAN 架構的改進,用於生成高質量的合成影像,並對特定屬性(例如姿勢、頭髮顏色和麵部特徵)進行前所未有的控制。StyleGAN 與早期版本的區別在於它能夠混合從訓練集中提取的風格,同時保留每個影像例項的細粒度細節,方法是使用自適應例項歸一化層。這些層負責修改在風格遷移過程中使用的神經網路內不同級別上的均值和標準差值。

訓練過程

在使用大量帶標籤影像資料點以及編碼諸如年齡範圍或主要顏色等屬性的潛在向量的訓練迭代過程中,StyleGAN 逐漸學會將影像的不同方面分離出來。然後它能夠透過控制這些學習到的特徵來生成逼真的輸出。

控制的魔力

StyleGAN 的真正力量在於它能夠讓使用者對合成影像的特徵進行有意義的控制。透過操縱一組潛在變數,可以確定各種風格引數,例如年齡、頭髮長度、微笑強度,甚至是不存在的有機屬性(例如人類身上不存在的眼睛顏色)。藝術家和設計師發現此功能非常寶貴,使他們能夠以無限的可能性釋放他們的創造力。

應用和影響

StyleGAN 的多功能性遠遠超出了藝術領域——從時尚設計到室內裝飾和娛樂行業。時尚品牌可以使用它進行虛擬服裝試穿或根據個人喜好進行定製推薦。建築師可以透過探索設計階段的各種視覺表示來獲得潛在的好處,只需透過像 StyleGAN 這樣的生成模型動態調整建築風格或材料即可。

也存在關於真實性的擔憂,因為使用 StyleGAN 生成的合成影像可能會將我們帶入一個難以輕鬆辨別真偽的領域。但是,在使用人工智慧技術時,倫理考慮和負責任的使用應始終放在首位。

框圖

StyleGAN 的核心包含兩個關鍵元件:生成器網路和鑑別器網路。

  • 生成器網路

    生成器以隨機噪聲向量作為輸入,根據學習到的模式從頭開始生成合成影像。但是,StyleGAN 並非像傳統的 GAN 方法那樣直接將這些向量對映到整個影像,而是使用自適應例項歸一化 (AdaIN) 進行多次塊轉換。這些塊是在每個階段或解析度級別上可以獨立操縱不同風格的地方。

  • 鑑別器網路

    鑑別器試圖區分影像是真實的還是由生成器網路生成的偽造的,利用卷積層結合洩漏 ReLU 啟用函式來增強識別複雜細節的效能。

    這兩個網路在多個漸進式增長階段進行通訊,這有助於在訓練階段在解析度之間平滑過渡。這種獨特的技術無疑有助於獲得令人印象深刻的結果——在保留微小細節的同時避免了在擴充套件低解析度特徵時可能出現的潛在偽像。

即時示例——肖像生成

為了更好地理解這項創新技術如何轉化為實用性,讓我們以使用 StyleGAN 架構作為即時示例來深入探討肖像生成。

利用面部資料集,StyleGAN 可以生成栩栩如生的肖像,並具有驚人的準確性和多樣性,展示了對多個面部屬性的顯著控制水平。

例如,可以使用固定向量來操縱特定特徵,例如年齡增長或性別轉換,同時保持逼真的特徵。

此外,StyleGAN 的解耦結構可以透過獨立更改其潛在空間維度來實現不同級別的修改。這意味著使用者可以無縫地修改諸如頭髮顏色或風格、眼睛形狀或顏色之類的方面,而不會影響其他屬性——甚至可以精確到雀斑或皺紋等細粒度細節。

結論

隨著我們在人工智慧驅動的創意應用方面不斷進步,風格生成對抗網路徹底改變了人工智慧解釋藝術表達的方式。從改進計算機圖形標準到在多個領域和行業中釋放以前無法想象的潛力:在 StyleGAN 支援我們的創意追求的情況下——生動的想象力變成了現實。

更新於: 2023年7月28日

94 次瀏覽

啟動你的 職業生涯

透過完成課程獲得認證

開始
廣告