- DALL-E 有用資源
- DALL-E - 有用資源
- DALL-E - 討論
DALL-E - 架構
DALL-E 是一種人工智慧模型,它根據使用者提供的文字描述生成圖片。它是 GPT(生成式預訓練轉換器)家族的一部分,並使用轉換器模型來建立視覺內容。
DALL-E 主要依賴以下技術 -
- 自然語言處理 (NLP) - 它幫助模型理解使用者提供的文字描述的含義。
- 大型語言模型 (LLM) - 它以一種傳達語義資訊的方式對文字和影像進行編碼。OpenAI 開發了自己的 LLM,稱為 CLIP,它是 DALL-E 的一部分。
- 擴散模型 - 這主要用於生成影像。
對比語言-影像預訓練 (CLIP)
CLIP 是 OpenAI 專為 DALL-E 模型的功能而開發的大型語言模型。它在許多影像及其關聯的標題上進行訓練,以彌合文字描述和影像之間的差距。顧名思義,“對比”模型將給定的文字提示與資料集中現有影像的標題進行比較,以檢查輸入是否與任何影像標題匹配。每個影像-標題對都分配一個相似度得分,並選擇相似度得分最高的對。為了執行此任務,模型依賴於兩個元件 -
- 文字編碼器 - 它將使用者的文字提示轉換為文字嵌入,即 DALL-E 可以理解的數值。
- 影像編碼器 - 與文字編碼器類似,此元件用於將影像轉換為影像嵌入。
現在,它比較文字和影像嵌入的值,並檢查語義資訊中是否存在相似之處,這稱為餘弦相似度。下面的表示將幫助您更好地理解 -
DALL-E 的工作原理
DALL-E 透過處理輸入資料並將其轉換為靈活的資料來執行生成任務。
模型的工作流程如下所述 -
- 一旦提供了影像的文字描述,就會將其提供給CLIP 的文字編碼器。使用 NLP 理解提示的含義,然後將其轉換為捕獲語義含義的高維向量表示。此向量表示稱為文字嵌入。
- 接下來,文字嵌入傳遞到先驗,這是一種可以從機率分佈中取樣以生成真實影像的生成模型。
- 在最後一步,一旦先驗生成的影像嵌入透過擴散解碼器,就會生成最終影像。
廣告