機率分佈在生成模型中的作用

機器學習(ML)和深度學習(DL)的進步使機器能夠從過去的資料中學習，甚至可以預測未見過的資料。其中一項進步就是生成模型，它能夠捕捉資料的底層分佈，並生成與原始訓練資料相當的新資料。但它們是如何做到的呢？

正是藉助機率分佈，生成模型才能處理資料中的不確定性和變化。閱讀本章，瞭解機率分佈、其型別、其在生成建模中的用途及其應用。

什麼是機率分佈？

機率分佈是一個數學函式，它表示隨機變數在給定範圍內不同可能值的機率。我們可以使用圖表或機率表來描述機率分佈。

例如，想象一下拋硬幣，有一個機率分佈告訴我們得到正面或反面的機率。下表描述了它：

結果	機率
正面	0.5
反面	0.5

機率分佈是頻率分佈(FD)的理論表示。在統計學中，FD描述的是資料集中變量出現的次數。另一方面，機率分佈除了變量出現的次數外，還為它們分配機率。

我們知道機率，它表示某事發生的可能性是一個介於0（表示不可能）和1（表示確定）之間的數字。這就是為什麼一個值的機率越高，它在樣本中的頻率就越高的原因。

機率分佈分為兩種型別：

讓我們更仔細地看看這兩種型別的機率分佈。

離散機率分佈是描述來自離散或分類隨機變數的不同事件機率的數學函式。

離散機率分佈只包含具有可能機率的值。簡單來說，它不包含任何機率為零的值。例如，5.5不是擲骰子的可能結果，因此它不包含在擲骰子的機率分佈中。

離散機率分佈中所有可能值的機率之和始終為一。

讓我們看看一些**常見的離散機率分佈**：

離散機率分佈	解釋	例子
伯努利分佈	它描述了單次實驗中成功（1）或失敗（0）的機率。	單次拋硬幣的結果。
二項分佈	它模擬了在n次固定試驗中，以p機率成功的次數。	拋10次硬幣時正面朝上的次數。
泊松分佈	它預測在固定的時間或空間間隔內發生的k個事件的數量。	每天收到的電子郵件數量。
幾何分佈	它表示在一系列試驗中達到第一次成功所需的試驗次數。	拋硬幣直到正面朝上所需的次數。
超幾何分佈	它計算從有限總體中抽取特定數量成功的機率。	從一個裝有混合顏色球的袋子中抽取的紅球數量。

顧名思義，連續機率分佈是描述在連續值範圍內不同事件機率的數學函式。

連續機率分佈包含無限多個可能的值。例如，在區間[4, 5]中，4和5之間有無限多個值。

讓我們看看一些常見的連續機率分佈：

連續機率分佈	解釋	例子
連續均勻分佈	它為大小相等的區間內的所有值分配相同的機率。	身高在5到6英尺之間的人。
正態（高斯）分佈	它形成一個鐘形曲線，描述了圍繞均值聚集且對稱的尾部的資料。	智商分數
指數分佈	它模擬泊松過程中事件之間的時間，其中事件以恆定速率發生。	直到下一個客戶到達的時間。
對數正態分佈	它表示在對數刻度上繪製時右偏的資料。	股票價格、收入分配等。
貝塔分佈	它描述了限制在有限區間內的隨機變數。它經常用於貝葉斯統計。	二項試驗中成功的機率。

機率分佈在生成建模中起著至關重要的作用。讓我們來看看機率分佈在生成建模中的一些重要用途：

在各個領域的各種生成建模任務中，都廣泛使用了機率分佈，其中一些列在下面：

**影像生成** - 生成對抗網路（GAN）和變分自動編碼器（VAE）等生成模型使用機率分佈從頭開始生成逼真的影像。這在計算機圖形學、創意設計和內容生成方面具有應用。
**文字合成** - 語言模型，如OpenAI的ChatGPT，使用機率分佈根據給定的提示或輸入生成相關的文字輸出。這在聊天機器人、虛擬助手和自動化內容生成系統中具有應用。
**異常檢測** - 生成模型透過學習正常資料的底層機率分佈，可以用於異常檢測和資料集中異常值的識別。這在欺詐檢測、網路安全和醫學診斷方面具有應用。

在本章中，我們解釋了機率分佈在生成建模中的關鍵作用。我們首先介紹了機率分佈是什麼以及它們的型別，離散機率分佈和連續機率分佈。

離散機率分佈描述來自離散或分類隨機變數的不同事件的機率，而連續機率分佈描述在連續值範圍內不同事件的機率。我們還重點介紹了一些屬於離散和連續機率分佈的常見機率分佈。

我們演示了資料分佈、生成新樣本、評估和訓練是如何在生成建模中使用機率分佈來生成新樣本的一些重要方式。我們還重點介紹了機率分佈在生成建模任務中的各種應用，例如影像生成、文字合成和異常檢測。

列印頁面