機率密度估計與最大似然估計指南
密度估計是機器學習和統計學中一個重要的組成部分。它指的是獲取一組資料的機率密度函式 (PDF)。它對於許多工至關重要,例如識別異常值、聚類、模型構建和故障檢測。本研究基於深度學習,探討了所有傳統的和新興的密度估計方法。
傳統的密度估計方法
直方圖
如果您需要快速瞭解您的資料集是否完整,則直方圖是您的不二之選。它們將資料範圍劃分為稱為“箱”的區間,以確定事件的頻率分佈。每個箱的高度表示預期屬於該區間的資料點的數量。
核密度估計 (KDE)
核密度估計 (KDE) 是一種非引數方法,用於估計資料集的密度。它透過在每個資料點放置一個核函式並將其加起來來生成平滑的密度估計。KDE 的效能在很大程度上取決於所選的核函式以及透過頻寬引數設定的平滑量。
高斯混合模型 (GMM)
GMM 基於資料來自多個高斯分佈的混合的假設。它透過對高斯分量的加權和擬合數據來估計密度。分量的數量和引數是使用期望最大化 (EM) 演算法逐步確定的。
引數密度估計方法
引數模型
在引數密度估計中,假設資料遵循特定的引數分佈。最大似然估計 (MLE) 是一種用於確定引數值的方法,這些值使觀察到的資料最有可能。MLE 通常用於機器學習中以擬合引數模型並估計其引數。它涉及到構建似然函式、最大化似然函式(通常透過取對數似然函式)並找到引數。MLE 用於線性迴歸、邏輯迴歸和高斯混合模型等模型。它允許我們進行推斷、抽樣和估計資料分佈。
MLE 的數學公式
似然函式 L(θ) 反映了在給定具有引數 θ 的統計模型和一組獨立同分布 (i.i.d.) 觀測值 x1, x2,..., xn 的情況下,觀察到資料的機率。假設觀測值是從模型的機率分佈中取樣,似然函式可以定義為觀測值的聯合機率 -
$\mathrm{L(\theta) \: = \: P(x_{1},x_{2},\dotso , x_{n}| \theta)}$
MLE 的目標是找到使似然函式 L(θ) 最大化的引數值。這可以表示為 -
$\mathrm{\theta \: = \: \arg\max_{t}\:L(\theta)}$
在實踐中,使用對數似然函式通常更方便,它由以下公式給出 -
$\mathrm{\ell(\theta) \: = \: \log \: L(\theta)}$
由於對數是一個單調遞增函式,因此最大化對數似然函式等價於最大化似然函式。
使用 MLE 估計引數
MLE 透過將對數似然函式關於引數的導數設定為零來估計引數。這產生了一組方程,可以用來求解引數的最優值。
例如,考慮將高斯分佈擬合到一些資料。似然函式等於各個高斯機率的乘積 -
$\mathrm{L(\mu ,\: \sigma^{2}) \: = \: \Pi_{i}P(x_{i}\: | \: \mu, \: \sigma^{2})\: = \: \Pi_{i} \: 1 /(\surd (2\pi \: \sigma^{2}))\: ^{*} \: \exp(−(x_{i} \: − \: \mu)^{2}\:/\:(2\sigma^{2}))}$
當我們取對數時,我們得到 -
$\mathrm{\ell(\mu ,\: \sigma^{2}) \: = \: \Sigma_{i}[\log(1 /(\surd (2\pi \: \sigma^{2})))\: − \: (x_{i} \: − \: \mu)^{2}\: / \: (2\sigma^{2})]}$
為了估計引數 $\mathrm{\mu}$ 和 $\mathrm{\sigma^{2}}$,我們對 $\mathrm{\ell(\mu ,\: \sigma^{2})}$ 關於 $\mathrm{\mu}$ 和 $\mathrm{\sigma^{2}}$ 求導,並將導數設定為零。求解這些方程給出了 $\mathrm{\mu}$ 和 $\mathrm{\sigma^{2}}$ 的最大似然估計。
MLE 的性質
MLE 具有幾個理想的性質 -
一致性 - 在某些條件下,隨著樣本量的增加,MLE 會收斂到真實引數值。
效率 - MLE 是漸近有效的,在一致估計量中實現了最小的漸近方差。
漸近正態性 - MLE 具有正態分佈,其均值為真實引數值。此屬性允許我們構建置信區間和進行假設檢驗。
在機器學習中的應用
在機器學習中,MLE 通常用於估計各種模型的引數,例如線性迴歸、邏輯迴歸、隱馬爾可夫模型、高斯混合模型等等。它提供了一種基於原理的方法來擬合模型到資料,並且易於在計算機上實現。
結論
密度估計是機器學習中一項最基本的任務。透過使用傳統的技術,如直方圖、核密度估計和高斯混合模型,我們可以獲得對真實密度的近似估計。新興的方法,例如混合密度網路、變分自動編碼器和流模型,提供了更大的靈活性,並且基於深層知識取得了顯著成果。最大似然估計 (MLE) 是這兩個領域中廣泛使用的一種技術。因此,我們可以利用我們擁有的資料來估計模型的引數。這種估計是一致的、有效的和漸近正態的。
資料結構
網路
關係型資料庫管理系統 (RDBMS)
作業系統
Java
iOS
HTML
CSS
Android
Python
C 程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP