什麼是自組織對映 - Kohonen 對映?


介紹

Kohonen 最初提出了自組織對映 (SOM) 的概念。由於它是一種無監督神經網路,使用無監督學習方法進行訓練,以從訓練樣本的輸入空間建立低維離散表示,因此它是一種最小化資料維數的方法。該表示通常被稱為對映。

本文將介紹 Kohonen 對映入門指南,這是一種著名的自組織對映。首先,讓我們定義什麼是自組織對映。

自組織對映

自組織對映,也稱為 Kohonen 對映或 SOM,是一種人工神經網路,其靈感來自於 20 世紀 70 年代的神經系統生物模型。它使用競爭學習演算法和無監督學習方法訓練其網路。SOM 用於對映和聚類(或降維)過程,將多維資料對映到低維空間,以簡化複雜情況,便於理解。SOM 由兩層組成:輸入層和輸出層。它也稱為 Kohonen 對映。

自組織對映 (SOM) 是一種用於無監督學習的神經網路。SOM 也被稱為 Kohonen 對映,以其發明者 Teuvo Kohonen 的名字命名。SOM 用於將高維資料對映到低維空間,特別適用於視覺化和理解複雜資料集。

SOM 的基本結構是一個二維節點網格,其中每個節點表示低維空間中的一個點。然後將資料點對映到網格中的節點,相似的點對映到附近的節點。SOM 演算法使用競爭學習過程,其中節點競爭成為給定資料點的最佳匹配。這種競爭導致節點調整其權重,隨著時間的推移,節點將自組織成資料的對映。

SOM 的主要優點之一是它能夠保留資料的拓撲結構。這意味著相似的點將對映到附近的節點,而不相似的點將對映到較遠的節點。這使得 SOM 非常適合於資料視覺化,因為生成的對映易於解釋。SOM 也用於降維,因為它們可以用於將高維資料對映到低維空間。

SOM 也用於聚類,因為網格中的節點可以根據其與資料點的相似性進行分組。這允許發現數據中可能並不立即顯而易見的模式和結構。SOM 也可用於異常檢測,因為與其餘資料不相似的資料點將對映到較遠的節點。

SOM 具有廣泛的應用,包括影像處理、自然語言處理和生物資訊學。在影像處理中,SOM 可用於根據其特徵對影像進行分類。在自然語言處理中,SOM 可用於根據其內容對文字文件進行分類。在生物資訊學中,SOM 可用於聚類和視覺化基因表達資料。

SOM 有幾種變體,例如 Growing SOM 和 Adaptive SOM。Growing SOM 可以根據需要新增或刪除網格中的節點,而 Adaptive SOM 可以調整網格的大小以更好地匹配資料。

SOM 也有一些侷限性,例如需要大量資料點才能獲得準確的結果,以及一旦訓練完成就難以更新對映。SOM 還需要大量的計算資源,並且可能對初始條件敏感。

SOM 的工作原理

假設一個輸入集合的維度為 (m, n),其中 m 表示每個樣本具有的特徵數量,n 是訓練樣本的總數。第一步是初始化大小為 (n, C) 的權重,其中 C 是聚類的數量。在遍歷每個訓練樣本的輸入資料後,更新獲勝向量(例如,與訓練樣本距離最短的權重向量,例如歐幾里德距離)。權重更新公式如下:

wij = wij(old) + alpha(t) * (xik - wij(old))

這裡,i 表示訓練樣本的第 i 個特徵,j 表示獲勝向量,alpha 表示時間 t 的學習率,k 表示輸入資料中的第 k 個訓練樣本。SOM 網路已經過訓練,新的樣本使用訓練後的權重進行聚類。我們將一個新的樣本新增到我們的有效向量庫中。

演算法

  • 步驟 1 - 將每個節點權重 w_ij 初始化為隨機值。

  • 步驟 2 - 隨機選擇輸入向量 x k。

  • 步驟 3 - 對對映上的每個節點重複步驟 4 和 5。

  • 步驟 4 - 確定連線到第一個節點的權重向量 w_ij 與輸入向量 x(t) 之間的歐幾里德距離,其中 t、i 和 j 都等於 0。

  • 步驟 5 - 注意產生最小 t 距離的節點。

  • 步驟 6 - 在步驟六中進行全域性最佳匹配單元 (BMU) 計算。它描述了所有其他計算節點與之相關的節點。

  • 步驟 7 - 找到 Kohonen 對映的拓撲鄰域及其半徑。

SOM 的應用

自組織對映具有保留訓練資料結構資料的優點,即使它們並不總是線性的。當應用於大維資料時,主成分分析在將維度降低到二維時可能會導致資料丟失。在資料具有多個維度並且每個預定維度都很重要的案例中,自組織對映可以作為 PCA 的一種很好的降維替代方法。地震相分析根據多個單個特徵的識別對特徵進行分組。透過查詢資料集中特徵的組織,這種方法會產生組織的關係叢集。

結論

總之,自組織對映 (SOM) 是一種強大的無監督學習工具,可用於視覺化、理解和提取高維資料中的有意義資訊。SOM 可以保留資料的拓撲結構,使其易於解釋,並且可用於聚類、降維、異常檢測等。與大多數機器學習技術一樣,SOM 也有其侷限性,但是使用正確的資料和實現方法,它可以成為任何資料科學家工具箱中的一個寶貴工具。

更新於:2023年3月28日

268 次瀏覽

啟動您的 職業生涯

完成課程獲得認證

開始
廣告
© . All rights reserved.