計算機視覺中的卷積是什麼

機器學習 Numpy 程式設計

介紹

在機器學習中，計算機視覺是一個使用和分析影像資料集以執行與之相關的若干複雜任務的領域。這裡使用了不同的演算法和技術來處理和分析影像，以便使用資料並訓練高效能模型。

卷積是一個非常重要的術語或現象，它發生在卷積神經網路的名義下，卷積神經網路是用於處理和處理機器學習中的影像資料集的最著名技術。在本文中，我們將討論卷積、卷積運算是什麼以及其他與之相關的重要內容。

所以在直接進入卷積之前，讓我們先討論一下計算機視覺。

什麼是計算機視覺？

在深度學習中，計算機視覺是一個分支，涉及各種複雜的演算法和技術，這些演算法和技術用於載入、處理、預處理和分析影像資料集，這些資料集將用於訓練最終模型。計算機視覺涉及多個著名的任務，例如目標檢測、影像分割、人臉識別等。

對於計算機視覺，使用卷積神經網路，它是處理影像資料集的神經網路型別。它能夠接受影像作為輸入，載入它們，預處理它們，並應用不同的技術來提取其中的資訊。

卷積神經網路從根本上與人工神經網路相同；只是這裡，術語“人工”被“4 卷積”所取代，這直接意味著這些技術涉及卷積或卷積運算。

現在讓我們討論計算機視覺中的卷積運算。

卷積運算

眾所周知，在機器學習和深度學習中，資料的質量和數量是影響模型效能的最重要和最有影響力的引數之一。因此，為了獲得高效能和可靠的模型，資料的質量和數量應該保持良好。

但是，一旦我們擁有了大量高質量的資料，這並不意味著已經結束；主要的事情是從資料中獲取有用的資訊，以便使模型瞭解這些資訊。為此，應用了各種資料清理和預處理技術，這些技術清理和預處理資料，並從資料中提取各種資訊和特徵。

與影像資料集相比，從普通文字或數值資料中提取特徵或資訊非常容易。在影像資料集的情況下，會應用不同的過濾器以及其他幾個引數來預處理和分析影像。讓我們討論一下卷積運算如何在神經網路中進行。

卷積運算是如何執行的？

在計算機視覺中，我們知道卷積運算主要用於特徵提取，這有助於從影像資料集中獲取有用的資訊。執行卷積運算時的主要引數是我們用於建立影像特徵圖的核心或過濾器。

假設我們有一個影像作為輸入，並且我們想在同一個影像上訓練一個模型。現在，此影像將首先傳遞到輸入層。經過輸入層後，影像將進入第一個卷積層或第一個隱藏層。這裡，卷積層將有其自己的不同引數，如過濾器、核心大小、填充、步幅、啟用函式等。

因此，當卷積網路的第一層接收輸入影像時，它將獲取影像並將核心或過濾器應用於同一個影像。這裡的過濾器可以是任何大小，它基本上將放在原始影像上，並且根據我們想要執行的操作（例如求和、平均、最小或最大），我們將把原始影像的那些畫素讀數轉換為低維畫素讀數。

因此，假設我們有一個大小為 64*64 的影像，並且我們應用了一個 3*3 的過濾器，那麼影像在經過第一層後的最終大小將為 62*62。

以下公式可用於獲取經過卷積層處理或預處理後的輸出影像大小。

影像大小 = n - f + 2p/s + 1

其中 n 是影像的原始大小，f 是過濾器大小，p 是填充，s 是我們在特定卷積層中使用的步幅。

這裡要注意的是，卷積層指的是卷積運算的單層，而完整的卷積層可以有多個卷積層，每個卷積層都有自己的設定模式。可以根據模型的效能調整這些引數，並且還可以考慮模型的效能和複雜性來調整我們使用的層數。

我們越深入卷積網路，模型就會從影像中檢測到非常複雜和更小的東西，而卷積網路的初始層或核心執行更簡單的任務，例如邊緣檢測、較大物件檢測等。

卷積層引數

過濾器數量：這表示我們想要應用於影像以預處理並從中提取特徵的過濾器數量。

核心大小：此引數表示我們想要應用於影像以提取特徵的過濾器的形狀大小。

啟用函式：此引數表示我們想要在特定卷積層中使用的啟用函式。這裡我們可以使用任何適合模型的啟用函式，如 relu、softmax、sigmoid、tanh 等。

填充：填充指的是我們想要新增到影像中的額外畫素層數，以避免丟失任何資訊或影像的大小。

步幅：步幅指的是過濾器在對原始影像執行卷積運算時採取的卷積步驟 tanh。

結論

在本文中，我們討論了卷積、卷積運算是什麼、它們是如何執行的以及一些相關的引數。本文將幫助人們更好地理解卷積運算，並幫助人們在執行相同操作時應用理解。

Parth Shukla

更新於： 2023年8月17日

292 次瀏覽

開啟您的職業生涯

透過完成課程獲得認證

開始

廣告

© . All rights reserved.