使用PyTorch進行計算機視覺的功能轉換

計算機視覺任務通常需要對影像資料進行預處理和增強，以提高模型效能和泛化能力。PyTorch是一個流行的深度學習框架，它提供了一個強大的影像轉換庫，稱為torchvision.transforms。該庫提供了廣泛的預定義轉換，用於資料增強和預處理。但是，在某些情況下，預定義轉換可能不足夠，我們需要對影像資料應用自定義轉換。在這篇博文中，我們將探討PyTorch中功能轉換的概念，並演示如何為計算機視覺任務建立和應用自定義轉換。

理解PyTorch中的轉換

PyTorch中的轉換是可以應用於輸入資料（例如影像）以修改其外觀或屬性的操作。這些轉換可以分為兩種型別：類轉換和功能轉換。類轉換實現為定義轉換操作及其相關引數的類。另一方面，功能轉換實現為對輸入資料執行轉換操作的函式。

與類轉換相比，功能轉換提供了更大的靈活性，因為它們允許我們透過利用PyTorch張量和函式的功能來定義自定義操作。這使得功能轉換在我們需要對影像資料應用複雜或引數化轉換時特別有用。

建立自定義功能轉換

要建立自定義功能轉換，我們需要定義一個接受輸入張量並執行所需轉換操作的函式。假設我們要建立一個名為grayscale的自定義轉換，該轉換將RGB影像轉換為灰度影像。這是一個示例實現：

import torch

def grayscale(img):
   """Converts an RGB image to grayscale.
    
   Args:
       img (Tensor): Input RGB image tensor of shape (C, H, W).
        
   Returns:
       Tensor: Grayscale image tensor of shape (1, H, W).
   """
   if img.size(0) != 3:
       raise ValueError("Input image must have 3 channels (RGB).")
        
   # Apply grayscale transformation
   grayscale_img = torch.mean(img, dim=0, keepdim=True)
    
   return grayscale_img

在這個示例中，我們定義了grayscale函式，該函式接受形狀為(C, H, W)的輸入RGB影像張量img，其中C表示通道數（對於RGB影像為3），H和W分別表示影像的高度和寬度。該函式首先檢查輸入影像是否具有正確的通道數（在本例中為3），然後透過計算跨通道維度的平均值來應用灰度轉換。生成的灰度影像張量將以(1, H, W)的形狀返回，其中灰度影像只有一個通道。

應用功能轉換

定義了自定義功能轉換後，我們可以使用torchvision.transforms.functional模組將其應用於我們的影像資料。此模組提供了用於處理功能轉換的實用程式函式。要應用功能轉換，我們只需呼叫轉換函式並傳入輸入資料即可。這是一個將灰度轉換應用於影像的示例：

from torchvision.transforms import functional as F
from PIL import Image

# Load the image using PIL
image = Image.open("image.jpg")

# Convert PIL image to PyTorch tensor
tensor_image = F.to_tensor(image)

# Apply the custom grayscale transform
grayscale_image = grayscale(tensor_image)

# Convert the grayscale tensor back to PIL image
grayscale_pil_image = F.to_pil_image(grayscale_image)

# Save the grayscale image
grayscale_pil_image.save("grayscale_image.jpg")

在這個示例中，我們首先使用PIL庫載入影像，並使用F.to_tensor函式將其轉換為PyTorch張量。然後，我們將灰度轉換應用於張量影像，這將返回一個灰度影像張量。最後，我們使用F.to_pil_image函式將灰度張量轉換回PIL影像，並將其另存為JPEG檔案。

將自定義功能轉換整合到資料管道中

為了有效地在計算機視覺任務中使用自定義功能轉換，至關重要的是將其無縫整合到資料管道中。PyTorch提供了torchvision.transforms.Compose類，該類允許我們將多個轉換連結在一起並按順序將其應用於我們的影像資料。我們可以透過將自定義功能轉換與其他預定義轉換組合來輕鬆地將其整合到資料管道中。這是一個示例：

from torchvision.transforms import Compose, RandomCrop, ToTensor

# Create a custom transform pipeline
custom_transforms = Compose([
   RandomCrop(224),     # Predefined transform
   grayscale,           # Custom transform
   ToTensor()            # Predefined transform
])

# Apply the transform pipeline to the image data
transformed_image = custom_transforms(image)

在這個示例中，我們使用Compose建立一個轉換管道，幷包含預定義和自定義轉換。RandomCrop轉換將影像隨機裁剪到224x224的大小，grayscale轉換使用我們的自定義轉換將影像轉換為灰度，ToTensor將轉換後的影像轉換為PyTorch張量。透過將自定義功能轉換整合到資料管道中，我們可以輕鬆地將其與其他轉換一起應用，並確保一致且高效的預處理工作流程。

隨機轉換

隨機轉換對於在資料增強過程中引入變化和隨機性非常有用。PyTorch在torchvision.transforms.functional模組中提供了幾個隨機轉換，例如random_crop、random_rotation和random_horizontal_flip。這些轉換可以與自定義功能轉換組合以建立多樣化的訓練資料。例如，我們可以建立一個名為random_resize_crop的自定義轉換，該轉換隨機調整影像大小並裁剪影像：

import random
from torchvision.transforms import functional as F

def random_resize_crop(img):
   """Randomly resizes and crops the image.
    
   Args:
       img (Tensor): Input image tensor.
        
   Returns:
       Tensor: Randomly resized and cropped image tensor.
   """
   # Randomly resize the image
   size = random.randint(256, 512)
   img = F.resize(img, size)
    
   # Randomly crop the image
   i, j, h, w = F.random_crop(img, (224, 224))
   img = F.crop(img, i, j, h, w)
    
   return img

透過將隨機轉換與自定義功能轉換相結合，我們可以改變影像大小、旋轉和翻轉，使我們的模型更健壯，能夠處理各種輸入。

自定義引數化轉換

在某些情況下，我們可能希望建立引數化轉換，這些轉換可以根據特定要求進行調整。例如，我們可能需要一個名為contrast_adjustment的自定義轉換，該轉換允許我們控制影像的對比度：

def contrast_adjustment(img, factor):
   """Adjusts the contrast of the image.
    
   Args:
       img (Tensor): Input image tensor.
       factor (float): Contrast adjustment factor.
        
   Returns:
       Tensor: Image tensor with adjusted contrast.
   """
   return F.adjust_contrast(img, factor)

在這裡，contrast_adjustment轉換接受一個附加引數factor，該引數確定應用於影像的對比度調整程度。這種引數化方法能夠對轉換過程進行細粒度的控制。

結論

在這篇文章中，我們學習瞭如何建立自定義轉換，並將它們應用於影像資料。與類轉換相比，功能轉換提供了更大的靈活性，允許我們使用PyTorch張量和函式定義自定義操作。使用功能轉換，我們可以自由地設計和應用定製的轉換到我們的計算機視覺任務中，使我們能夠實現更好的模型效能和泛化能力。

Priya Sharma

更新於：2023年8月14日

瀏覽量：155

啟動您的職業生涯

透過完成課程獲得認證

開始學習