機器學習中的迴歸與分類


簡介

人工智慧和機器學習領域的快速發展,使得我們的機器越來越智慧和獨立。但這兩個領域都極其複雜,深入瞭解它們需要時間和精力。

迴歸和分類的方法都屬於監督學習演算法,它們都用於機器學習中的預測,並使用帶標籤的資料集。然而,它們在處理機器學習問題時有著不同的出發點。

現在讓我們更詳細地探討回歸與分類。本文將探討回歸與分類在機器學習中的定義、型別、區別和應用案例。

機器學習中的迴歸與分類

迴歸

迴歸確定因變數和自變數之間是否存在相關性。因此,迴歸演算法有助於預測連續變數,例如房地產價值、經濟趨勢、氣候模式、石油和天然氣價格(在當今世界中一項至關重要的任務!)等等。

迴歸過程的目標是找到對映函式,使我們能夠將連續輸出變數“y”轉換為輸入變數“x”。

分類

另一方面,分類是一種演算法,它識別支援根據不同因素對資料集進行分類的函式。在使用分類演算法時,計算機軟體會從訓練資料集中學習,然後根據其學習到的內容將資料劃分為幾個組。

分類演算法找到將來自“x”輸入的離散“y”輸出進行轉換的對映函式。根據一組特定的自變數,演算法估計離散值(有時稱為二元值,例如 0 和 1、是和否、真或假)。換句話說,分類演算法透過將資料擬合到邏輯函式來確定事件發生的可能性。

概述

迴歸和分類可以使用多種演算法來執行,每種演算法都有其優點和缺點。最常用的演算法包括支援向量機、決策樹、隨機森林、邏輯迴歸和線性迴歸。

在迴歸和分類之間進行選擇時,您擁有的資料型別至關重要。如果您的資料包含連續值,則迴歸是更好的選擇。如果您的資料由離散數字組成,則分類更好。

以下是差異表:

迴歸

分類

預測連續值,例如價格或重量。

預測離散值,例如標籤或類別。

使用平方誤差損失或平均絕對誤差損失。

使用交叉熵損失或多類別對數損失。

目標是最小化預測值與實際值之間的差異。

目標是將每個資料點準確地分類到其各自的類別中。

模型輸出是一個連續函式。

模型輸出是類別上的機率分佈。

示例包括預測房價、股票價格等。

示例包括影像分類、垃圾郵件檢測等。

迴歸演算法包括線性迴歸、多項式迴歸等。

分類演算法包括邏輯迴歸、決策樹、隨機森林等。

評估指標包括 R 平方、均方誤差、平均絕對誤差等。

評估指標包括準確率、精確率、召回率、F1 分數等。

一條線或曲線表示自變數和因變數之間的關係。

表示自變數和因變數之間的關係。

決策邊界表示輸入變數可以是連續的或離散的。

輸入變數可以是連續的或離散的。

多個輸入變數可用於預測單個輸出。

多個輸入變數可用於預測單個類別標籤。

您嘗試預測的類別的數量是一個關鍵因素。如果您有很多類別,則分類可能更具挑戰性,並且需要更多資訊。另一方面,如果類別較少,則分類可能更簡單、更快。

迴歸與分類的用法

當對應於響應變數的資料集需要分類時,使用分類樹。這些類別通常具有“是”或“否”的答案。因此,只有兩個類別,它們是不相容的。當然,有時可能有兩個以上的類別,但在這些情況下,我們應用分類樹技術的不同版本。

但是,當響應變數是連續的時,使用迴歸樹。例如,如果響應變數是商品價格或當前溫度,我們使用迴歸樹。

結論

總之,迴歸和分類是機器學習中用於不同目的的兩項重要任務。迴歸用於預測連續值,而分類用於預測離散值或類別標籤。這兩項任務都需要不同型別的演算法、損失函式、評估指標和模型來實現各自的目標。瞭解迴歸和分類之間的區別對於選擇特定問題的正確演算法和方法以及解釋從模型中獲得的結果至關重要。

更新於:2023 年 3 月 28 日

387 次瀏覽

開啟您的 職業生涯

透過完成課程獲得認證

開始學習
廣告

© . All rights reserved.