解釋 Python 中 scikit-learn 庫的基礎知識?


Scikit-learn,通常稱為 sklearn,是 Python 中的一個庫,用於實現機器學習演算法。

它是一個開源庫,因此可以免費使用。功能強大且健壯,因為它提供了各種工具來執行統計建模。這包括分類、迴歸、聚類、降維等等,藉助於 Python 中強大且穩定的介面。該庫構建在 Numpy、SciPy 和 Matplotlib 庫之上。

可以使用以下所示的“pip”命令安裝它:

pip install scikit-learn

該庫專注於資料建模。

scikit-learn 中使用了許多模型,其中一些已在下面總結。

監督學習演算法

監督學習演算法被教導以某種方式行事。將某個期望的輸出對映到給定的輸入,從而提供人工監督。這可以透過標記特徵(輸入資料集中存在的變數)、透過向資料提供反饋(演算法是否正確預測了輸出,如果沒有,正確的預測是什麼)等等來實現。

一旦演算法在這些輸入資料上完全訓練完成,它就可以被推廣到適用於類似型別的資料。如果訓練的模型具有良好的效能指標,它將獲得預測從未見過輸入的結果的能力。這是一種昂貴的學習演算法,因為人類需要手動標記輸入資料集,從而增加了額外成本。

Sklearn 幫助實現線性迴歸支援向量機、決策樹等。

無監督學習

這與監督學習相反,即輸入資料集沒有標記,從而表明零人工監督。演算法從這些未標記的資料中學習,提取模式,執行預測,深入瞭解資料並在其自身上執行其他操作。大多數情況下,現實世界中的資料是無結構且未標記的。

Sklearn 幫助實現聚類、因子分析、主成分分析、神經網路等。

聚類

將相似的資料分組到一個結構中,任何噪聲(異常值或異常資料)都將落在該聚類之外,之後可以消除或忽略。

交叉驗證

它是一個過程,其中原始資料集被分成兩部分——“訓練資料集”和“測試資料集”。當使用交叉驗證時,消除了“驗證資料集”的需要。“交叉驗證”方法有很多變體。最常用的交叉驗證方法是“k”折交叉驗證。

降維

降維說明了用於減少資料集中特徵數量的技術。如果資料集中特徵數量較多,則通常難以對演算法進行建模。如果輸入資料集具有過多的變數,則機器學習演算法的效能可能會大幅下降。

在特徵空間中具有大量維度需要大量的記憶體,這意味著並非所有資料都可以在空間(資料行)上得到恰當的表示。這意味著機器學習演算法的效能將受到影響,這也被稱為“維度災難”。因此建議減少資料集中輸入特徵的數量。因此得名“降維”。

更新於: 2020-12-11

287 次檢視

開啟你的 職業生涯

透過完成課程獲得認證

開始學習
廣告