解釋 Python 中 scikit-learn 庫的基礎知識？

Python 伺服器端程式設計程式設計

Scikit-learn，通常稱為 sklearn，是 Python 中的一個庫，用於實現機器學習演算法。

它是一個開源庫，因此可以免費使用。功能強大且健壯，因為它提供了各種工具來執行統計建模。這包括分類、迴歸、聚類、降維等等，藉助於 Python 中強大且穩定的介面。該庫構建在 Numpy、SciPy 和 Matplotlib 庫之上。

可以使用以下所示的“pip”命令安裝它：

pip install scikit-learn

該庫專注於資料建模。

scikit-learn 中使用了許多模型，其中一些已在下面總結。

監督學習演算法

監督學習演算法被教導以某種方式行事。將某個期望的輸出對映到給定的輸入，從而提供人工監督。這可以透過標記特徵（輸入資料集中存在的變數）、透過向資料提供反饋（演算法是否正確預測了輸出，如果沒有，正確的預測是什麼）等等來實現。

一旦演算法在這些輸入資料上完全訓練完成，它就可以被推廣到適用於類似型別的資料。如果訓練的模型具有良好的效能指標，它將獲得預測從未見過輸入的結果的能力。這是一種昂貴的學習演算法，因為人類需要手動標記輸入資料集，從而增加了額外成本。

Sklearn 幫助實現線性迴歸支援向量機、決策樹等。

無監督學習

這與監督學習相反，即輸入資料集沒有標記，從而表明零人工監督。演算法從這些未標記的資料中學習，提取模式，執行預測，深入瞭解資料並在其自身上執行其他操作。大多數情況下，現實世界中的資料是無結構且未標記的。

Sklearn 幫助實現聚類、因子分析、主成分分析、神經網路等。

聚類

將相似的資料分組到一個結構中，任何噪聲（異常值或異常資料）都將落在該聚類之外，之後可以消除或忽略。

交叉驗證

它是一個過程，其中原始資料集被分成兩部分——“訓練資料集”和“測試資料集”。當使用交叉驗證時，消除了“驗證資料集”的需要。“交叉驗證”方法有很多變體。最常用的交叉驗證方法是“k”折交叉驗證。

降維

降維說明了用於減少資料集中特徵數量的技術。如果資料集中特徵數量較多，則通常難以對演算法進行建模。如果輸入資料集具有過多的變數，則機器學習演算法的效能可能會大幅下降。

在特徵空間中具有大量維度需要大量的記憶體，這意味著並非所有資料都可以在空間（資料行）上得到恰當的表示。這意味著機器學習演算法的效能將受到影響，這也被稱為“維度災難”。因此建議減少資料集中輸入特徵的數量。因此得名“降維”。

AmitDiwan

更新於： 2020-12-11

287 次檢視

開啟你的職業生涯

透過完成課程獲得認證

廣告

© . All rights reserved.