解釋 Python 中 scikit-learn 庫的基礎知識?
Scikit-learn,通常稱為 sklearn,是 Python 中的一個庫,用於實現機器學習演算法。
它是一個開源庫,因此可以免費使用。功能強大且健壯,因為它提供了各種工具來執行統計建模。這包括分類、迴歸、聚類、降維等等,藉助於 Python 中強大且穩定的介面。該庫構建在 Numpy、SciPy 和 Matplotlib 庫之上。
可以使用以下所示的“pip”命令安裝它:
pip install scikit-learn
該庫專注於資料建模。
scikit-learn 中使用了許多模型,其中一些已在下面總結。
監督學習演算法
監督學習演算法被教導以某種方式行事。將某個期望的輸出對映到給定的輸入,從而提供人工監督。這可以透過標記特徵(輸入資料集中存在的變數)、透過向資料提供反饋(演算法是否正確預測了輸出,如果沒有,正確的預測是什麼)等等來實現。
一旦演算法在這些輸入資料上完全訓練完成,它就可以被推廣到適用於類似型別的資料。如果訓練的模型具有良好的效能指標,它將獲得預測從未見過輸入的結果的能力。這是一種昂貴的學習演算法,因為人類需要手動標記輸入資料集,從而增加了額外成本。
Sklearn 幫助實現線性迴歸支援向量機、決策樹等。
無監督學習
這與監督學習相反,即輸入資料集沒有標記,從而表明零人工監督。演算法從這些未標記的資料中學習,提取模式,執行預測,深入瞭解資料並在其自身上執行其他操作。大多數情況下,現實世界中的資料是無結構且未標記的。
Sklearn 幫助實現聚類、因子分析、主成分分析、神經網路等。
聚類
將相似的資料分組到一個結構中,任何噪聲(異常值或異常資料)都將落在該聚類之外,之後可以消除或忽略。
交叉驗證
它是一個過程,其中原始資料集被分成兩部分——“訓練資料集”和“測試資料集”。當使用交叉驗證時,消除了“驗證資料集”的需要。“交叉驗證”方法有很多變體。最常用的交叉驗證方法是“k”折交叉驗證。
降維
降維說明了用於減少資料集中特徵數量的技術。如果資料集中特徵數量較多,則通常難以對演算法進行建模。如果輸入資料集具有過多的變數,則機器學習演算法的效能可能會大幅下降。
在特徵空間中具有大量維度需要大量的記憶體,這意味著並非所有資料都可以在空間(資料行)上得到恰當的表示。這意味著機器學習演算法的效能將受到影響,這也被稱為“維度災難”。因此建議減少資料集中輸入特徵的數量。因此得名“降維”。