資料科學家常用的 Python 庫有哪些？

本文介紹了資料科學家最常用的 Python 庫。

NumPy

NumPy 是最廣泛使用的用於科學計算的開源 Python 庫之一。其內建的數學函式允許進行閃電般的快速計算，並支援多維資料和大型矩陣。線性代數也使用它。NumPy 陣列通常優於列表，因為它佔用更少的記憶體，並且更方便和高效。

根據其網站，NumPy 是一個旨在促進 Python 數值計算的開源專案。它設計於 2005 年，基於 Numeric 和 Numarray 庫的早期工作。NumPy 的主要優勢之一是它是在修改後的 BSD 許可證下發布的，因此它將永遠免費使用。

Pandas

在資料科學領域，Pandas 是一個廣泛使用的開源庫。它主要用於資料分析、操作和清理。Pandas 允許輕鬆進行資料建模和資料分析活動，而無需編寫大量程式碼。根據其網站，Pandas 是一個快速、強大、通用且簡單的開源資料分析和操作工具。

Matplotlib

Matplotlib 是一個用 Python 編寫的龐大的視覺化工具包，可用於建立靜態和動態視覺化。大量第三方程式，包括各種更高級別的繪圖介面（Seaborn、HoloViews、ggplot 等），增強並構建在 Matplotlib 的功能之上。

Matplotlib 的目標是與 MATLAB 一樣功能強大，並且額外的好處是可以與 Python 相容。它還具有開源和免費的優勢。它允許使用者使用多種繪圖型別（例如散點圖、直方圖、條形圖、誤差圖和箱線圖）來視覺化資料。此外，所有視覺化只需幾行程式碼即可建立。

Seaborn

Seaborn 是一個功能強大的介面，用於構建視覺上吸引人且富有洞察力的統計視覺化，這對於從資料中獲取見解和研究資料至關重要。它是另一個流行的基於 Matplotlib 的 Python 資料視覺化工具包。此 Python 模組與 NumPy 和 pandas 資料結構緊密整合。Seaborn 的核心原則是將視覺化標準化作為資料探索和分析的一部分。因此，其圖表演算法使用包含詳細資料集的資料幀。

Plotly

使用流行的開源程式 Plotly 建立互動式圖形和圖表。使用 Plotly 建立的資料視覺化可以匯出到 HTML 檔案、在 Jupyter notebook 和使用 Dash 的 Web 應用程式中檢視或儲存到雲端。基於 Plotly JavaScript 庫 (plotly.js)。

包括 40 多種不同型別的圖表，例如散點圖、直方圖、折線圖、條形圖、餅圖、誤差條、箱線圖、多軸、sparklines、樹狀圖和三維圖表。除了標準的資料視覺化工具外，Plotly 還提供更專業的選項，例如等值線圖。

在互動式視覺化或儀表板式顯示方面，Plotly 是 Matplotlib 和 Seaborn 的一個不錯的替代品。它現在可以在 MIT 許可證下使用。

Scikit-Learn

Scikit-learn 對於機器學習至關重要。作為 Python 機器學習庫，scikit-learn 被廣泛使用。此開源 Python 庫在 BSD 許可證下分發，結合了 NumPy、SciPy 和 Matplotlib 的功能，適合在商業環境中使用。它減少並加速了分析資料以進行未來預測的過程。

雖然 scikit-learn 最初於 2007 年作為 Google Summer of Code 專案啟動，但此後一直透過機構和私人資金進行維護。

scikit-learn 最棒的部分是它非常易於使用。

用於機器學習的 Python 庫

LightGBM

LightGBM 是一個著名的開源梯度提升庫，它利用基於樹的演算法。它具有以下優點 -

提高了訓練的效率和速度。
減少記憶體使用
更高的準確性
支援並行、分散式和 GPU 學習
能夠處理海量資料

它可以執行監督分類以及迴歸問題。要了解有關此出色框架的更多資訊，請訪問其官方文件或 GitHub。

XGBoost

XGBoost 是另一個廣泛使用的分散式梯度提升工具包，其目標是可移植性、適應性和效能。它允許在梯度提升框架內使用機器學習技術。XGBoost 以梯度提升決策樹 (GBDT) 的形式提供了一種並行樹提升技術，可以快速準確地解決各種資料科學問題。相同的程式碼可以在主要分散式環境（Hadoop、SGE、MPI）中解決無限數量的問題。

近年來，XGBoost 幫助個人和團隊贏得幾乎所有 Kaggle 結構化資料競賽的事實，促使其迅速普及。

Python 中的其他機器學習庫包括CatBoost、Statsmodels和RAPIDS. AI cuDF 和 cuML、Optuna等。

用於深度學習的 Python 庫

TensorFlow

TensorFlow 由 Google 的 Brain 團隊建立，是一個流行的開源高效能數值計算工具包，對於深度學習研究至關重要。

如專案網站所述，TensorFlow 是一個開源的綜合機器學習框架。它為機器學習領域的工作人員提供了各種形式的資源，如工具、框架和社群。

PyTorch

PyTorch 是一個機器學習框架，它加速了從研究原型到生產部署的過渡。它是一個旨在用於 GPU 和 CPU 上的深度學習的張量庫，被認為是 TensorFlow 的替代品。PyTorch 的受歡迎程度已經擴充套件到在 Google 趨勢中超過 TensorFlow 的程度。

它由 Facebook 建立和維護，目前在 BSD 許可下獲得許可。

Keras

Keras 是一個為人類而不是機器人設計的深度學習應用程式程式設計介面。Keras 以使用者體驗為中心構建，提供統一且簡單的 API，減少典型用例所需的點選次數，並提供清晰且響應式的錯誤訊號。由於 Keras 易於使用，因此 TensorFlow 的 TF 2.0 版本使其成為預設 API。

Keras 提供了一種更簡單的方法來表達神經網路，以及一些構建模型、資料集處理、圖形視覺化和其他任務的最佳工具。

Python 中的其他深度學習庫包括FastAI、PyTorch Lightning等。

用於自然語言處理的 Python 庫

NLTK
spaCy
Gensim
Hugging Face Transformers

結論

透過閱讀本文，我們瞭解了一些資料科學家中最知名的 Python 庫。

Vikram Chiluka

更新於： 2023年1月2日

203 次瀏覽

開啟你的職業生涯

透過完成課程獲得認證

開始學習