- Python 資料科學教程
- Python 資料科學 - 首頁
- Python 資料科學 - 入門
- Python 資料科學 - 環境搭建
- Python 資料科學 - Pandas
- Python 資料科學 - Numpy
- Python 資料科學 - SciPy
- Python 資料科學 - Matplotlib
- Python 資料處理
- Python 資料操作
- Python 資料清洗
- Python 處理 CSV 資料
- Python 處理 JSON 資料
- Python 處理 XLS 資料
- Python 關係型資料庫
- Python NoSQL 資料庫
- Python 日期和時間
- Python 資料整理
- Python 資料聚合
- Python 讀取 HTML 頁面
- Python 處理非結構化資料
- Python 詞語標記化
- Python 詞幹提取和詞形還原
- Python 資料視覺化
- Python 圖表屬性
- Python 圖表樣式
- Python 箱線圖
- Python 熱力圖
- Python 散點圖
- Python 氣泡圖
- Python 3D 圖表
- Python 時間序列
- Python 地理資料
- Python 圖資料
Python 資料科學 - 環境搭建
為了成功建立和執行本教程中的示例程式碼,我們需要設定一個環境,該環境將包含通用 Python 以及資料科學所需的特有包。我們將首先了解如何安裝通用 Python,它可以是 Python 2 或 Python 3。但本教程將優先使用 Python 2,主要是因為其成熟度和更廣泛的外部包支援。
獲取 Python
最新的原始碼、二進位制檔案、文件、新聞等都可以在 Python 官方網站上找到 https://python.club.tw/
您可以從 https://python.club.tw/doc/ 下載 Python 文件。文件提供 HTML、PDF 和 PostScript 格式。
安裝 Python
Python 發行版適用於各種平臺。您只需要下載適用於您平臺的二進位制程式碼並安裝 Python。
如果您的平臺沒有提供二進位制程式碼,則需要 C 編譯器手動編譯原始碼。編譯原始碼在您所需的安裝功能選擇方面提供了更大的靈活性。
以下是各種平臺上安裝 Python 的快速概述:
Unix 和 Linux 安裝
以下是您在 Unix/Linux 機器上安裝 Python 的簡單步驟。
開啟 Web 瀏覽器並訪問 https://python.club.tw/downloads/。
點選連結下載適用於 Unix/Linux 的壓縮原始碼。
下載並解壓檔案。
如果您想自定義一些選項,請編輯Modules/Setup 檔案。
執行 ./configure 指令碼
make
make install
這會將 Python 安裝到標準位置/usr/local/bin,並將庫安裝到/usr/local/lib/pythonXX,其中 XX 是 Python 的版本。
Windows 安裝
以下是您在 Windows 機器上安裝 Python 的步驟。
開啟 Web 瀏覽器並訪問 https://python.club.tw/downloads/。
點選連結獲取 Windows 安裝程式python-XYZ.msi 檔案,其中 XYZ 是您需要安裝的版本。
要使用此安裝程式python-XYZ.msi,Windows 系統必須支援 Microsoft Installer 2.0。將安裝程式檔案儲存到您的本地計算機,然後執行它以瞭解您的計算機是否支援 MSI。
執行下載的檔案。這將啟動 Python 安裝嚮導,使用起來非常簡單。只需接受預設設定,等待安裝完成即可。
Macintosh 安裝
最近的 Mac 都預裝了 Python,但版本可能已經過時幾年。請參閱 https://python.club.tw/download/mac/,瞭解有關獲取最新版本以及支援在 Mac 上進行開發的其他工具的說明。對於 Mac OS X 10.3(2003 年釋出)之前的舊版 Mac OS,可以使用 MacPython。
Jack Jansen 維護著它,您可以在他的網站上完整訪問所有文件:http://www.cwi.nl/~jack/macpython.html。您可以在其中找到 Mac OS 安裝的完整安裝細節。
設定 PATH
程式和其他可執行檔案可能位於許多目錄中,因此作業系統提供了一個搜尋路徑,其中列出了作業系統搜尋可執行檔案的目錄。
路徑儲存在環境變數中,環境變數是作業系統維護的命名字串。此變數包含可供命令 shell 和其他程式使用的資訊。
路徑變數在 Unix 中名為 PATH,在 Windows 中名為 Path(Unix 區分大小寫;Windows 不區分大小寫)。
在 Mac OS 中,安裝程式處理路徑細節。要從任何特定目錄呼叫 Python 直譯器,您必須將 Python 目錄新增到您的路徑中。
在 Unix/Linux 上設定路徑
要在 Unix 中為特定會話將 Python 目錄新增到路徑中,請執行以下操作:
在 csh shell 中 - 輸入 setenv PATH "$PATH:/usr/local/bin/python" 並按 Enter 鍵。
在 bash shell(Linux)中 - 輸入 export ATH="$PATH:/usr/local/bin/python" 並按 Enter 鍵。
在 sh 或 ksh shell 中 - 輸入 PATH="$PATH:/usr/local/bin/python" 並按 Enter 鍵。
注意 - /usr/local/bin/python 是 Python 目錄的路徑
在 Windows 上設定路徑
要在 Windows 中為特定會話將 Python 目錄新增到路徑中,請執行以下操作:
在命令提示符下 - 輸入 path %path%;C:\Python 並按 Enter 鍵。
注意 - C:\Python 是 Python 目錄的路徑
Python 環境變數
以下是一些 Python 可以識別的重要環境變數:
| 序號 | 變數和描述 |
|---|---|
| 1 | PYTHONPATH 它與 PATH 的作用類似。此變數告訴 Python 直譯器在哪裡查詢匯入到程式中的模組檔案。它應包含 Python 源庫目錄和包含 Python 原始碼的目錄。PYTHONPATH 有時由 Python 安裝程式預設。 |
| 2 | PYTHONSTARTUP 它包含一個初始化檔案的路徑,該檔案包含 Python 原始碼。每次啟動直譯器時都會執行它。在 Unix 中它名為 .pythonrc.py,其中包含載入實用程式或修改 PYTHONPATH 的命令。 |
| 3 | PYTHONCASEOK 它用於 Windows,指示 Python 在 import 語句中查詢第一個不區分大小寫的匹配項。將此變數設定為任何值以啟用它。 |
| 4 | PYTHONHOME 它是一個備用模組搜尋路徑。它通常嵌入在 PYTHONSTARTUP 或 PYTHONPATH 目錄中,以便輕鬆切換模組庫。 |
執行 Python
有三種不同的方法可以啟動 Python:
互動式直譯器
您可以從 Unix、DOS 或任何其他提供命令列直譯器或 shell 視窗的系統啟動 Python。
在命令列中輸入python。
立即在互動式直譯器中開始編碼。
$python # Unix/Linux or python% # Unix/Linux or C:> python # Windows/DOS
以下是所有可用命令列選項的列表:
| 序號 | 選項和描述 |
|---|---|
| 1 | -d 提供除錯輸出。 |
| 2 | -O 生成最佳化的位元組碼(生成 .pyo 檔案)。 |
| 3 | -S 在啟動時不要執行 import site 以查詢 Python 路徑。 |
| 4 | -v 詳細輸出(import 語句的詳細跟蹤)。 |
| 5 | -X 停用基於類的內建異常(僅使用字串);從版本 1.6 開始已過時。 |
| 6 | -c cmd 執行作為 cmd 字串傳送的 Python 指令碼 |
| 7 | file 從給定檔案執行 Python 指令碼 |
從命令列執行指令碼
可以透過在應用程式上呼叫直譯器來在命令列執行 Python 指令碼,如下所示:
$python script.py # Unix/Linux or python% script.py # Unix/Linux or C: >python script.py # Windows/DOS
注意 - 確保檔案許可權模式允許執行。
整合開發環境
如果您在系統上安裝了支援 Python 的圖形使用者介面 (GUI) 應用程式,則也可以從 GUI 環境執行 Python。
Unix - IDLE 是第一個用於 Python 的 Unix IDE。
Windows - PythonWin 是第一個用於 Python 的 Windows 介面,它是一個帶 GUI 的 IDE。
Macintosh - Macintosh 版的 Python 以及 IDLE IDE 可從主網站下載,可下載為 MacBinary 或 BinHex'd 檔案。
安裝 SciPy 包
啟用所需包的最佳方法是使用特定於您的作業系統的可安裝二進位制包。這些二進位制檔案包含完整的 SciPy 堆疊(包括 NumPy、SciPy、matplotlib、IPython、SymPy 和 nose 包以及核心 Python)。
Windows
Anaconda(來自 www.continuum.io)是用於 SciPy 堆疊的免費 Python 發行版。它也適用於 Linux 和 Mac。
Canopy(www.enthought.com/products/canopy/)提供免費和商業發行版,其中包含適用於 Windows、Linux 和 Mac 的完整 SciPy 堆疊。
Python (x,y):它是一個免費的 Python 發行版,帶有 SciPy 堆疊和適用於 Windows 作業系統的 Spyder IDE。(可從 www.python-xy.github.io/ 下載)
Linux
各個 Linux 發行版的包管理器用於安裝 SciPy 堆疊中的一個或多個包。
對於 Ubuntu
sudo apt-get install python-numpy python-scipy python-matplotlibipythonipythonnotebook python-pandas python-sympy python-nose
對於 Fedora
sudo yum install numpyscipy python-matplotlibipython python-pandas sympy python-nose atlas-devel
從原始碼構建
必須安裝核心 Python(2.6.x、2.7.x 和 3.2.x 及更高版本),並且必須啟用 distutils 和 zlib 模組。
必須可以使用 GNU gcc(4.2 及更高版本)C 編譯器。
要安裝 NumPy,請執行以下命令。
Python setup.py install
讓我們測試 NumPy 模組是否已正確安裝,嘗試從 Python 提示符匯入它。
如果未安裝,將顯示以下錯誤訊息。
Traceback (most recent call last):
File "<pyshell#0>", line 1, in <module>
import numpy
ImportError: No module named 'numpy'
類似地,我們可以檢查後面章節中顯示的所有必需的資料科學包的安裝情況。