- Python - 文字處理
- Python - 文字處理簡介
- Python - 文字處理環境
- Python - 字串不變性
- Python - 對行排序
- Python - 段落重新格式化
- Python - 統計段落中的標記
- Python - 二進位制ASCII轉換
- Python - 字串作為檔案
- Python - 反向檔案讀取
- Python - 過濾重複單詞
- Python - 從文字中提取電子郵件
- Python - 從文字中提取URL
- Python - 美觀列印
- Python - 文字處理狀態機
- Python - 首字母大寫和翻譯
- Python - 分詞
- Python - 刪除停用詞
- Python - 同義詞和反義詞
- Python - 文字翻譯
- Python - 替換單詞
- Python - 拼寫檢查
- Python - WordNet介面
- Python - 語料庫訪問
- Python - 詞性標註
- Python - 組塊和組塊間隙
- Python - 組塊分類
- Python - 文字分類
- Python - 二元語法
- Python - 處理PDF
- Python - 處理Word文件
- Python - 讀取RSS Feed
- Python - 情感分析
- Python - 搜尋和匹配
- Python - 文字處理
- Python - 文字換行
- Python - 頻率分佈
- Python - 文字摘要
- Python - 詞幹提取演算法
- Python - 受約束搜尋
Python - 文字處理環境
為了成功建立和執行本教程中的示例程式碼,我們需要設定一個環境,該環境將包含通用Python以及資料科學所需的特殊軟體包。我們將首先了解如何安裝通用Python,它可以是Python 2或Python 3。但是,在本教程中,我們更偏向於使用Python 2,主要是因為其成熟度和更廣泛的外部軟體包支援。
獲取Python
最新的原始碼、二進位制檔案、文件、新聞等都可以在Python的官方網站上找到 https://python.club.tw/
您可以從 https://python.club.tw/doc/ 下載Python文件。該文件提供HTML、PDF和PostScript格式。
安裝Python
Python發行版適用於各種平臺。您只需下載適用於您平臺的二進位制程式碼並安裝Python即可。
如果您的平臺沒有提供二進位制程式碼,則需要一個C編譯器來手動編譯原始碼。編譯原始碼在您所需的安裝功能選擇方面提供了更大的靈活性。
以下是關於在各種平臺上安裝Python的快速概述:
Unix和Linux安裝
以下是關於在Unix/Linux機器上安裝Python的簡單步驟。
開啟Web瀏覽器並訪問 https://python.club.tw/downloads/。
點選連結下載適用於Unix/Linux的壓縮原始碼。
下載並解壓縮檔案。
如果您想自定義某些選項,請編輯Modules/Setup檔案。
執行./configure指令碼
make
make install
這會將Python安裝到標準位置/usr/local/bin,並將它的庫安裝到/usr/local/lib/pythonXX,其中XX是Python的版本。
Windows安裝
以下是關於在Windows機器上安裝Python的步驟。
開啟Web瀏覽器並訪問 https://python.club.tw/downloads/。
點選連結下載Windows安裝程式python-XYZ.msi檔案,其中XYZ是您需要安裝的版本。
要使用此安裝程式python-XYZ.msi,Windows系統必須支援Microsoft Installer 2.0。將安裝程式檔案儲存到您的本地計算機,然後執行它以檢視您的計算機是否支援MSI。
執行下載的檔案。這將開啟Python安裝嚮導,非常易於使用。只需接受預設設定,等待安裝完成,即可。
Macintosh安裝
最近的Mac都預裝了Python,但它可能已經過時了幾年。請檢視 https://python.club.tw/download/mac/,瞭解如何獲取最新版本以及支援在Mac上進行開發的其他工具的說明。對於Mac OS X 10.3(2003年釋出)之前的舊版Mac OS,可以使用MacPython。
Jack Jansen維護著它,您可以在他的網站上完全訪問所有文件:http://www.cwi.nl/~jack/macpython.html。您可以在其中找到Mac OS安裝的完整安裝細節。
設定PATH
程式和其他可執行檔案可能位於許多目錄中,因此作業系統提供了一個搜尋路徑,該路徑列出了作業系統搜尋可執行檔案的目錄。
路徑儲存在環境變數中,環境變數是作業系統維護的命名字串。此變數包含命令外殼和其他程式可用的資訊。
路徑變數在Unix中命名為PATH,在Windows中命名為Path(Unix區分大小寫;Windows不區分大小寫)。
在Mac OS中,安裝程式處理路徑細節。要從任何特定目錄呼叫Python直譯器,必須將Python目錄新增到您的路徑中。
在Unix/Linux上設定路徑
要在Unix中為特定會話將Python目錄新增到路徑中,請執行以下操作:
在csh shell中 - 輸入 setenv PATH "$PATH:/usr/local/bin/python" 並按Enter鍵。
在bash shell(Linux)中 - 輸入 export ATH="$PATH:/usr/local/bin/python" 並按Enter鍵。
在sh或ksh shell中 - 輸入 PATH="$PATH:/usr/local/bin/python" 並按Enter鍵。
注意 - /usr/local/bin/python是Python目錄的路徑
在Windows上設定路徑
要在Windows中為特定會話將Python目錄新增到路徑中,請執行以下操作:
在命令提示符下 - 輸入 path %path%;C:\Python 並按Enter鍵。
注意 - C:\Python是Python目錄的路徑
Python環境變數
以下是一些Python可以識別的重要環境變數:
| 序號 | 變數和描述 |
|---|---|
| 1 | PYTHONPATH 它具有與PATH類似的作用。此變數告訴Python直譯器在哪裡查詢匯入到程式中的模組檔案。它應包含Python源庫目錄和包含Python原始碼的目錄。PYTHONPATH有時由Python安裝程式預設。 |
| 2 | PYTHONSTARTUP 它包含一個初始化檔案的路徑,該檔案包含Python原始碼。每次啟動直譯器時都會執行它。它在Unix中命名為.pythonrc.py,並且包含載入實用程式或修改PYTHONPATH的命令。 |
| 3 | PYTHONCASEOK 它在Windows中用於指示Python在import語句中查詢第一個不區分大小寫的匹配項。將此變數設定為任何值以啟用它。 |
| 4 | PYTHONHOME 它是一個備用的模組搜尋路徑。它通常嵌入在PYTHONSTARTUP或PYTHONPATH目錄中,以方便切換模組庫。 |
執行Python
有三種不同的方法可以啟動Python:
互動式直譯器
您可以從Unix、DOS或任何其他提供命令列直譯器或shell視窗的系統啟動Python。
在命令列中輸入python。
在互動式直譯器中立即開始編碼。
$python # Unix/Linux or python% # Unix/Linux or C:> python # Windows/DOS
以下是所有可用命令列選項的列表:
| 序號 | 選項和描述 |
|---|---|
| 1 | -d 它提供除錯輸出。 |
| 2 | -O 它生成最佳化的位元組碼(生成.pyo檔案)。 |
| 3 | -S 在啟動時不要執行import site來查詢Python路徑。 |
| 4 | -v 詳細輸出(匯入語句的詳細跟蹤)。 |
| 5 | -X 停用基於類的內建異常(只使用字串);從版本1.6開始已過時。 |
| 6 | -c cmd 執行作為cmd字串傳送的Python指令碼 |
| 7 | 檔案 從給定檔案執行Python指令碼 |
來自命令列的指令碼
可以透過在您的應用程式上呼叫直譯器來在命令列執行Python指令碼,如下所示:
$python script.py # Unix/Linux or python% script.py # Unix/Linux or C: >python script.py # Windows/DOS
注意 - 確保檔案許可權模式允許執行。
整合開發環境
如果您在系統上擁有支援Python的GUI應用程式,則也可以從圖形使用者介面(GUI)環境執行Python。
Unix - IDLE是第一個用於Python的Unix IDE。
Windows - PythonWin是第一個用於Python的Windows介面,並且是一個帶有GUI的IDE。
Macintosh - Macintosh版本的Python以及IDLE IDE都可以在主網站上下載,可以下載為MacBinary或BinHex'd檔案。
安裝NLTK包
將NLTK整合到Python環境中非常簡單。使用以下命令將NLTK新增到環境中。
sudo pip install -U nltk
其他庫的新增將在每個章節中根據我們在Python程式中使用它們的需要進行討論。