
- Python - 文字處理
- Python - 文字處理簡介
- Python - 文字處理環境
- Python - 字串不可變性
- Python - 排序行
- Python - 重新格式化段落
- Python - 統計段落中的標記
- Python - 二進位制 ASCII 轉換
- Python - 字串作為檔案
- Python - 向後檔案讀取
- Python - 過濾重複的單詞
- Python - 從文字中提取電子郵件
- Python - 從文字中提取 URL
- Python - 美化列印
- Python - 文字處理狀態機
- Python - 大寫和翻譯
- Python - 分詞
- Python - 去除停用詞
- Python - 同義詞和反義詞
- Python - 文字翻譯
- Python - 單詞替換
- Python - 拼寫檢查
- Python - WordNet 介面
- Python - 語料庫訪問
- Python - 詞彙標記
- Python - 塊和缺塊
- Python - 塊分類
- Python - 文字分類
- Python - 二元組
- Python - 處理 PDF
- Python - 處理 Word 文件
- Python - 讀取 RSS 提要
- Python - 情感分析
- Python - 搜尋和匹配
- Python - 文字整理
- Python - 文字換行
- Python - 頻率分佈
- Python - 文字摘要
- Python - 詞幹演算法
- Python - 受限搜尋
Python - 文字整理
整理一般是指透過轉換清理任何雜亂的內容。在我們的案例中,我們將看到如何轉換文字以獲得一些結果,這些結果為我們的資料提供了一些所需的更改。在簡單的層面上,它只涉及轉換我們正在處理的文字。
示例
在下面的示例中,我們計劃對一個句子中的所有字母(第一個和最後一個字母除外)進行隨機排列,然後重新排列,以獲得可能產生的備選單詞,這些單詞可能會在人類書寫時出現拼寫錯誤。這種重新排列有助於我們
import random import re def replace(t): inner_word = list(t.group(2)) random.shuffle(inner_word) return t.group(1) + "".join(inner_word) + t.group(3) text = "Hello, You should reach the finish line." print re.sub(r"(\w)(\w+)(\w)", replace, text) print re.sub(r"(\w)(\w+)(\w)", replace, text)
當我們執行上述程式時,將獲得以下輸出 −
Hlleo, You slouhd raech the fsiinh lnie. Hlleo, You suolhd raceh the fniish line.
在這裡,您可以看到單詞是如何混亂的,除了第一個和最後一個字母之外。透過採用統計方法來處理錯誤拼寫,我們可以確定哪些是常見拼寫錯誤的單詞,併為它們提供正確的拼寫。
廣告