- Python - 文字處理
- Python - 文字處理簡介
- Python - 文字處理環境
- Python - 字串不可變性
- Python - 對行進行分類
- Python - 重新格式化段落
- Python - 統計段落中token的數量
- Python - 二進位制 ASCII 轉換
- Python - 字串作為檔案
- Python - 向後讀取檔案
- Python - 過濾重複的單詞
- Python - 從文字中提取電子郵件
- Python - 從文字中提取 URL
- Python - 漂亮列印
- Python - 文字處理狀態機
- Python - 大寫和翻譯
- Python - 標記化
- Python - 刪除停用詞
- Python - 同義詞和反義詞
- Python - 文字翻譯
- Python - 替換單詞
- Python - 拼寫檢查
- Python - WordNet 介面
- Python - 語料庫訪問
- Python - 單詞標記
- Python - 塊和褶皺
- Python - 塊分類
- Python - 文字分類
- Python - 雙字組詞
- Python - 處理 PDF
- Python - 處理 Word 文件
- Python - 讀取 RSS 源
- Python - 情感分析
- Python - 搜尋和匹配
- Python -文字整理
- Python - 文字換行
- Python - 頻率分佈
- Python - 文字摘要
- Python - 詞幹提取演算法
- Python - 受限搜尋
Python - 雙字組詞
某些英文單詞經常一起出現。例如,Sky High、do or die、best performance、heavy rain 等。因此,在文字檔案中,我們可能需要識別這樣的單詞對,這有助於進行情感分析。首先,我們需要從現有的句子中生成這樣的詞對,並保持它們當前的序列。這樣的詞對稱為雙字組詞。Python 有一個雙字組詞函式作為 NLTK 庫的一部分,它可以幫助我們生成這些詞對。
示例
import nltk word_data = "The best performance can bring in sky high success." nltk_tokens = nltk.word_tokenize(word_data) print(list(nltk.bigrams(nltk_tokens)))
當我們執行上述程式時,我們將獲得以下輸出 −
[('The', 'best'), ('best', 'performance'), ('performance', 'can'), ('can', 'bring'),
('bring', 'in'), ('in', 'sky'), ('sky', 'high'), ('high', 'success'), ('success', '.')]
該結果可用於對給定文字中此類詞對的頻率進行統計調查。這將與文字正文中描述的一般情緒相關。
廣告