使用 Python 中的 NLTK 對文字進行標記
給定一個字元序列和一個定義明確的檔案單位,標記化任務就是將字元序列切成多個稱為標記的塊,同時可能丟棄掉某些字元,比如標點符號。在 NLTK 和 Python 語境中,標記化僅僅是將每個標記放入列表中,這樣我們就可以對標記進行迭代,而不必每次對單個字母進行迭代。
例如,給定輸入字串 −
Hi man, how have you been?
我們將獲得以下輸出 −
['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']
我們可使用 NLTK 中的 word_tokenize 方法對這段文字進行標記化。例如,
示例程式碼
from nltk.corpus import stopwords from nltk.tokenize import word_tokenize my_sent = "Hi man, how have you been?" tokens = word_tokenize(my_sent) print(tokens)
輸出內容
將輸出以下內容 −
['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']
廣告