使用 Python 中的 NLTK 對文字進行標記

給定一個字元序列和一個定義明確的檔案單位，標記化任務就是將字元序列切成多個稱為標記的塊，同時可能丟棄掉某些字元，比如標點符號。在 NLTK 和 Python 語境中，標記化僅僅是將每個標記放入列表中，這樣我們就可以對標記進行迭代，而不必每次對單個字母進行迭代。

例如，給定輸入字串 −

Hi man, how have you been?

我們將獲得以下輸出 −

['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']

我們可使用 NLTK 中的 word_tokenize 方法對這段文字進行標記化。例如，

示例程式碼

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

my_sent = "Hi man, how have you been?"
tokens = word_tokenize(my_sent)

print(tokens)

輸出內容

將輸出以下內容 −

['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']

karthikeya Boyini

更新時間：20-Jun-2020

749 次瀏覽

開啟您的職業生涯

透過完成本課程獲得認證

開始學習

使用 Python 中的 NLTK 對文字進行標記

示例程式碼

輸出內容

開啟您的 職業生涯

開啟您的職業生涯