使用 Python 中的 NLTK 對文字進行標記

給定一個字元序列和一個定義的文件單元，標記化是將它切分成片段的任務，稱為標記，也許同時丟棄某些字元，例如標點符號。在 nltk 和 python 的背景下，它只是將每個標記放入列表中的過程，以便我們可以對一個時刻進行一個標記的迭代，而不是對每個字母進行迭代。

例如，給定輸入字串 −

Hi man, how have you been?

我們應該得到輸出 −

['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']

我們可以使用 NLTK 中的 word_tokenize 方法標記化此文字。例如：

示例

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

my_sent = "Hi man, how have you been?"
tokens = word_tokenize(my_sent)

print(tokens)

輸出

這將輸出 −

['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']

karthikeya Boyini

更新於: 20-6 月 -2020

749 次瀏覽

開啟你的職業生涯

獲得認證，完成課程

開始