使用 Python 中的 NLTK 對文字進行標記
給定一個字元序列和一個定義的文件單元,標記化是將它切分成片段的任務,稱為標記,也許同時丟棄某些字元,例如標點符號。在 nltk 和 python 的背景下,它只是將每個標記放入列表中的過程,以便我們可以對一個時刻進行一個標記的迭代,而不是對每個字母進行迭代。
例如,給定輸入字串 −
Hi man, how have you been?
我們應該得到輸出 −
['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']
我們可以使用 NLTK 中的 word_tokenize 方法標記化此文字。例如:
示例
from nltk.corpus import stopwords from nltk.tokenize import word_tokenize my_sent = "Hi man, how have you been?" tokens = word_tokenize(my_sent) print(tokens)
輸出
這將輸出 −
['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']
廣告
資料結構
網路
關係型資料庫管理系統
作業系統
Java
iOS
HTML
CSS
Android
Python
C 程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP