spaCy - 容器 Token 類



本章將幫助讀者理解 spaCy 中的 Token 類。

Token 類

如前所述,Token 類代表單個標記,例如單詞、標點符號、空格、符號等。

屬性

下表解釋了它的屬性:

名稱 型別 描述
Doc Doc 它代表父文件。
sent Span 在 2.0.12 版本中引入,代表此 token 所屬的句子範圍。
Text unicode 它是 Unicode 原文文字內容。
text_with_ws unicode 它代表文字內容,包含尾隨空格字元(如果存在)。
whitespace_ unicode 顧名思義,它是尾隨空格字元(如果存在)。
Orth int 它是 Unicode 原文文字內容的 ID。
orth_ unicode 它是與 Token.text 完全相同的 Unicode 原文文字內容。此文字內容主要為了與其他屬性保持一致。
Vocab Vocab 此屬性代表父 Doc 的 vocab 物件。
tensor ndarray 在 2.1.7 版本中引入,代表 token 在父 Doc 張量中的切片。
Head Token 它是此 token 的句法父節點。
left_edge Token 顧名思義,它是此 token 的句法後代中最左邊的 token。
right_edge Token 顧名思義,它是此 token 的句法後代中最右邊的 token。
I Int 整數型別屬性,表示 token 在父文件中的索引。
ent_type int 它是命名實體型別。
ent_type_ unicode 它是命名實體型別。
ent_iob int 它是命名實體標記的 IOB 程式碼。這裡,3 = token 開始一個實體,2 = 它在實體之外,1 = 它在實體內部,0 = 沒有設定實體標記。
ent_iob_ unicode 它是命名實體標記的 IOB 程式碼。“B”= token 開始一個實體,“I”= 它在實體內部,“O”= 它在實體之外,"" = 沒有設定實體標記。
ent_kb_id int 在 2.2 版本中引入,代表知識庫 ID,它指向此 token 所屬的命名實體。
ent_kb_id_ unicode 在 2.2 版本中引入,代表知識庫 ID,它指向此 token 所屬的命名實體。
ent_id int 它是 token 是其例項的實體的 ID(如果有)。此屬性目前未使用,但可能用於共指消解。
ent_id_ unicode 它是 token 是其例項的實體的 ID(如果有)。此屬性目前未使用,但可能用於共指消解。
Lemma int Lemma 是 token 的基本形式,沒有詞尾字尾。
lemma_ unicode 它是 token 的基本形式,沒有詞尾字尾。
Norm int 此屬性代表 token 的規範形式。
norm_ unicode 此屬性代表 token 的規範形式。
Lower int 顧名思義,它是 token 的小寫形式。
lower_ unicode 它也是 token 文字的小寫形式,等效於 Token.text.lower()。
Shape int 為了顯示正字法特徵,此屬性用於轉換 token 的字串。
shape_ unicode 為了顯示正字法特徵,此屬性用於轉換 token 的字串。
Prefix int 它是從 token 開始處長度為 N 的子字串的雜湊值。預設值為 N=1。
prefix_ unicode 它是從 token 開始處長度為 N 的子字串。預設值為 N=1。
Suffix int 它是從 token 末尾處長度為 N 的子字串的雜湊值。預設值為 N=3。
suffix_ unicode 它是從 token 末尾處長度為 N 的子字串。預設值為 N=3。
is_alpha bool 此屬性表示 token 是否由字母字元組成?它等效於 token.text.isalpha()。
is_ascii bool 此屬性表示 token 是否由 ASCII 字元組成?它等效於 all(ord(c) < 128 for c in token.text)。
is_digit Bool 此屬性表示 token 是否由數字組成?它等效於 token.text.isdigit()。
is_lower Bool 此屬性表示 token 是否是小寫?它等效於 token.text.islower()。
is_upper Bool 此屬性表示 token 是否是大寫?它等效於 token.text.isupper()。
is_title bool 此屬性表示 token 是否是標題大小寫?它等效於 token.text.istitle()。
is_punct bool 此屬性表示 token 是否是標點符號?
is_left_punct bool 此屬性表示 token 是否是左標點符號,例如 '('?
is_right_punct bool 此屬性表示 token 是否是右標點符號,例如 ')'?
is_space bool 此屬性表示 token 是否由空格字元組成?它等效於 token.text.isspace()。
is_bracket bool 此屬性表示 token 是否是括號?
is_quote bool 此屬性表示 token 是否是引號?
is_currency bool 在 2.0.8 版本中引入,此屬性表示 token 是否是貨幣符號?
like_url bool 此屬性表示 token 是否類似於 URL?
like_num bool 此屬性表示 token 是否代表一個數字?
like_email bool 此屬性表示 token 是否類似於電子郵件地址?
is_oov bool 此屬性表示 token 是否有詞向量?
is_stop bool 此屬性表示 token 是否是“停用詞列表”的一部分?
Pos int 它代表來自通用 POS 標記集的粗粒度詞性。
pos_ unicode 它代表來自通用 POS 標記集的粗粒度詞性。
Tag int 它代表細粒度的詞性。
tag_ unicode 它代表細粒度的詞性。
Dep int 此屬性代表句法依存關係。
dep_ unicode 此屬性代表句法依存關係。
Lang Int 此屬性代表父文件詞彙的語言。
lang_ unicode 此屬性代表父文件詞彙的語言。
Prob float 它是 token 詞型別的平滑對數機率估計。
Idx int 它是 token 在父文件中的字元偏移量。
Sentiment float 它代表一個標量值,指示 token 的積極性或消極性。
lex_id int 它代表 token 詞法型別的順序 ID,用於索引到表格中。
Rank int 它代表 token 詞法型別的順序 ID,用於索引到表格中。
Cluster int 它是 Brown 聚類 ID。
_ Underscore 它代表使用者空間,用於新增自定義屬性擴充套件。

方法

以下是 Token 類中使用的方法:

序號 方法和描述
1 Token._ _init_ _

它用於構造 Token 物件。

2 Token.similarity

它用於計算語義相似性估計。

3 Token.check_flag

它用於檢查布林標誌的值。

4 Token._ _len_ _

它用於計算 token 中 Unicode 字元的數量。

類方法

以下是 Token 類中使用的類方法:

序號 類方法和描述
1 Token.set_extension

它在 Token 上定義一個自定義屬性。

2 Token.get_extension

它將按名稱查詢先前擴充套件。

3 Token.has_extension

它將檢查是否已在 Token 類上註冊擴充套件。

4 Token.remove_extension

它將刪除先前在 Token 類上註冊的擴充套件。

廣告