
- spaCy 教程
- spaCy - 首頁
- spaCy - 簡介
- spaCy - 快速上手
- spaCy - 模型和語言
- spaCy - 架構
- spaCy - 命令列工具
- spaCy - 頂級函式
- spaCy - 視覺化函式
- spaCy - 實用函式
- spaCy - 相容性函式
- spaCy - 容器
- Doc 類上下文管理器和屬性
- spaCy - 容器 Token 類
- spaCy - Token 屬性
- spaCy - 容器 Span 類
- spaCy - Span 類屬性
- spaCy - 容器 Lexeme 類
- 訓練神經網路模型
- 更新神經網路模型
- spaCy 有用資源
- spaCy - 快速指南
- spaCy - 有用資源
- spaCy - 討論
spaCy - 容器 Token 類
本章將幫助讀者理解 spaCy 中的 Token 類。
Token 類
如前所述,Token 類代表單個標記,例如單詞、標點符號、空格、符號等。
屬性
下表解釋了它的屬性:
名稱 | 型別 | 描述 |
---|---|---|
Doc | Doc | 它代表父文件。 |
sent | Span | 在 2.0.12 版本中引入,代表此 token 所屬的句子範圍。 |
Text | unicode | 它是 Unicode 原文文字內容。 |
text_with_ws | unicode | 它代表文字內容,包含尾隨空格字元(如果存在)。 |
whitespace_ | unicode | 顧名思義,它是尾隨空格字元(如果存在)。 |
Orth | int | 它是 Unicode 原文文字內容的 ID。 |
orth_ | unicode | 它是與 Token.text 完全相同的 Unicode 原文文字內容。此文字內容主要為了與其他屬性保持一致。 |
Vocab | Vocab | 此屬性代表父 Doc 的 vocab 物件。 |
tensor | ndarray | 在 2.1.7 版本中引入,代表 token 在父 Doc 張量中的切片。 |
Head | Token | 它是此 token 的句法父節點。 |
left_edge | Token | 顧名思義,它是此 token 的句法後代中最左邊的 token。 |
right_edge | Token | 顧名思義,它是此 token 的句法後代中最右邊的 token。 |
I | Int | 整數型別屬性,表示 token 在父文件中的索引。 |
ent_type | int | 它是命名實體型別。 |
ent_type_ | unicode | 它是命名實體型別。 |
ent_iob | int | 它是命名實體標記的 IOB 程式碼。這裡,3 = token 開始一個實體,2 = 它在實體之外,1 = 它在實體內部,0 = 沒有設定實體標記。 |
ent_iob_ | unicode | 它是命名實體標記的 IOB 程式碼。“B”= token 開始一個實體,“I”= 它在實體內部,“O”= 它在實體之外,"" = 沒有設定實體標記。 |
ent_kb_id | int | 在 2.2 版本中引入,代表知識庫 ID,它指向此 token 所屬的命名實體。 |
ent_kb_id_ | unicode | 在 2.2 版本中引入,代表知識庫 ID,它指向此 token 所屬的命名實體。 |
ent_id | int | 它是 token 是其例項的實體的 ID(如果有)。此屬性目前未使用,但可能用於共指消解。 |
ent_id_ | unicode | 它是 token 是其例項的實體的 ID(如果有)。此屬性目前未使用,但可能用於共指消解。 |
Lemma | int | Lemma 是 token 的基本形式,沒有詞尾字尾。 |
lemma_ | unicode | 它是 token 的基本形式,沒有詞尾字尾。 |
Norm | int | 此屬性代表 token 的規範形式。 |
norm_ | unicode | 此屬性代表 token 的規範形式。 |
Lower | int | 顧名思義,它是 token 的小寫形式。 |
lower_ | unicode | 它也是 token 文字的小寫形式,等效於 Token.text.lower()。 |
Shape | int | 為了顯示正字法特徵,此屬性用於轉換 token 的字串。 |
shape_ | unicode | 為了顯示正字法特徵,此屬性用於轉換 token 的字串。 |
Prefix | int | 它是從 token 開始處長度為 N 的子字串的雜湊值。預設值為 N=1。 |
prefix_ | unicode | 它是從 token 開始處長度為 N 的子字串。預設值為 N=1。 |
Suffix | int | 它是從 token 末尾處長度為 N 的子字串的雜湊值。預設值為 N=3。 |
suffix_ | unicode | 它是從 token 末尾處長度為 N 的子字串。預設值為 N=3。 |
is_alpha | bool | 此屬性表示 token 是否由字母字元組成?它等效於 token.text.isalpha()。 |
is_ascii | bool | 此屬性表示 token 是否由 ASCII 字元組成?它等效於 all(ord(c) < 128 for c in token.text)。 |
is_digit | Bool | 此屬性表示 token 是否由數字組成?它等效於 token.text.isdigit()。 |
is_lower | Bool | 此屬性表示 token 是否是小寫?它等效於 token.text.islower()。 |
is_upper | Bool | 此屬性表示 token 是否是大寫?它等效於 token.text.isupper()。 |
is_title | bool | 此屬性表示 token 是否是標題大小寫?它等效於 token.text.istitle()。 |
is_punct | bool | 此屬性表示 token 是否是標點符號? |
is_left_punct | bool | 此屬性表示 token 是否是左標點符號,例如 '('? |
is_right_punct | bool | 此屬性表示 token 是否是右標點符號,例如 ')'? |
is_space | bool | 此屬性表示 token 是否由空格字元組成?它等效於 token.text.isspace()。 |
is_bracket | bool | 此屬性表示 token 是否是括號? |
is_quote | bool | 此屬性表示 token 是否是引號? |
is_currency | bool | 在 2.0.8 版本中引入,此屬性表示 token 是否是貨幣符號? |
like_url | bool | 此屬性表示 token 是否類似於 URL? |
like_num | bool | 此屬性表示 token 是否代表一個數字? |
like_email | bool | 此屬性表示 token 是否類似於電子郵件地址? |
is_oov | bool | 此屬性表示 token 是否有詞向量? |
is_stop | bool | 此屬性表示 token 是否是“停用詞列表”的一部分? |
Pos | int | 它代表來自通用 POS 標記集的粗粒度詞性。 |
pos_ | unicode | 它代表來自通用 POS 標記集的粗粒度詞性。 |
Tag | int | 它代表細粒度的詞性。 |
tag_ | unicode | 它代表細粒度的詞性。 |
Dep | int | 此屬性代表句法依存關係。 |
dep_ | unicode | 此屬性代表句法依存關係。 |
Lang | Int | 此屬性代表父文件詞彙的語言。 |
lang_ | unicode | 此屬性代表父文件詞彙的語言。 |
Prob | float | 它是 token 詞型別的平滑對數機率估計。 |
Idx | int | 它是 token 在父文件中的字元偏移量。 |
Sentiment | float | 它代表一個標量值,指示 token 的積極性或消極性。 |
lex_id | int | 它代表 token 詞法型別的順序 ID,用於索引到表格中。 |
Rank | int | 它代表 token 詞法型別的順序 ID,用於索引到表格中。 |
Cluster | int | 它是 Brown 聚類 ID。 |
_ | Underscore | 它代表使用者空間,用於新增自定義屬性擴充套件。 |
方法
以下是 Token 類中使用的方法:
序號 | 方法和描述 |
---|---|
1 | Token._ _init_ _ 它用於構造 Token 物件。 |
2 | Token.similarity 它用於計算語義相似性估計。 |
3 | Token.check_flag 它用於檢查布林標誌的值。 |
4 | Token._ _len_ _ 它用於計算 token 中 Unicode 字元的數量。 |
類方法
以下是 Token 類中使用的類方法:
序號 | 類方法和描述 |
---|---|
1 | Token.set_extension 它在 Token 上定義一個自定義屬性。 |
2 | Token.get_extension 它將按名稱查詢先前擴充套件。 |
3 | Token.has_extension 它將檢查是否已在 Token 類上註冊擴充套件。 |
4 | Token.remove_extension 它將刪除先前在 Token 類上註冊的擴充套件。 |
廣告