spaCy - 容器 Span 類

本章將幫助您理解 spaCy 中的 Span 類。

Span 類

它是從上面討論過的Doc物件中切片。

下表解釋了它的引數：

名稱	型別	描述
doc	Doc	它代表父文件。
tensor V2.1.7	Ndarray	在 2.1.7 版本中引入，代表 span 在父Doc張量中的切片。
sent	Span	它實際上是此 span 所屬的句子 span。
start	Int	此屬性是 span 起始的標記偏移量。
end	Int	此屬性是 span 結束的標記偏移量。
start_char	Int	表示 span 起始字元偏移量的整數型別屬性。
end_char	Int	表示 span 結束字元偏移量的整數型別屬性。
text	Unicode	它是一個 Unicode 字串，表示 span 文字。
text_with_ws	Unicode	它表示 span 的文字內容，如果最後一個標記有尾隨空格字元，則包含尾隨空格字元。
orth	Int	此屬性是逐字文字內容的 ID。
orth_	Unicode	它是 Unicode 逐字文字內容，與Token.text相同。此文字內容主要為了與其他屬性保持一致。
label	Int	此整數屬性是 span 標籤的雜湊值。
label_	Unicode	它是 span 的標籤。
lemma_	Unicode	它是 span 的詞形。
kb_id	Int	它表示 span 引用的知識庫 ID 的雜湊值。
kb_id_	Unicode	它表示 span 引用的知識庫 ID。
ent_id	Int	此屬性表示標記所屬命名實體的雜湊值。
ent_id_	Unicode	此屬性表示標記所屬命名實體的字串 ID。
sentiment	Float	一個浮點型別的標量值，表示 span 的積極性或消極性。
_	下劃線	它代表使用者空間，用於新增自定義屬性擴充套件。

以下是 Span 類中使用的方法：

序號	方法及描述
1	Span._ _init_ _ 從切片 doc[start : end] 構造 Span 物件。
2	Span._ _getitem_ _ 獲取特定位置（例如 n，其中 n 是整數）處的標記物件。
3	Span._ _iter_ _ 迭代那些可以輕鬆訪問其註釋的標記物件。
4	Span._ _len_ _ 獲取 span 中標記的數量。
5	Span.similarity 進行語義相似性估計。
6	Span.merge 重新標記文件，使 span 合併成單個標記。

以下是 Span 類中使用的類方法：

序號	類方法及描述
1	Span.set_extension 它在 Span 上定義自定義屬性。
2	Span.get_extension 按名稱查詢先前擴充套件。
3	Span.has_extension 檢查是否已在 Span 類上註冊擴充套件。
4	Span.remove_extension 刪除先前在 Span 類上註冊的擴充套件。

列印頁面