spaCy - 容器 Span 類



本章將幫助您理解 spaCy 中的 Span 類。

Span 類

它是從上面討論過的Doc物件中切片。

屬性

下表解釋了它的引數:

名稱 型別 描述
doc Doc 它代表父文件。
tensor V2.1.7 Ndarray 在 2.1.7 版本中引入,代表 span 在父Doc張量中的切片。
sent Span 它實際上是此 span 所屬的句子 span。
start Int 此屬性是 span 起始的標記偏移量。
end Int 此屬性是 span 結束的標記偏移量。
start_char Int 表示 span 起始字元偏移量的整數型別屬性。
end_char Int 表示 span 結束字元偏移量的整數型別屬性。
text Unicode 它是一個 Unicode 字串,表示 span 文字。
text_with_ws Unicode 它表示 span 的文字內容,如果最後一個標記有尾隨空格字元,則包含尾隨空格字元。
orth Int 此屬性是逐字文字內容的 ID。
orth_ Unicode 它是 Unicode 逐字文字內容,與Token.text相同。此文字內容主要為了與其他屬性保持一致。
label Int 此整數屬性是 span 標籤的雜湊值。
label_ Unicode 它是 span 的標籤。
lemma_ Unicode 它是 span 的詞形。
kb_id Int 它表示 span 引用的知識庫 ID 的雜湊值。
kb_id_ Unicode 它表示 span 引用的知識庫 ID。
ent_id Int 此屬性表示標記所屬命名實體的雜湊值。
ent_id_ Unicode 此屬性表示標記所屬命名實體的字串 ID。
sentiment Float 一個浮點型別的標量值,表示 span 的積極性或消極性。
_ 下劃線 它代表使用者空間,用於新增自定義屬性擴充套件。

方法

以下是 Span 類中使用的方法:

序號 方法及描述
1 Span._ _init_ _

從切片 doc[start : end] 構造 Span 物件。

2 Span._ _getitem_ _

獲取特定位置(例如 n,其中 n 是整數)處的標記物件。

3 Span._ _iter_ _

迭代那些可以輕鬆訪問其註釋的標記物件。

4 Span._ _len_ _

獲取 span 中標記的數量。

5 Span.similarity

進行語義相似性估計。

6 Span.merge

重新標記文件,使 span 合併成單個標記。

類方法

以下是 Span 類中使用的類方法:

序號 類方法及描述
1 Span.set_extension

它在 Span 上定義自定義屬性。

2 Span.get_extension

按名稱查詢先前擴充套件。

3 Span.has_extension

檢查是否已在 Span 類上註冊擴充套件。

4 Span.remove_extension

刪除先前在 Span 類上註冊的擴充套件。

廣告
© . All rights reserved.