- spaCy 教程
- spaCy - 首頁
- spaCy - 簡介
- spaCy - 入門
- spaCy - 模型和語言
- spaCy - 架構
- spaCy - 命令列助手
- spaCy - 頂級函式
- spaCy - 視覺化函式
- spaCy - 實用函式
- spaCy - 相容性函式
- spaCy - 容器
- Doc 類上下文管理器和屬性
- spaCy - 容器 Token 類
- spaCy - Token 屬性
- spaCy - 容器 Span 類
- spaCy - Span 類屬性
- spaCy - 容器 Lexeme 類
- 訓練神經網路模型
- 更新神經網路模型
- spaCy 有用資源
- spaCy - 快速指南
- spaCy - 有用資源
- spaCy - 討論
spaCy - 容器 Span 類
本章將幫助您理解 spaCy 中的 Span 類。
Span 類
它是從上面討論過的Doc物件中切片。
屬性
下表解釋了它的引數:
| 名稱 | 型別 | 描述 |
|---|---|---|
| doc | Doc | 它代表父文件。 |
| tensor V2.1.7 | Ndarray | 在 2.1.7 版本中引入,代表 span 在父Doc張量中的切片。 |
| sent | Span | 它實際上是此 span 所屬的句子 span。 |
| start | Int | 此屬性是 span 起始的標記偏移量。 |
| end | Int | 此屬性是 span 結束的標記偏移量。 |
| start_char | Int | 表示 span 起始字元偏移量的整數型別屬性。 |
| end_char | Int | 表示 span 結束字元偏移量的整數型別屬性。 |
| text | Unicode | 它是一個 Unicode 字串,表示 span 文字。 |
| text_with_ws | Unicode | 它表示 span 的文字內容,如果最後一個標記有尾隨空格字元,則包含尾隨空格字元。 |
| orth | Int | 此屬性是逐字文字內容的 ID。 |
| orth_ | Unicode | 它是 Unicode 逐字文字內容,與Token.text相同。此文字內容主要為了與其他屬性保持一致。 |
| label | Int | 此整數屬性是 span 標籤的雜湊值。 |
| label_ | Unicode | 它是 span 的標籤。 |
| lemma_ | Unicode | 它是 span 的詞形。 |
| kb_id | Int | 它表示 span 引用的知識庫 ID 的雜湊值。 |
| kb_id_ | Unicode | 它表示 span 引用的知識庫 ID。 |
| ent_id | Int | 此屬性表示標記所屬命名實體的雜湊值。 |
| ent_id_ | Unicode | 此屬性表示標記所屬命名實體的字串 ID。 |
| sentiment | Float | 一個浮點型別的標量值,表示 span 的積極性或消極性。 |
| _ | 下劃線 | 它代表使用者空間,用於新增自定義屬性擴充套件。 |
方法
以下是 Span 類中使用的方法:
| 序號 | 方法及描述 |
|---|---|
| 1 | Span._ _init_ _ 從切片 doc[start : end] 構造 Span 物件。 |
| 2 | Span._ _getitem_ _ 獲取特定位置(例如 n,其中 n 是整數)處的標記物件。 |
| 3 | Span._ _iter_ _ 迭代那些可以輕鬆訪問其註釋的標記物件。 |
| 4 | Span._ _len_ _ 獲取 span 中標記的數量。 |
| 5 | Span.similarity 進行語義相似性估計。 |
| 6 | Span.merge 重新標記文件,使 span 合併成單個標記。 |
類方法
以下是 Span 類中使用的類方法:
| 序號 | 類方法及描述 |
|---|---|
| 1 | Span.set_extension 它在 Span 上定義自定義屬性。 |
| 2 | Span.get_extension 按名稱查詢先前擴充套件。 |
| 3 | Span.has_extension 檢查是否已在 Span 類上註冊擴充套件。 |
| 4 | Span.remove_extension 刪除先前在 Span 類上註冊的擴充套件。 |
廣告