- spaCy 教程
- spaCy - 主頁
- spaCy - 簡介
- spaCy - 入門
- spaCy - 模型和語言
- spaCy - 架構
- spaCy - 命令列幫助
- spaCy - 頂級函式
- spaCy - 視覺化功能
- spaCy - 實用程式函式
- spaCy - 相容性函式
- spaCy - 容器
- Doc 類上下文管理器和屬性
- spaCy - 容器 Token 類
- spaCy - Token 屬性
- spaCy - 容器 Span 類
- spaCy - Span 類屬性
- spaCy - 容器 Lexeme 類
- 訓練神經網路模型
- 更新神經網路模型
- spaCy 有用資源
- spaCy - 快速指南
- spaCy - 有用資源
- spaCy - 討論
spaCy - Retokenizer.split 方法
此 retokenizer 方法將標記一個用於分割為指定 orth 的 token。
引數
下表解釋了其引數 −
| 名稱 | 型別 | 說明 |
|---|---|---|
| Token | Token | 表示要分割的 token。 |
| Orths | 列表 | 表示分割 token 的直接文字。條件是它必須與原始 token 的文字匹配。 |
| Heads | 列表 | 指定要將新分割的子 token 附加到的 token 或元組的列表。 |
| Attrs | 字典 | 這些是在所有分割 token 上設定的屬性。要求屬性名稱必須對映到每個 token 的屬性值列表。 |
示例
Retokenizer.split 方法的示例如下 −
import spacy
nlp_model = spacy.load("en_core_web_sm")
doc = nlp_model("I like the Tutorialspoint.com")
with doc.retokenize() as retokenizer:
heads = [(doc[3], 1), doc[2]]
attrs = {"POS": ["PROPN", "PROPN"],
"DEP": ["pobj", "compound"]}
retokenizer.split(doc[3], ["Tutorials", "point.com"], heads=heads, attrs=attrs)
doc
輸出
您將收到以下輸出 −
I like the Tutorialspoint.com
spacy_doc_class_contextmanager_and_property.htm
廣告