spaCy - Retokenizer.split 方法



此 retokenizer 方法將標記一個用於分割為指定 orth 的 token。

引數

下表解釋了其引數 −

名稱 型別 說明
Token Token 表示要分割的 token。
Orths 列表 表示分割 token 的直接文字。條件是它必須與原始 token 的文字匹配。
Heads 列表 指定要將新分割的子 token 附加到的 token 或元組的列表。
Attrs 字典 這些是在所有分割 token 上設定的屬性。要求屬性名稱必須對映到每個 token 的屬性值列表。

示例

Retokenizer.split 方法的示例如下 −

import spacy
nlp_model = spacy.load("en_core_web_sm")
doc = nlp_model("I like the Tutorialspoint.com")
with doc.retokenize() as retokenizer:
   heads = [(doc[3], 1), doc[2]]
   attrs = {"POS": ["PROPN", "PROPN"],
      "DEP": ["pobj", "compound"]}
   retokenizer.split(doc[3], ["Tutorials", "point.com"], heads=heads, attrs=attrs)
doc

輸出

您將收到以下輸出 −

I like the Tutorialspoint.com
spacy_doc_class_contextmanager_and_property.htm
廣告
© . All rights reserved.