spaCy - Util.compile_suffix_regex

此實用程式函式將把一系列字尾規則編譯成正則表示式物件。

引數

下表解釋了其引數 -

名稱	型別	說明
entries	元組	此引數表示字尾規則。例如，lang.punctuation.TOKENIZER_SUFFIXES</>。

語法

suffixes = ("'s", "'S", r"(?<=[0-9])+")
suffix_reg = util.compile_suffix_regex(suffixes)
nlp.tokenizer.suffix_search = suffix_reg.search

示例

import spacy
nlp = spacy.load('en_core_web_sm')
suffixes = list(nlp.Defaults.suffixes)
suffixes.remove('\\]')
suffix_regex = spacy.util.compile_suffix_regex(suffixes)
nlp.tokenizer.suffix_search = suffix_regex.search

doc = nlp("[A] works for [B] in [C].")
print([t.text for t in doc])
# ['[A]', 'works', 'for', '[B]', 'in', '[C]', '.']

輸出

['[', 'A]', 'works', 'for', '[', 'B]', 'in', '[', 'C]', '.']

spacy_util_get_data_path.htm

列印頁面

上一項

下一項