spaCy - 轉換命令



顧名思義,此命令會將檔案轉換為 spaCy 的 JavaScript 物件表示法(JSON 格式),尤其適用於與 train 命令和其他實驗管理功能一起使用。

轉換命令如下:

python -m spacy convert [input_file] [output_dir] [--file-type] [--converter][--n-sents] [--morphology] [--lang]

引數

下表解釋了其引數:

引數 型別 描述
input_file 位置引數 它代表輸入檔案。
output_dir 位置引數 此引數代表轉換檔案的輸出目錄。預設為“-”,表示資料將寫入標準輸出。
--file-type, -t 選項 它是要建立的檔案型別。
--converter, -c 選項 它代表要使用的轉換器的名稱。
--n-sents, -n 選項 它代表每個文件的句子數。
--seg-sents, -s 標誌 用於分句(對於 -c ner)。
--model, -b 選項 它代表基於解析器的分句模型(對於 -s)。
--morphology, -m 選項 此引數啟用將形態附加到標籤。
--lang, -l 選項 它是語言程式碼,如果需要分詞器則使用。
--help, -h 標誌 此引數將顯示幫助資訊和其他可用引數。

以下是可以使用此命令生成的輸出檔案型別:

  • json - 它是常規 JSON,也是預設輸出檔案型別。

  • jsonl - 它是換行符分隔的 JSON。

  • msg - 它是二進位制 MessagePack 格式。

轉換器選項

下表顯示了轉換器選項:

序號 ID 和描述
1

自動

它將根據副檔名和檔案內容自動選擇轉換器。

2

conll, conllu, conllubio

這些是通用依賴項 .conllu 或 .conll 格式。

3

Ner

它具有 IOB/IOB2 標籤的 NER。其中,每行一個標記,列用空格分隔。第一列是標記,最後一列是 IOB 標籤。句子用空行分隔,文件用“-DOCSTART- -X- O O”行分隔。支援 CoNLL 2003 NER 格式。

4

Iob

它具有 IOB/IOB2 標籤的 NER。其中,每行一個句子,標記用空格分隔,註釋用 | 分隔,例如word|B-ENT 或 word|POS|B-ENT

5

Jsonl

它是格式化為 JSONL 的 NER 資料,每行一個字典,以及“text”和“spans”鍵。

廣告
© . All rights reserved.