- spaCy 教程
- spaCy - 首頁
- spaCy - 簡介
- spaCy - 快速入門
- spaCy - 模型和語言
- spaCy - 架構
- spaCy - 命令列助手
- spaCy - 頂級函式
- spaCy - 視覺化函式
- spaCy - 實用函式
- spaCy - 相容性函式
- spaCy - 容器
- Doc 類上下文管理器和屬性
- spaCy - 容器 Token 類
- spaCy - Token 屬性
- spaCy - 容器 Span 類
- spaCy - Span 類屬性
- spaCy - 容器 Lexeme 類
- 訓練神經網路模型
- 更新神經網路模型
- spaCy 有用資源
- spaCy - 快速指南
- spaCy - 有用資源
- spaCy - 討論
spaCy - 轉換命令
顧名思義,此命令會將檔案轉換為 spaCy 的 JavaScript 物件表示法(JSON 格式),尤其適用於與 train 命令和其他實驗管理功能一起使用。
轉換命令如下:
python -m spacy convert [input_file] [output_dir] [--file-type] [--converter][--n-sents] [--morphology] [--lang]
引數
下表解釋了其引數:
| 引數 | 型別 | 描述 |
|---|---|---|
| input_file | 位置引數 | 它代表輸入檔案。 |
| output_dir | 位置引數 | 此引數代表轉換檔案的輸出目錄。預設為“-”,表示資料將寫入標準輸出。 |
| --file-type, -t | 選項 | 它是要建立的檔案型別。 |
| --converter, -c | 選項 | 它代表要使用的轉換器的名稱。 |
| --n-sents, -n | 選項 | 它代表每個文件的句子數。 |
| --seg-sents, -s | 標誌 | 用於分句(對於 -c ner)。 |
| --model, -b | 選項 | 它代表基於解析器的分句模型(對於 -s)。 |
| --morphology, -m | 選項 | 此引數啟用將形態附加到標籤。 |
| --lang, -l | 選項 | 它是語言程式碼,如果需要分詞器則使用。 |
| --help, -h | 標誌 | 此引數將顯示幫助資訊和其他可用引數。 |
以下是可以使用此命令生成的輸出檔案型別:
json - 它是常規 JSON,也是預設輸出檔案型別。
jsonl - 它是換行符分隔的 JSON。
msg - 它是二進位制 MessagePack 格式。
轉換器選項
下表顯示了轉換器選項:
| 序號 | ID 和描述 |
|---|---|
| 1 | 自動 它將根據副檔名和檔案內容自動選擇轉換器。 |
| 2 | conll, conllu, conllubio 這些是通用依賴項 .conllu 或 .conll 格式。 |
| 3 | Ner 它具有 IOB/IOB2 標籤的 NER。其中,每行一個標記,列用空格分隔。第一列是標記,最後一列是 IOB 標籤。句子用空行分隔,文件用“-DOCSTART- -X- O O”行分隔。支援 CoNLL 2003 NER 格式。 |
| 4 | Iob 它具有 IOB/IOB2 標籤的 NER。其中,每行一個句子,標記用空格分隔,註釋用 | 分隔,例如word|B-ENT 或 word|POS|B-ENT。 |
| 5 | Jsonl 它是格式化為 JSONL 的 NER 資料,每行一個字典,以及“text”和“spans”鍵。 |
廣告