- spaCy 教程
- spaCy - 首頁
- spaCy - 簡介
- spaCy - 快速入門
- spaCy - 模型和語言
- spaCy - 架構
- spaCy - 命令列助手
- spaCy - 頂級函式
- spaCy - 視覺化函式
- spaCy - 實用函式
- spaCy - 相容性函式
- spaCy - 容器
- Doc 類上下文管理器和屬性
- spaCy - 容器 Token 類
- spaCy - Token 屬性
- spaCy - 容器 Span 類
- spaCy - Span 類屬性
- spaCy - 容器 Lexeme 類
- 訓練神經網路模型
- 更新神經網路模型
- spaCy 有用資源
- spaCy - 快速指南
- spaCy - 有用資源
- spaCy - 討論
spaCy - 訓練命令
顧名思義,此命令將訓練一個模型。輸出將採用 spaCy 的 JSON 格式,並且每個 epoch 模型都將儲存到目錄中。
要使用 spaCy package 命令打包模型,模型詳細資訊和準確性分數將新增到 meta.json 檔案中。
訓練命令如下所示
python -m spacy [lang] [output_path] [train_path] [dev_path] [--base-model] [--pipeline] [--vectors] [--n-iter] [--n-early-stopping][--n-examples] [--use-gpu] [--version] [--meta-path] [--init-tok2vec][--parser-multitasks] [--entity-multitasks] [--gold-preproc] [--noise-level][--orth-variant-level] [--learn-tokens] [--textcat-arch] [--textcat-multilabel][--textcat-positive-label] [--verbose]
引數
下表解釋了它的引數:
| 引數 | 型別 | 描述 |
|---|---|---|
| Lang | 位置引數 | 此引數用於模型語言。 |
| output_path | 位置引數 | 此引數表示儲存模型的目錄。如果它不存在,則會建立它。 |
| train_path | 位置引數 | 這是 JSON 格式的訓練資料的路徑,可以是檔案或檔案目錄。 |
| dev_path | 位置引數 | 這是用於評估的 JSON 格式的開發資料的路徑,可以是檔案或檔案目錄。 |
| --base-model, -b | 可選引數 | 在 2.1 版本中引入,表示要更新的基礎模型的名稱。它是可選的,可以是任何可載入的 spaCy 模型。 |
| --pipeline, -p | 可選引數 | 它也在 2.1 版本中引入。這是要訓練的管道元件的逗號分隔名稱。預設值為“tagger,parser,ner”。 |
| --replace-components, -R | 標誌 | 此引數將替換基礎模型中的元件。 |
| --vectors, -v | 可選引數 | 應從中載入向量的模型。 |
| --n-iter, -n | 可選引數 | 它將給出迭代次數。預設值為 30。 |
| --n-early-stopping, -ne | 可選引數 | 它表示開發精度沒有提高的最大訓練 epoch 數。 |
| --n-examples, -ns | 可選引數 | 它將是要使用的示例數量。值為 0 將使用所有示例。 |
| --use-gpu, -g | 可選引數 | 如果要使用 GPU,請使用此引數。你需要提供 GPU ID。預設值為 -1,僅用於 CPU。 |
| --version, -V | 可選引數 | 它將是模型版本。 |
| --meta-path, -m | 可選引數 | 在 2.0 版本中引入,表示模型 meta.json 的可選路徑。它將覆蓋所有相關的屬性,例如 lang、pipeline 和 spacy_version。 |
| --init-tok2vec, -t2v | 可選引數 | 在 2.1 版本中引入,表示模型 token-to-vector 部分的預訓練權重的路徑。 |
| --parser-multitasks, -pt | 可選引數 | 它是解析器 CNN 的輔助目標。例如,“dep”或“dep,tag”。 |
| --entity-multitasks, -et | 可選引數 | 它是 NER CNN 的輔助目標。例如,“dep”或“dep,tag”。 |
| --width, -cw | 可選引數 | 在 2.2.4 版本中引入,表示 Tok2Vec 元件的 CNN 層的寬度。 |
| --conv-depth, -cd | 可選引數 | 在 2.2.4 版本中引入,表示 Tok2Vec 元件的 CNN 層的深度。 |
| --cnn-window, -cW | 可選引數 | 在 2.2.4 版本中引入,表示 Tok2Vec 元件的 CNN 層的視窗大小。 |
| --cnn-pieces, -cP | 可選引數 | 在 2.2.4 版本中引入,表示 Tok2Vec 元件的 CNN 層的最大輸出大小。 |
| --bilstm-depth, -lstm | 可選引數 | 在 2.2.4 版本中引入,表示 Tok2Vec 元件的 BiLSTM 層的深度。 |
| --embed-rows, -er | 可選引數 | 此引數指示資料增強的損壞量。值為浮點數。 |
| --orth-variant-level, -ovl | 可選引數 | 此引數指示資料增強的正字法變化。 |
| --gold-preproc, -G | 標誌 | 此標誌將使用黃金預處理。 |
| --learn-tokens, -T | 標誌 | 它是標誌,使解析器透過合併子標記來學習黃金標準分詞。通常用於中文等語言。 |
| --textcat-multilabel, -TML | 標誌 | 在 2.2 版本中引入,表示文字分類類別不是互斥的(多標籤)。 |
| --textcat-arch, -ta | 可選引數 | 在 2.2 版本中引入,表示文字分類模型架構。預設值為“bow”。 |
| --textcat-positive-label, -tpl | 可選引數 | 在 2.2 版本中引入,表示具有兩個標籤的二元類別的文字分類正標籤。 |
| --tag-map-path, -tm | 可選引數 | 在 2.2.4 版本中引入,表示 JSON 格式的標籤對映的路徑。 |
| --verbose, -VV | 標誌 | 在 2.0.13 版本中引入,顯示訓練期間更詳細的訊息。 |
| --help, -h | 標誌 | 此引數用於顯示幫助訊息和可用引數。 |
spacy_command_line_helpers.htm
廣告