spaCy - 訓練命令



顧名思義,此命令將訓練一個模型。輸出將採用 spaCy 的 JSON 格式,並且每個 epoch 模型都將儲存到目錄中。

要使用 spaCy package 命令打包模型,模型詳細資訊和準確性分數將新增到 meta.json 檔案中。

訓練命令如下所示

python -m spacy [lang] [output_path] [train_path] [dev_path]
[--base-model] [--pipeline] [--vectors] [--n-iter] [--n-early-stopping][--n-examples] [--use-gpu] [--version] [--meta-path] [--init-tok2vec][--parser-multitasks] [--entity-multitasks] [--gold-preproc] [--noise-level][--orth-variant-level] [--learn-tokens] [--textcat-arch] [--textcat-multilabel][--textcat-positive-label] [--verbose]

引數

下表解釋了它的引數:

引數 型別 描述
Lang 位置引數 此引數用於模型語言。
output_path 位置引數 此引數表示儲存模型的目錄。如果它不存在,則會建立它。
train_path 位置引數 這是 JSON 格式的訓練資料的路徑,可以是檔案或檔案目錄。
dev_path 位置引數 這是用於評估的 JSON 格式的開發資料的路徑,可以是檔案或檔案目錄。
--base-model, -b 可選引數 在 2.1 版本中引入,表示要更新的基礎模型的名稱。它是可選的,可以是任何可載入的 spaCy 模型。
--pipeline, -p 可選引數 它也在 2.1 版本中引入。這是要訓練的管道元件的逗號分隔名稱。預設值為“tagger,parser,ner”。
--replace-components, -R 標誌 此引數將替換基礎模型中的元件。
--vectors, -v 可選引數 應從中載入向量的模型。
--n-iter, -n 可選引數 它將給出迭代次數。預設值為 30。
--n-early-stopping, -ne 可選引數 它表示開發精度沒有提高的最大訓練 epoch 數。
--n-examples, -ns 可選引數 它將是要使用的示例數量。值為 0 將使用所有示例。
--use-gpu, -g 可選引數 如果要使用 GPU,請使用此引數。你需要提供 GPU ID。預設值為 -1,僅用於 CPU。
--version, -V 可選引數 它將是模型版本。
--meta-path, -m 可選引數 在 2.0 版本中引入,表示模型 meta.json 的可選路徑。它將覆蓋所有相關的屬性,例如 lang、pipeline 和 spacy_version。
--init-tok2vec, -t2v 可選引數 在 2.1 版本中引入,表示模型 token-to-vector 部分的預訓練權重的路徑。
--parser-multitasks, -pt 可選引數 它是解析器 CNN 的輔助目標。例如,“dep”或“dep,tag”。
--entity-multitasks, -et 可選引數 它是 NER CNN 的輔助目標。例如,“dep”或“dep,tag”。
--width, -cw 可選引數 在 2.2.4 版本中引入,表示 Tok2Vec 元件的 CNN 層的寬度。
--conv-depth, -cd 可選引數 在 2.2.4 版本中引入,表示 Tok2Vec 元件的 CNN 層的深度。
--cnn-window, -cW 可選引數 在 2.2.4 版本中引入,表示 Tok2Vec 元件的 CNN 層的視窗大小。
--cnn-pieces, -cP 可選引數 在 2.2.4 版本中引入,表示 Tok2Vec 元件的 CNN 層的最大輸出大小。
--bilstm-depth, -lstm 可選引數 在 2.2.4 版本中引入,表示 Tok2Vec 元件的 BiLSTM 層的深度。
--embed-rows, -er 可選引數 此引數指示資料增強的損壞量。值為浮點數。
--orth-variant-level, -ovl 可選引數 此引數指示資料增強的正字法變化。
--gold-preproc, -G 標誌 此標誌將使用黃金預處理。
--learn-tokens, -T 標誌 它是標誌,使解析器透過合併子標記來學習黃金標準分詞。通常用於中文等語言。
--textcat-multilabel, -TML 標誌 在 2.2 版本中引入,表示文字分類類別不是互斥的(多標籤)。
--textcat-arch, -ta 可選引數 在 2.2 版本中引入,表示文字分類模型架構。預設值為“bow”。
--textcat-positive-label, -tpl 可選引數 在 2.2 版本中引入,表示具有兩個標籤的二元類別的文字分類正標籤。
--tag-map-path, -tm 可選引數 在 2.2.4 版本中引入,表示 JSON 格式的標籤對映的路徑。
--verbose, -VV 標誌 在 2.0.13 版本中引入,顯示訓練期間更詳細的訊息。
--help, -h 標誌 此引數用於顯示幫助訊息和可用引數。
spacy_command_line_helpers.htm
廣告
© . All rights reserved.