如何使用TensorFlow結合tf.data API和分詞器？

‘tf.data’ API 可用於對字串進行分詞。分詞是將字串分解成標記的方法。這些標記可以是單詞、數字或標點符號。

我們將使用Keras Sequential API，它有助於構建一個順序模型，該模型用於處理簡單的層堆疊，其中每一層只有一個輸入張量和一個輸出張量。

包含至少一層卷積層的神經網路稱為卷積神經網路。我們可以使用卷積神經網路來構建學習模型。

TensorFlow Text包含一系列與文字相關的類和操作，可與TensorFlow 2.0一起使用。TensorFlow Text可用於預處理序列建模。

我們使用Google Colaboratory執行以下程式碼。Google Colab或Colaboratory幫助在瀏覽器上執行Python程式碼，無需任何配置，並可免費訪問GPU（圖形處理單元）。Colaboratory構建在Jupyter Notebook之上。

重要的介面包括Tokenizer和TokenizerWithOffsets，每個介面分別具有單個方法tokenize和tokenize_with_offsets。有多個分詞器，每個分詞器都實現了TokenizerWithOffsets（它擴充套件了Tokenizer類）。這包括獲取原始字串中位元組偏移量的選項。這有助於瞭解建立標記的原始字串中的位元組。

示例

print("Tokenizer with tf.data API")
docs = tf.data.Dataset.from_tensor_slices([['Never tell me about the odds.'], ["It's not trye!"]])
print("Whitespace tokenizer is being called")
tokenizer = text.WhitespaceTokenizer()
tokenized_docs = docs.map(lambda x: tokenizer.tokenize(x))
iterator = iter(tokenized_docs)
print(next(iterator).to_list())
print(next(iterator).to_list())

程式碼來源 −https://www.tensorflow.org/tutorials/tensorflow_text/intro

輸出

Tokenizer with tf.data API
Whitespace tokenizer is being called
[[b'Never', b'tell', b'me', b'about', b'the', b'odds.']]
[[b"It's", b'not', b'trye!']]

解釋

tf.data API與分詞器一起使用。
完成此操作後，將對輸入呼叫空格分詞器。
迭代標記，然後將其儲存在列表中。

AmitDiwan

更新於： 2021年2月22日

172 次瀏覽

啟動你的職業生涯

完成課程獲得認證

開始學習