如何使用TensorFlow結合tf.data API和分詞器?
‘tf.data’ API 可用於對字串進行分詞。分詞是將字串分解成標記的方法。這些標記可以是單詞、數字或標點符號。
閱讀更多: 什麼是TensorFlow以及Keras如何與TensorFlow協作建立神經網路?
我們將使用Keras Sequential API,它有助於構建一個順序模型,該模型用於處理簡單的層堆疊,其中每一層只有一個輸入張量和一個輸出張量。
包含至少一層卷積層的神經網路稱為卷積神經網路。我們可以使用卷積神經網路來構建學習模型。
TensorFlow Text包含一系列與文字相關的類和操作,可與TensorFlow 2.0一起使用。TensorFlow Text可用於預處理序列建模。
我們使用Google Colaboratory執行以下程式碼。Google Colab或Colaboratory幫助在瀏覽器上執行Python程式碼,無需任何配置,並可免費訪問GPU(圖形處理單元)。Colaboratory構建在Jupyter Notebook之上。
重要的介面包括Tokenizer和TokenizerWithOffsets,每個介面分別具有單個方法tokenize和tokenize_with_offsets。有多個分詞器,每個分詞器都實現了TokenizerWithOffsets(它擴充套件了Tokenizer類)。這包括獲取原始字串中位元組偏移量的選項。這有助於瞭解建立標記的原始字串中的位元組。
示例
print("Tokenizer with tf.data API")
docs = tf.data.Dataset.from_tensor_slices([['Never tell me about the odds.'], ["It's not trye!"]])
print("Whitespace tokenizer is being called")
tokenizer = text.WhitespaceTokenizer()
tokenized_docs = docs.map(lambda x: tokenizer.tokenize(x))
iterator = iter(tokenized_docs)
print(next(iterator).to_list())
print(next(iterator).to_list())程式碼來源 −https://www.tensorflow.org/tutorials/tensorflow_text/intro
輸出
Tokenizer with tf.data API Whitespace tokenizer is being called [[b'Never', b'tell', b'me', b'about', b'the', b'odds.']] [[b"It's", b'not', b'trye!']]
解釋
- tf.data API與分詞器一起使用。
- 完成此操作後,將對輸入呼叫空格分詞器。
- 迭代標記,然後將其儲存在列表中。
廣告
資料結構
網路
關係資料庫管理系統 (RDBMS)
作業系統
Java
iOS
HTML
CSS
Android
Python
C語言程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP