如何使用TensorFlow Text預處理文字資料?


TensorFlow Text 是一個可以與 TensorFlow 庫一起使用的包。在使用它之前,必須顯式安裝它。它可以用於預處理基於文字的模型的資料。

閱讀更多: 什麼是TensorFlow以及Keras如何與TensorFlow一起建立神經網路?

我們將使用 Keras Sequential API,它有助於構建一個順序模型,該模型用於處理簡單的層堆疊,其中每一層只有一個輸入張量和一個輸出張量。

包含至少一層卷積層的神經網路稱為卷積神經網路。我們可以使用卷積神經網路來構建學習模型。

TensorFlow Text 包含一系列與文字相關的類和操作,可用於 TensorFlow 2.0。TensorFlow Text 可用於預處理序列建模。

我們使用 Google Colaboratory 來執行以下程式碼。Google Colab 或 Colaboratory 幫助在瀏覽器上執行 Python 程式碼,無需任何配置,並且可以免費訪問 GPU(圖形處理單元)。Colaboratory 建立在 Jupyter Notebook 之上。

示例

import tensorflow as tf
import tensorflow_text as text
print("Converting to UTF-8 encoding")
docs = tf.constant([u'Everything not saved will be lost.'.encode('UTF-16-BE'), u'Sad☹'.encode('UTF-16-BE')])
utf8_docs = tf.strings.unicode_transcode(docs, input_encoding='UTF-16-BE', output_encoding='UTF-8')

程式碼來源 −https://www.tensorflow.org/tutorials/tensorflow_text/intro

輸出

Converting to UTF-8 encoding

解釋

  • 可以使用“encode”方法將字串轉換為UTF-8編碼。

  • 完成此操作後,字串將被轉碼為UTF-8編碼。

更新於:2021年2月22日

168 次瀏覽

啟動您的職業生涯

完成課程獲得認證

開始學習
廣告
© . All rights reserved.