如何使用 Python 和 TensorFlow 來準備包含 Stack Overflow 問題的的資料集?


TensorFlow 是 Google 提供的一個機器學習框架。它是一個開源框架,與 Python 結合使用,用於實現演算法、深度學習應用程式等等。它被用於研究和生產目的。

可以使用以下程式碼行在 Windows 上安裝“tensorflow”包:

pip install tensorflow

張量是 TensorFlow 中使用的一種資料結構。它有助於連線流圖中的邊。此流圖稱為“資料流圖”。張量只不過是多維陣列或列表。我們使用 Google Colaboratory 來執行以下程式碼。Google Colab 或 Colaboratory 幫助透過瀏覽器執行 Python 程式碼,並且無需任何配置即可免費訪問 GPU(圖形處理單元)。Colaboratory 建立在 Jupyter Notebook 之上。以下是程式碼片段:

示例

VOCAB_SIZE = 10000
print("The preprocessing of text begins")
binary_vectorize_layer = TextVectorization(
   max_tokens=VOCAB_SIZE,
   output_mode='binary')
MAX_SEQUENCE_LENGTH = 250
int_vectorize_layer = TextVectorization(
   max_tokens=VOCAB_SIZE,
   output_mode='int',
   output_sequence_length=MAX_SEQUENCE_LENGTH)

程式碼來源 -  https://www.tensorflow.org/tutorials/load_data/text

輸出

The preprocessing of text begins

解釋

  • 使用“TextVectorization”層對資料進行標準化、標記化和向量化。

  • 標準化涉及預處理文字並刪除標點符號和 HTML 元素。

  • 標記化涉及透過拆分空格將句子拆分為單詞。

  • 向量化涉及將標記轉換為數字,以便在饋送到神經網路時可以理解。

  • 二元模型使用詞袋模型來構建模型。

更新於: 2021年1月18日

80 次檢視

開啟你的 職業生涯

透過完成課程獲得認證

開始學習
廣告

© . All rights reserved.