如何使用 Python 和 TensorFlow 來準備包含 Stack Overflow 問題的的資料集？

TensorFlow 是 Google 提供的一個機器學習框架。它是一個開源框架，與 Python 結合使用，用於實現演算法、深度學習應用程式等等。它被用於研究和生產目的。

可以使用以下程式碼行在 Windows 上安裝“tensorflow”包：

pip install tensorflow

張量是 TensorFlow 中使用的一種資料結構。它有助於連線流圖中的邊。此流圖稱為“資料流圖”。張量只不過是多維陣列或列表。我們使用 Google Colaboratory 來執行以下程式碼。Google Colab 或 Colaboratory 幫助透過瀏覽器執行 Python 程式碼，並且無需任何配置即可免費訪問 GPU（圖形處理單元）。Colaboratory 建立在 Jupyter Notebook 之上。以下是程式碼片段：

示例

VOCAB_SIZE = 10000
print("The preprocessing of text begins")
binary_vectorize_layer = TextVectorization(
   max_tokens=VOCAB_SIZE,
   output_mode='binary')
MAX_SEQUENCE_LENGTH = 250
int_vectorize_layer = TextVectorization(
   max_tokens=VOCAB_SIZE,
   output_mode='int',
   output_sequence_length=MAX_SEQUENCE_LENGTH)

程式碼來源 - https://www.tensorflow.org/tutorials/load_data/text

輸出

The preprocessing of text begins

解釋

使用“TextVectorization”層對資料進行標準化、標記化和向量化。
標準化涉及預處理文字並刪除標點符號和 HTML 元素。
標記化涉及透過拆分空格將句子拆分為單詞。
向量化涉及將標記轉換為數字，以便在饋送到神經網路時可以理解。
二元模型使用詞袋模型來構建模型。

AmitDiwan

更新於： 2021年1月18日

80 次檢視

開啟你的職業生涯

透過完成課程獲得認證

開始學習

如何使用 Python 和 TensorFlow 來準備包含 Stack Overflow 問題的的資料集？

示例

輸出

解釋

開啟你的 職業生涯

開啟你的職業生涯