如何使用 Python 和 TensorFlow 來準備包含 Stack Overflow 問題的的資料集?
TensorFlow 是 Google 提供的一個機器學習框架。它是一個開源框架,與 Python 結合使用,用於實現演算法、深度學習應用程式等等。它被用於研究和生產目的。
可以使用以下程式碼行在 Windows 上安裝“tensorflow”包:
pip install tensorflow
張量是 TensorFlow 中使用的一種資料結構。它有助於連線流圖中的邊。此流圖稱為“資料流圖”。張量只不過是多維陣列或列表。我們使用 Google Colaboratory 來執行以下程式碼。Google Colab 或 Colaboratory 幫助透過瀏覽器執行 Python 程式碼,並且無需任何配置即可免費訪問 GPU(圖形處理單元)。Colaboratory 建立在 Jupyter Notebook 之上。以下是程式碼片段:
示例
VOCAB_SIZE = 10000
print("The preprocessing of text begins")
binary_vectorize_layer = TextVectorization(
max_tokens=VOCAB_SIZE,
output_mode='binary')
MAX_SEQUENCE_LENGTH = 250
int_vectorize_layer = TextVectorization(
max_tokens=VOCAB_SIZE,
output_mode='int',
output_sequence_length=MAX_SEQUENCE_LENGTH)程式碼來源 - https://www.tensorflow.org/tutorials/load_data/text
輸出
The preprocessing of text begins
解釋
使用“TextVectorization”層對資料進行標準化、標記化和向量化。
標準化涉及預處理文字並刪除標點符號和 HTML 元素。
標記化涉及透過拆分空格將句子拆分為單詞。
向量化涉及將標記轉換為數字,以便在饋送到神經網路時可以理解。
二元模型使用詞袋模型來構建模型。
廣告
資料結構
網路
關係資料庫管理系統
作業系統
Java
iOS
HTML
CSS
Android
Python
C 程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP