如何使用 TensorFlow 和 Auto MPG 資料集拆分和檢查資料以預測燃油效率?


Tensorflow 是 Google 提供的一個機器學習框架。它是一個開源框架,與 Python 結合使用以實現演算法、深度學習應用程式等等。它用於研究和生產目的。它具有有助於快速執行復雜數學運算的最佳化技術。這是因為它使用 NumPy 和多維陣列。這些多維陣列也稱為“張量”。該框架支援使用深度神經網路。它具有高度可擴充套件性,並附帶許多流行的資料集。

張量是 TensorFlow 中使用的資料結構。它有助於連線流程圖中的邊。此流程圖稱為“資料流圖”。張量不過是多維陣列或列表。

迴歸問題的目標是預測連續或離散變數的輸出,例如價格、機率、是否會下雨等等。

我們使用的資料集稱為“Auto MPG”資料集。它包含 1970 年代和 1980 年代汽車的燃油效率。它包括重量、馬力、排量等屬性。有了這些,我們需要預測特定車輛的燃油效率。

我們使用 Google Colaboratory 來執行以下程式碼。Google Colab 或 Colaboratory 幫助在瀏覽器上執行 Python 程式碼,並且需要零配置和免費訪問 GPU(圖形處理單元)。Colaboratory 建立在 Jupyter Notebook 之上。

以下是程式碼片段,我們將看到如何使用 TensorFlow 和 Auto MPG 資料集拆分和檢查資料以預測燃油效率 -

示例

print("Splitting the training and testing dataset")
train_dataset = dataset.sample(frac=0.7, random_state=0)
test_dataset = dataset.drop(train_dataset.index)

print("Plotting the training data as a visualization")
sns.pairplot(train_dataset[['MPG', 'Cylinders', 'Displacement', 'Weight']], diag_kind='kde')

print("Understanding the statistics associated with the data")
train_dataset.describe().transpose()

程式碼來源 https://www.tensorflow.org/tutorials/keras/regression

輸出

Splitting the training and testing dataset
Plotting the training data as a visualization
Understanding the statistics associated with the data

解釋

  • 資料清理完成後,資料將被拆分為訓練資料集和測試資料集。

  • 70% 的資料用於訓練,其餘 30% 用於測試。

  • 此訓練資料使用 seaborn 包在控制檯上視覺化。

  • 使用“describe”函式顯示資料的統計資訊,例如計數、均值、中位數等等。

更新於: 2021 年 1 月 20 日

125 次檢視

開啟你的 職業生涯

透過完成課程獲得認證

開始學習
廣告