如何使用 TensorFlow 和 Auto MPG 資料集拆分和檢查資料以預測燃油效率?
Tensorflow 是 Google 提供的一個機器學習框架。它是一個開源框架,與 Python 結合使用以實現演算法、深度學習應用程式等等。它用於研究和生產目的。它具有有助於快速執行復雜數學運算的最佳化技術。這是因為它使用 NumPy 和多維陣列。這些多維陣列也稱為“張量”。該框架支援使用深度神經網路。它具有高度可擴充套件性,並附帶許多流行的資料集。
張量是 TensorFlow 中使用的資料結構。它有助於連線流程圖中的邊。此流程圖稱為“資料流圖”。張量不過是多維陣列或列表。
迴歸問題的目標是預測連續或離散變數的輸出,例如價格、機率、是否會下雨等等。
我們使用的資料集稱為“Auto MPG”資料集。它包含 1970 年代和 1980 年代汽車的燃油效率。它包括重量、馬力、排量等屬性。有了這些,我們需要預測特定車輛的燃油效率。
我們使用 Google Colaboratory 來執行以下程式碼。Google Colab 或 Colaboratory 幫助在瀏覽器上執行 Python 程式碼,並且需要零配置和免費訪問 GPU(圖形處理單元)。Colaboratory 建立在 Jupyter Notebook 之上。
以下是程式碼片段,我們將看到如何使用 TensorFlow 和 Auto MPG 資料集拆分和檢查資料以預測燃油效率 -
示例
print("Splitting the training and testing dataset") train_dataset = dataset.sample(frac=0.7, random_state=0) test_dataset = dataset.drop(train_dataset.index) print("Plotting the training data as a visualization") sns.pairplot(train_dataset[['MPG', 'Cylinders', 'Displacement', 'Weight']], diag_kind='kde') print("Understanding the statistics associated with the data") train_dataset.describe().transpose()
程式碼來源 − https://www.tensorflow.org/tutorials/keras/regression
輸出
Splitting the training and testing dataset Plotting the training data as a visualization Understanding the statistics associated with the data
解釋
資料清理完成後,資料將被拆分為訓練資料集和測試資料集。
70% 的資料用於訓練,其餘 30% 用於測試。
此訓練資料使用 seaborn 包在控制檯上視覺化。
使用“describe”函式顯示資料的統計資訊,例如計數、均值、中位數等等。
廣告