如何使用Python和tf.data對Tensorflow進行更精細的控制？

‘tf.Data’有助於透過對資料集中的資料進行混洗來定製模型構建管道，以便所有型別的資料都能均勻分佈（如果可能）。

我們將使用包含數千張花卉影像的花卉資料集。它包含5個子目錄，每個類別都有一個子目錄。

我們使用Google Colaboratory來執行以下程式碼。Google Colab或Colaboratory有助於在瀏覽器上執行Python程式碼，無需任何配置，並可免費訪問GPU（圖形處理單元）。Colaboratory構建在Jupyter Notebook之上。

print("Defining customized input pipeline")
list_ds = tf.data.Dataset.list_files(str(data_dir/'*/*'), shuffle=False)
list_ds = list_ds.shuffle(image_count, reshuffle_each_iteration=False)

for f in list_ds.take(5):
   print(f.numpy())

class_names = np.array(sorted([item.name for item in data_dir.glob('*') if item.name != "LICENSE.txt"]))
print(class_names)

print("The dataset is split into training and validation set")
val_size = int(image_count * 0.2)
train_ds = list_ds.skip(val_size)
val_ds = list_ds.take(val_size)
print("Length of each subset is displayed below")
print(tf.data.experimental.cardinality(train_ds).numpy())
print(tf.data.experimental.cardinality(val_ds).numpy())

程式碼來源：https://www.tensorflow.org/tutorials/load_data/images

輸出

Defining customized input pipeline
b'/root/.keras/datasets/flower_photos/dandelion/14306875733_61d71c64c0_n.jpg'
b'/root/.keras/datasets/flower_photos/dandelion/8935477500_89f22cca03_n.jpg'
b'/root/.keras/datasets/flower_photos/sunflowers/3001531316_efae24d37d_n.jpg'
b'/root/.keras/datasets/flower_photos/daisy/7133935763_82b17c8e1b_n.jpg'
b'/root/.keras/datasets/flower_photos/tulips/17844723633_da85357fe3.jpg'
['daisy' 'dandelion' 'roses' 'sunflowers' 'tulips']
The dataset is split into training and validation set
Length of each subset is displayed below
2936
734

解釋

keras.preprocessing實用程式是一種使用影像目錄建立“tf.data.Dataset”的方法。
為了獲得對它的更多控制，可以使用'tf.data'編寫自定義輸入管道。
檔案樹結構可用於編譯“class_names”列表。

AmitDiwan

更新於：2021年2月19日

143 次瀏覽

啟動您的職業生涯

透過完成課程獲得認證

開始