敏捷資料科學 - 敏捷資料處理

本章我們將重點介紹結構化、半結構化和非結構化資料之間的區別。

結構化資料

結構化資料指的是以 SQL 格式儲存在具有行和列的表中的資料。它包含一個關係鍵，對映到預先設計的欄位。結構化資料在大規模應用中使用。

結構化資料僅佔所有資訊資料 5% 到 10%。

半結構化資料包括不駐留在關係資料庫中的資料。它們包含一些組織屬性，使分析更容易。它包括將它們儲存在關係資料庫中的相同過程。半結構化資料庫的示例包括 CSV 檔案、XML 和 JSON 文件。NoSQL 資料庫被認為是半結構化的。

非結構化資料佔資料量的 80%。它通常包括文字和多媒體內容。非結構化資料的最佳示例包括音訊檔案、簡報和網頁。機器生成的非結構化資料的示例包括衛星影像、科學資料、照片和影片、雷達和聲納資料。

以上金字塔結構特別關注資料量及其分佈比例。

準結構化資料介於非結構化資料和半結構化資料之間。在本教程中，我們將重點關注半結構化資料，這對敏捷方法論和資料科學研究很有益處。

半結構化資料沒有正式的資料模型，但具有明顯的、自描述的模式和結構，這是透過其分析開發出來的。

列印頁面