
- 敏捷資料科學教程
- 敏捷資料科學 - 首頁
- 敏捷資料科學 - 簡介
- 方法論概念
- 敏捷資料科學 - 流程
- 敏捷工具及安裝
- 敏捷中的資料處理
- SQL 與 NoSQL
- NoSQL & 資料流程式設計
- 收集和顯示記錄
- 資料視覺化
- 資料豐富化
- 使用報表
- 預測的作用
- 使用 PySpark 提取特徵
- 構建迴歸模型
- 部署預測系統
- 敏捷資料科學 - SparkML
- 修復預測問題
- 提高預測效能
- 用敏捷和資料科學創造更好的場景
- 敏捷的實施
- 敏捷資料科學有用資源
- 敏捷資料科學 - 快速指南
- 敏捷資料科學 - 資源
- 敏捷資料科學 - 討論
敏捷資料科學 - 敏捷資料處理
本章我們將重點介紹結構化、半結構化和非結構化資料之間的區別。
結構化資料
結構化資料指的是以 SQL 格式儲存在具有行和列的表中的資料。它包含一個關係鍵,對映到預先設計的欄位。結構化資料在大規模應用中使用。
結構化資料僅佔所有資訊資料 5% 到 10%。
半結構化資料
半結構化資料包括不駐留在關係資料庫中的資料。它們包含一些組織屬性,使分析更容易。它包括將它們儲存在關係資料庫中的相同過程。半結構化資料庫的示例包括 CSV 檔案、XML 和 JSON 文件。NoSQL 資料庫被認為是半結構化的。
非結構化資料
非結構化資料佔資料量的 80%。它通常包括文字和多媒體內容。非結構化資料的最佳示例包括音訊檔案、簡報和網頁。機器生成的非結構化資料的示例包括衛星影像、科學資料、照片和影片、雷達和聲納資料。

以上金字塔結構特別關注資料量及其分佈比例。
準結構化資料介於非結構化資料和半結構化資料之間。在本教程中,我們將重點關注半結構化資料,這對敏捷方法論和資料科學研究很有益處。
半結構化資料沒有正式的資料模型,但具有明顯的、自描述的模式和結構,這是透過其分析開發出來的。
廣告