- Hadoop 教程
- Hadoop - 首頁
- Hadoop - 大資料概述
- Hadoop - 大資料解決方案
- Hadoop - 簡介
- Hadoop - 環境搭建
- Hadoop - HDFS 概述
- Hadoop - HDFS 操作
- Hadoop - 命令參考
- Hadoop - MapReduce
- Hadoop - Streaming
- Hadoop - 多節點叢集
- Hadoop 有用資源
- Hadoop - 問題與解答
- Hadoop - 快速指南
- Hadoop - 有用資源
Hadoop - 大資料概述
“90% 的世界資料是在過去幾年中產生的。”
由於新技術、裝置和社交網路等通訊手段的出現,人類產生的資料量每年都在迅速增長。從時間開始到 2003 年,我們產生的資料量為 50 億 GB。如果你將這些資料以磁碟的形式堆疊起來,它可能會填滿整個足球場。2011 年每兩天產生相同的資料量,2013 年每十分鐘產生相同的資料量。這一速度仍在大幅增長。儘管所有這些產生的資訊都很有意義,並在處理後可以有用,但它卻被忽視了。
什麼是大資料?
大資料是指無法使用傳統計算技術處理的大型資料集的集合。它不是單一的技術或工具,而是已經成為一個完整的學科,涉及各種工具、技術和框架。
大資料包含哪些內容?
大資料涉及不同裝置和應用程式產生的資料。下面列出了一些屬於大資料範疇的領域。
黑匣子資料 - 它是直升機、飛機和噴氣機等部件的一部分。它捕獲飛行機組人員的聲音、麥克風和耳機錄音以及飛機的效能資訊。
社交媒體資料 - Facebook 和 Twitter 等社交媒體儲存著全球數百萬使用者釋出的資訊和觀點。
證券交易資料 - 證券交易資料儲存著客戶對不同公司股票的“買入”和“賣出”決策資訊。
電網資料 - 電網資料儲存著特定節點相對於基站的能耗資訊。
交通資料 - 交通資料包括車輛的型號、容量、距離和可用性。
搜尋引擎資料 - 搜尋引擎從不同的資料庫中檢索大量資料。
因此,大資料包括海量資料、高速資料和可擴充套件的資料種類。其中的資料將分為三種類型。
結構化資料 - 關係資料。
半結構化資料 - XML 資料。
非結構化資料 - Word、PDF、文字、媒體日誌。
大資料的益處
利用 Facebook 等社交網路儲存的資訊,營銷機構正在瞭解其活動、促銷和其他廣告媒介的響應情況。
利用社交媒體中關於消費者偏好和產品認知的資訊,產品公司和零售組織正在規劃其生產。
利用患者既往病史的相關資料,醫院正在提供更好、更快的服務。
大資料技術
大資料技術對於提供更準確的分析至關重要,這可能導致更具體的決策,從而為企業帶來更高的運營效率、降低成本和降低風險。
為了利用大資料的力量,您需要一個基礎設施,該基礎設施能夠即時管理和處理海量結構化和非結構化資料,並能夠保護資料隱私和安全。
市場上有來自亞馬遜、IBM、微軟等不同供應商的各種技術來處理大資料。在研究處理大資料的技術時,我們考察以下兩類技術 -
操作型大資料
這包括像 MongoDB 這樣的系統,這些系統為即時互動式工作負載提供操作功能,其中資料主要被捕獲和儲存。
NoSQL 大資料系統旨在利用過去十年中出現的新的雲計算架構,以便能夠以低廉且高效的方式執行海量計算。這使得操作型大資料工作負載的管理、成本和實施速度都大大提高。
一些 NoSQL 系統可以基於即時資料提供對模式和趨勢的洞察,只需最少的編碼,無需資料科學家和額外的基礎設施。
分析型大資料
這些包括像大規模並行處理 (MPP) 資料庫系統和 MapReduce 這樣的系統,這些系統提供用於回顧性和複雜分析的分析功能,這些分析可能涉及大部分或全部資料。
MapReduce 提供了一種新的資料分析方法,它與 SQL 提供的功能相輔相成,並且基於 MapReduce 的系統可以從單個伺服器擴充套件到數千臺高階和低端機器。
這兩類技術是互補的,並且經常一起部署。
操作型與分析型系統
| 操作型 | 分析型 | |
|---|---|---|
| 延遲 | 1 毫秒 - 100 毫秒 | 1 分鐘 - 100 分鐘 |
| 併發性 | 1000 - 100,000 | 1 - 10 |
| 訪問模式 | 寫入和讀取 | 讀取 |
| 查詢 | 選擇性 | 非選擇性 |
| 資料範圍 | 操作型 | 回顧性 |
| 終端使用者 | 客戶 | 資料科學家 |
| 技術 | NoSQL | MapReduce、MPP 資料庫 |
大資料挑戰
與大資料相關的主要挑戰如下 -
- 捕獲資料
- 整理
- 儲存
- 搜尋
- 共享
- 傳輸
- 分析
- 呈現
為了應對上述挑戰,組織通常會藉助企業伺服器。