Hadoop - 大資料概述



“90% 的世界資料是在過去幾年中產生的。”

由於新技術、裝置和社交網路等通訊手段的出現,人類產生的資料量每年都在迅速增長。從時間開始到 2003 年,我們產生的資料量為 50 億 GB。如果你將這些資料以磁碟的形式堆疊起來,它可能會填滿整個足球場。2011 年每兩天產生相同的資料量,2013 年每十分鐘產生相同的資料量。這一速度仍在大幅增長。儘管所有這些產生的資訊都很有意義,並在處理後可以有用,但它卻被忽視了。

什麼是大資料?

大資料是指無法使用傳統計算技術處理的大型資料集的集合。它不是單一的技術或工具,而是已經成為一個完整的學科,涉及各種工具、技術和框架。

大資料包含哪些內容?

大資料涉及不同裝置和應用程式產生的資料。下面列出了一些屬於大資料範疇的領域。

  • 黑匣子資料 - 它是直升機、飛機和噴氣機等部件的一部分。它捕獲飛行機組人員的聲音、麥克風和耳機錄音以及飛機的效能資訊。

  • 社交媒體資料 - Facebook 和 Twitter 等社交媒體儲存著全球數百萬使用者釋出的資訊和觀點。

  • 證券交易資料 - 證券交易資料儲存著客戶對不同公司股票的“買入”和“賣出”決策資訊。

  • 電網資料 - 電網資料儲存著特定節點相對於基站的能耗資訊。

  • 交通資料 - 交通資料包括車輛的型號、容量、距離和可用性。

  • 搜尋引擎資料 - 搜尋引擎從不同的資料庫中檢索大量資料。

Big Data

因此,大資料包括海量資料、高速資料和可擴充套件的資料種類。其中的資料將分為三種類型。

  • 結構化資料 - 關係資料。

  • 半結構化資料 - XML 資料。

  • 非結構化資料 - Word、PDF、文字、媒體日誌。

大資料的益處

  • 利用 Facebook 等社交網路儲存的資訊,營銷機構正在瞭解其活動、促銷和其他廣告媒介的響應情況。

  • 利用社交媒體中關於消費者偏好和產品認知的資訊,產品公司和零售組織正在規劃其生產。

  • 利用患者既往病史的相關資料,醫院正在提供更好、更快的服務。

大資料技術

大資料技術對於提供更準確的分析至關重要,這可能導致更具體的決策,從而為企業帶來更高的運營效率、降低成本和降低風險。

為了利用大資料的力量,您需要一個基礎設施,該基礎設施能夠即時管理和處理海量結構化和非結構化資料,並能夠保護資料隱私和安全。

市場上有來自亞馬遜、IBM、微軟等不同供應商的各種技術來處理大資料。在研究處理大資料的技術時,我們考察以下兩類技術 -

操作型大資料

這包括像 MongoDB 這樣的系統,這些系統為即時互動式工作負載提供操作功能,其中資料主要被捕獲和儲存。

NoSQL 大資料系統旨在利用過去十年中出現的新的雲計算架構,以便能夠以低廉且高效的方式執行海量計算。這使得操作型大資料工作負載的管理、成本和實施速度都大大提高。

一些 NoSQL 系統可以基於即時資料提供對模式和趨勢的洞察,只需最少的編碼,無需資料科學家和額外的基礎設施。

分析型大資料

這些包括像大規模並行處理 (MPP) 資料庫系統和 MapReduce 這樣的系統,這些系統提供用於回顧性和複雜分析的分析功能,這些分析可能涉及大部分或全部資料。

MapReduce 提供了一種新的資料分析方法,它與 SQL 提供的功能相輔相成,並且基於 MapReduce 的系統可以從單個伺服器擴充套件到數千臺高階和低端機器。

這兩類技術是互補的,並且經常一起部署。

操作型與分析型系統

操作型 分析型
延遲 1 毫秒 - 100 毫秒 1 分鐘 - 100 分鐘
併發性 1000 - 100,000 1 - 10
訪問模式 寫入和讀取 讀取
查詢 選擇性 非選擇性
資料範圍 操作型 回顧性
終端使用者 客戶 資料科學家
技術 NoSQL MapReduce、MPP 資料庫

大資料挑戰

與大資料相關的主要挑戰如下 -

  • 捕獲資料
  • 整理
  • 儲存
  • 搜尋
  • 共享
  • 傳輸
  • 分析
  • 呈現

為了應對上述挑戰,組織通常會藉助企業伺服器。

廣告

© . All rights reserved.