什麼是大資料?
簡單來說,大資料是指比傳統資料更大、更復雜,並且隨著時間推移呈指數級增長的資料集。它規模如此龐大,以至於傳統的資料庫管理軟體或工具無法有效地管理、儲存或處理它。因此,需要透過不同的方法逐步對其進行處理。
大資料的應用領域包括:
- 銀行和證券
- 通訊、媒體和娛樂
- 醫療保健提供者
- 教育
- 製造業和自然資源
- 政府
- 保險
- 零售和批發貿易
- 交通運輸
- 能源和公用事業
大資料的用途包括:
- 位置追蹤
- 精準醫療
- 欺詐檢測與處理
- 廣告
- 娛樂與媒體
現實世界中的大資料示例
- 發現消費者購物習慣。
- 個性化營銷。
- 運輸行業的燃油最佳化工具。
- 透過可穿戴裝置資料監控健康狀況。
- 自動駕駛汽車的即時道路地圖。
- 簡化媒體流。
- 預測性庫存訂購
大資料面臨的問題
大資料面臨三個主要問題,如下所示:
資料質量低和資料不準確
低質量資料或不準確的資料質量可能導致結果或預測不準確,這隻會浪費個人時間和精力。
為了解決問題、預測或從資料中發現新的模式,資料必須具有高質量和準確性。
處理大型資料集
由於資料量龐大,傳統的資料庫管理工具或軟體無法直接/輕鬆地處理,因為這些大型資料集的規模通常以TB為單位,處理起來非常困難。
因此,我們需要經歷各個階段來處理資料,例如去除不必要的低質量資料、根據某些定義的因素對資料進行分割槽等。
整合來自各種來源的資料
資料來自各種來源,例如社交媒體、不同的網站、捕獲的影像/影片、客戶日誌、個人建立的報告、報紙、電子郵件等。
收集和整合各種不同型別的資料是一項非常具有挑戰性的任務。
廣告