- 大資料分析教程
- 大資料分析 - 首頁
- 大資料分析 - 概述
- 大資料分析 - 特徵
- 大資料分析 - 資料生命週期
- 大資料分析 - 架構
- 大資料分析 - 方法論
- 大資料分析 - 核心交付成果
- 大資料採用與規劃注意事項
- 大資料分析 - 關鍵利益相關者
- 大資料分析 - 資料分析師
- 大資料分析 - 資料科學家
- 大資料分析有用資源
- 大資料分析 - 快速指南
- 大資料分析 - 資源
- 大資料分析 - 討論
大資料分析 - 特徵
大資料是指極其龐大的資料集,可以透過分析這些資料集來揭示模式、趨勢和關聯,尤其是在與人類行為和互動相關方面。
大資料特徵
大資料的特徵通常用“五個V”來概括,包括:
容量(Volume)
顧名思義,容量是指每秒鐘使用物聯網裝置、社交媒體、影片、金融交易和客戶日誌生成和儲存的大量資料。從裝置或不同來源生成的資料範圍可以從TB到PB甚至更大。管理如此大量的資料需要強大的儲存解決方案和先進的資料處理技術。Hadoop框架用於儲存、訪問和處理大資料。
Facebook每天生成4PB的資料,相當於一百萬GB。所有這些資料都儲存在稱為Hive的系統中,該系統包含大約300PB的資料[1]。
圖:每天在社交應用上花費的分鐘數(圖片來源:Recode)
圖:印度領先社交媒體應用的使用者參與度(圖片來源:www.statista.com)[2]
從上圖可以預測使用者如何將時間用於訪問不同的渠道和轉換資料,因此,資料容量正在日益增長。
速度(Velocity)
資料生成、處理和分析的速度。隨著物聯網裝置和即時資料流的發展和使用,資料的速度已大幅提升,需要能夠即時處理資料以獲得有意義的見解的系統。一些高速資料應用如下:
多樣性(Variety)
大資料包含不同型別的資料,例如結構化資料(存在於資料庫中)、非結構化資料(如文字、影像、影片)和半結構化資料(如JSON和XML)。這種多樣性需要先進的工具進行資料整合、儲存和分析。
管理大資料多樣性的挑戰:
大資料應用中的多樣性:
真實性(Veracity)
真實性是指資料的準確性和可信度。確保資料質量、解決資料差異和處理資料模糊性都是大資料分析中的主要問題。
價值(Value)
將海量資料轉換為有用見解的能力。大資料的最終目標是提取有意義且可操作的見解,從而帶來更好的決策、新產品、增強的消費者體驗和競爭優勢。
這些特性體現了大資料的本質,並突出了現代工具和技術對於有效資料管理、處理和分析的重要性。
廣告