資料流的進出


從多個來源持續生成的資料被稱為流資料。可以使用流處理技術來處理、儲存、分析和處理即時資料流。“流”是指持續不斷、沒有開始或結束的資料流,因為它提供穩定的資料流,無需先下載即可使用或處理。同樣,資料流來自各種來源,並以各種形式和數量存在。應用程式、網路工具、伺服器日誌檔案、網站活動、金融交易和位置資料都可以組合起來,從單一的事實來源中收集即時資料和分析。

什麼是資料流?

如今有無數的資料來源,包括伺服器、應用程式、安全日誌、內部/外部系統和日誌檔案。控制所建立資料的結構、資料完整性或資料量或速度基本上是不可能的。

流資料架構提供了在資料傳輸過程中使用、持久儲存、豐富和分析資料的能力。相比之下,傳統系統旨在在資料可用之前對其進行攝取、處理和組織。

因此,處理和儲存將始終是使用資料流執行的程式所需的兩個基本任務。儲存必須能夠順序且一致地記錄大型資料流。處理必須能夠與儲存通訊,攝取資料,分析資料,並對其進行計算。

資料流的應用

每個行業都存在流資料的用例。其中包括即時市場交易、當前零售庫存管理、社交媒體Feed、多人遊戲互動和拼車應用程式,僅舉幾例。

例如,當乘客打電話給Lyft時,即時資料流彙集在一起,從而提供無縫的使用者體驗。該程式使用這些資訊來結合即時位置監控、交通統計、價格和交通資料,根據即時和歷史資料為乘客選擇最佳駕駛員、成本和預計出行時間。

為了避免罰款,一家太陽能公司必須跟上其客戶的電力流量。它建立了一個流資料應用程式,用於跟蹤現場的每個面板,即時規劃服務,並減少每個面板經歷低吞吐量以及由此產生的罰款支付的時間。

一家媒體發行商從其線上領域流式傳輸數十億條點選流記錄,將資料與使用者人口統計資料相結合並增強資料,並最佳化其網站上的內容佈局,以使其受眾獲得更相關和更愉快的體驗。

一家線上遊戲公司收集有關玩家遊戲互動的流資料並將其傳送到遊戲平臺。然後,為了保持玩家的興趣,它進行即時資料分析,並提供獎勵和令人興奮的體驗。

即時分析

企業可以使用即時分析透過資料流跟蹤其運營。為了報告正在發生的事情,可以使用時間序列資料分析技術來分析生成的資料。由於物聯網 (IoT) 的出現,可以廣播的資料型別和數量急劇增加。資料流大量用於即時分析。

因此,我們承認資料分析和資料流的三個 V——多樣性、體積和速度——通常是公認的。當與物聯網結合使用時,企業可以從多個感測器和監控器獲得資料流,從而增強其即時微觀管理多個動態變數的能力。

即時分析是有益的,因為它們使企業能夠更好地跟蹤其運營。因此,如果裝置出現故障或讀數返回需要立即採取行動的資訊,則企業擁有采取行動所需的資訊。

這樣,流資料就成為每個資料驅動型企業的基石,實現了大量資料的攝取、整合和即時分析。

使用資料流的原因

資料的收集只是挑戰的一個方面。當今的企業組織不能等待批處理資料處理。相反,從電子商務網站到拼車應用程式和股票市場平臺,各種應用都使用即時資料流。

當與流資料一起使用時,應用程式不僅可以整合資料,還可以處理、過濾、分析和響應接收到的資料。這使得各種新的用例成為可能,包括即時欺詐檢測、Netflix 建議以及跨各種裝置更新的無縫購物體驗。換句話說,這項技術將使每個使用大資料並可以從持續的即時資料中獲益的行業受益。

資料流的挑戰

流資料處理需要處理層和儲存層。為了提供記錄排序和可靠的一致性,儲存層必須能夠處理快速、經濟高效且可重放的大量資料流的讀寫操作。處理層的職責是從儲存層使用資料,處理資料,並最終告訴儲存層刪除不再需要的內容。在設計儲存和處理層時,必須考慮可擴充套件性、資料壽命和容錯能力。可以使用各種平臺構建流資料應用程式,包括 Amazon Kinesis Data Streams、Amazon Kinesis Data Firehose、Amazon Managed Streaming for Apache Kafka (Amazon MSK)、Apache Flume 和 Apache Spark。

結論

直到最近,只有少數極少數的利基行業(如媒體流和股票市場估值)才使用資料流。如今,它已廣泛應用於許多行業。組織可以使用資料流即時管理資料,從而監控其業務的各個方面。

更新於:2022年11月21日

237 次瀏覽

啟動您的 職業生涯

透過完成課程獲得認證

開始
廣告