Apache Flume 簡介



什麼是 Flume?

Apache Flume 是一款用於收集、聚合和傳輸大量流式資料的工具/服務/資料攝取機制,例如來自各種來源的日誌檔案、事件(等等)到中心化資料儲存。

Flume 是一款高度可靠、分散式且可配置的工具。它主要設計用於將流式資料(日誌資料)從各種 Web 伺服器複製到 HDFS。

Apache Flume

Flume 的應用

假設一個電子商務 Web 應用程式想要分析特定區域的客戶行為。為此,他們需要將可用的日誌資料移動到 Hadoop 中進行分析。在這裡,Apache Flume 可以幫上忙。

Flume 用於以更高的速度將應用程式伺服器生成的日誌資料移動到 HDFS。

Flume 的優勢

以下是使用 Flume 的優勢:

  • 使用 Apache Flume,我們可以將資料儲存到任何中心化儲存中(HBase、HDFS)。

  • 當傳入資料的速率超過寫入目標資料的速率時,Flume 充當資料生產者和中心化儲存之間的中介,並在它們之間提供穩定的資料流。

  • Flume 提供了上下文路由功能。

  • Flume 中的事務是基於通道的,其中為每條訊息維護兩個事務(一個傳送者和一個接收者)。它保證可靠的訊息傳遞。

  • Flume 可靠、容錯、可擴充套件、可管理且可定製。

Flume 的特性

Flume 的一些顯著特性如下:

  • Flume 高效地將來自多個 Web 伺服器的日誌資料匯入中心化儲存(HDFS、HBase)。

  • 使用 Flume,我們可以立即將來自多個伺服器的資料匯入 Hadoop。

  • 除了日誌檔案,Flume 還用於匯入社交網路站點(如 Facebook 和 Twitter)和電子商務網站(如 Amazon 和 Flipkart)生成的巨量事件資料。

  • Flume 支援大量的源和目標型別。

  • Flume 支援多跳流、扇入扇出流、上下文路由等。

  • Flume 可以水平擴充套件。

廣告
© . All rights reserved.