Apache Flume - 資料流



Flume 是一個用於將日誌資料移動到 HDFS 的框架。通常,日誌伺服器會生成事件和日誌資料,並且這些伺服器上執行著 Flume 代理。這些代理從資料生成器接收資料。

這些代理中的資料將由一個稱為**收集器**的中間節點收集。就像代理一樣,Flume 中可以有多個收集器。

最後,所有這些收集器中的資料將被聚合並推送到一個集中式儲存中,例如 HBase 或 HDFS。下圖說明了 Flume 中的資料流。

Flume DataFlow

多跳流

在 Flume 中,可以有多個代理,並且在到達最終目的地之前,事件可能會遍歷多個代理。這被稱為**多跳流**。

扇出流

從一個源到多個通道的資料流稱為**扇出流**。它有兩種型別:

  • **複製** - 資料流,其中資料將在所有配置的通道中複製。

  • **多路複用** - 資料流,其中資料將傳送到事件標題中提到的選定通道。

扇入流

資料流將資料從多個源傳輸到一個通道稱為**扇入流**。

故障處理

在 Flume 中,對於每個事件,都會發生兩個事務:一個在傳送方,一個在接收方。傳送方將事件傳送到接收方。接收方在收到資料後立即提交自己的事務,並向傳送方傳送“已接收”訊號。傳送方在收到訊號後提交其事務。(傳送方在收到接收方的訊號之前不會提交其事務。)

廣告

© . All rights reserved.