Apache Flume - 資料流

Flume 是一個用於將日誌資料移動到 HDFS 的框架。通常，日誌伺服器會生成事件和日誌資料，並且這些伺服器上執行著 Flume 代理。這些代理從資料生成器接收資料。

這些代理中的資料將由一個稱為**收集器**的中間節點收集。就像代理一樣，Flume 中可以有多個收集器。

最後，所有這些收集器中的資料將被聚合並推送到一個集中式儲存中，例如 HBase 或 HDFS。下圖說明了 Flume 中的資料流。

多跳流

在 Flume 中，可以有多個代理，並且在到達最終目的地之前，事件可能會遍歷多個代理。這被稱為**多跳流**。

從一個源到多個通道的資料流稱為**扇出流**。它有兩種型別：

資料流將資料從多個源傳輸到一個通道稱為**扇入流**。

在 Flume 中，對於每個事件，都會發生兩個事務：一個在傳送方，一個在接收方。傳送方將事件傳送到接收方。接收方在收到資料後立即提交自己的事務，並向傳送方傳送“已接收”訊號。傳送方在收到訊號後提交其事務。（傳送方在收到接收方的訊號之前不會提交其事務。）

列印頁面