- Apache Flume 教程
- Apache Flume - 首頁
- Apache Flume - 簡介
- Hadoop 中的資料傳輸
- Apache Flume - 架構
- Apache Flume - 資料流
- Apache Flume - 環境
- Apache Flume - 配置
- Apache Flume - 獲取 Twitter 資料
- 序列生成器源
- Apache Flume - NetCat 源
- Apache Flume 資源
- Apache Flume - 快速指南
- Apache Flume - 有用資源
- Apache Flume - 討論
Apache Flume - 資料流
Flume 是一個用於將日誌資料移動到 HDFS 的框架。通常,日誌伺服器會生成事件和日誌資料,並且這些伺服器上執行著 Flume 代理。這些代理從資料生成器接收資料。
這些代理中的資料將由一個稱為**收集器**的中間節點收集。就像代理一樣,Flume 中可以有多個收集器。
最後,所有這些收集器中的資料將被聚合並推送到一個集中式儲存中,例如 HBase 或 HDFS。下圖說明了 Flume 中的資料流。
多跳流
在 Flume 中,可以有多個代理,並且在到達最終目的地之前,事件可能會遍歷多個代理。這被稱為**多跳流**。
扇出流
從一個源到多個通道的資料流稱為**扇出流**。它有兩種型別:
**複製** - 資料流,其中資料將在所有配置的通道中複製。
**多路複用** - 資料流,其中資料將傳送到事件標題中提到的選定通道。
扇入流
資料流將資料從多個源傳輸到一個通道稱為**扇入流**。
故障處理
在 Flume 中,對於每個事件,都會發生兩個事務:一個在傳送方,一個在接收方。傳送方將事件傳送到接收方。接收方在收到資料後立即提交自己的事務,並向傳送方傳送“已接收”訊號。傳送方在收到訊號後提交其事務。(傳送方在收到接收方的訊號之前不會提交其事務。)
廣告