亞馬遜網路服務教程
AWS - 首頁

亞馬遜網路服務資源
AWS - 快速指南
AWS - 有用資源
AWS - 討論

亞馬遜網路服務 - 彈性 MapReduce

Amazon Elastic MapReduce (EMR) 是一種網路服務，它提供了一個託管框架，可以輕鬆、經濟高效且安全地執行資料處理框架，例如 Apache Hadoop、Apache Spark 和 Presto。

它用於資料分析、網路索引、資料倉庫、財務分析、科學模擬等。

如何設定 Amazon EMR？

按照以下步驟設定 Amazon EMR：

步驟 1 - 登入 AWS 賬戶並在管理控制檯中選擇 Amazon EMR。

步驟 2 - 為叢集日誌和輸出資料建立 Amazon S3 儲存桶。（Amazon S3 部分詳細介紹了此過程）

步驟 3 - 啟動 Amazon EMR 叢集。

以下是建立叢集並將其啟動到 EMR 的步驟。

使用此連結開啟 Amazon EMR 控制檯：https://console.aws.amazon.com/elasticmapreduce/home
選擇建立叢集並在“叢集配置”頁面提供所需詳細資訊。

Cluster Configuration

將“標籤”部分選項保留為預設值並繼續。
在“軟體配置”部分，將選項保留為預設值。

Spark

在“檔案系統配置”部分，將 EMRFS 的選項保留為預設設定。EMRFS 是 HDFS 的一種實現，它允許 Amazon EMR 叢集將資料儲存在 Amazon S3 上。

Server Side Encryption

在“硬體配置”部分，在 EC2 例項型別欄位中選擇 m3.xlarge，並將其他設定保留為預設值。單擊“下一步”按鈕。

Hardware Configuration

在“安全和訪問”部分，對於 EC2 金鑰對，從 EC2 金鑰對欄位中的列表中選擇該對，並將其他設定保留為預設值。
在“引導操作”部分，將欄位保留為預設設定，然後單擊“新增”按鈕。引導操作是在每個叢集節點上啟動 Hadoop 之前的設定期間執行的指令碼。
在“步驟”部分，將設定保留為預設值並繼續。
單擊“建立叢集”按鈕，將開啟“叢集詳細資訊”頁面。在這裡，我們應該執行 Hive 指令碼作為叢集步驟，並使用 Hue Web 介面查詢資料。

步驟 4 - 使用以下步驟執行 Hive 指令碼。

開啟 Amazon EMR 控制檯並選擇所需的叢集。
移動到“步驟”部分並展開它。然後單擊“新增步驟”按鈕。
將開啟“新增步驟”對話方塊。填寫所需欄位，然後單擊“新增”按鈕。

Streaming Program

要檢視 Hive 指令碼的輸出，請使用以下步驟：
- 開啟 Amazon S3 控制檯並選擇用於輸出資料的 S3 儲存桶。
- 選擇輸出資料夾。
- 查詢將結果寫入一個單獨的資料夾中。選擇os_requests。
- 輸出儲存在文字檔案中。可以下載此檔案。

Amazon EMR 的優勢

以下是 Amazon EMR 的優勢：

易於使用 - Amazon EMR 易於使用，即易於設定叢集、Hadoop 配置、節點預置等。
可靠 - 從可靠性方面來說，它會重試失敗的任務並自動替換效能不佳的例項。
彈性 - Amazon EMR 允許計算大量例項以按任何規模處理資料。它可以輕鬆增加或減少例項數量。
安全 - 它會自動配置 Amazon EC2 防火牆設定、控制對例項的網路訪問、在 Amazon VPC 中啟動叢集等。
靈活 - 它允許完全控制叢集並訪問每個例項的根訪問許可權。它還允許安裝其他應用程式並根據需要自定義叢集。
經濟高效 - 其定價易於估算。它按小時對使用的每個例項收費。

列印頁面

廣告

© . All rights reserved.