Azure Databricks入門


微軟的Azure Databricks和Azure機器學習旨在簡化開發大規模資料分析的過程,無需使用顯式程式語言或管理大量的R或Python程式碼。您可以使用這些工具執行分析和AI作業,並簡化雲環境中的資料分析和管理。

Azure Databricks起源於微軟將資料科學功能整合到Azure雲平臺的決定。微軟並沒有急於推出這項服務。然而,微軟公司開發了一個包含許多專家驅動功能的套件,包括一個程式設計介面,用於設計、訓練和執行人工智慧和分析作業。

由於雲計算在資料和分析公司運營中佔據著舉足輕重的地位,微軟將其Databricks服務從Azure遷移到了Azure公有云,以便任何Azure訂閱者都可以使用這項技術。它還將功能從無伺服器資源管理器遷移到了微軟的開放資料服務,這是Azure Databricks的核心構建塊。

Azure Databricks

Azure Databricks湖倉一體平臺提供了一套統一的工具,用於構建、部署、共享和維護大規模的企業級資料解決方案。它與雲帳戶中的分散式儲存和安全整合,並代表您管理和部署雲基礎設施。

Azure Databricks如何與Azure協同工作?

Azure Databricks平臺架構由兩個主要部分組成:Azure Databricks用於交付、配置和管理平臺和服務的框架,以及與Azure Databricks和您的組織協同管理的客戶擁有的基礎設施。

與許多企業資料庫解決方案不同,Azure Databricks不會強制您將資料遷移到專有儲存系統才能使用該平臺。

相反,您可以透過在Azure Databricks平臺和您的雲端儲存之間配置安全的整合來配置Azure Databricks工作區。然後,Azure Databricks會部署使用您帳戶中雲資源的臨時計算叢集,以處理和儲存物件儲存和其他您控制的整合服務中的資料。

Azure Databricks的用途是什麼?

我們的客戶使用Azure Databricks來處理、儲存、清理、共享、分析、建模和轉換其資料集,解決方案涵蓋從BI到AI的各種應用。您可以使用Azure Databricks平臺構建各種跨越不同資料角色的應用程式。

Azure Databricks工作區提供了許多核心資料任務的UI,包括以下工具:

  • 使用Git進行原始碼控制
  • 互動式筆記本
  • 特徵儲存
  • 工作流排程器和管理器
  • 機器學習模型服務
  • SQL編輯器和儀表板
  • 機器學習(ML)實驗跟蹤
  • 資料攝取和治理
  • 計算管理
  • 資料發現、標註和探索

建立Azure Databricks資源

要使用Azure Databricks,您必須首先在Azure訂閱中部署Azure Databricks工作區。建立一個叢集,您可以在其上執行筆記本並執行程式碼。然後,您可以上傳筆記本和資料來試用工作區。

部署Azure Databricks工作區

等待工作區建立完成。工作區建立需要幾分鐘時間。在工作區建立期間,門戶會在右側顯示Azure Databricks平鋪的部署情況。您可以觀察任一區域的進度。螢幕頂部還會顯示一個進度條。

建立叢集

建立Azure Databricks工作區資源後,請在門戶中轉到該資源,然後選擇“啟動工作區”以在新選項卡中開啟您的Databricks工作區。

在Databricks工作區的左側選單中,選擇“計算”,然後按“+ 建立叢集”新增一個具有以下規範的新叢集:

名稱:輸入唯一名稱。

叢集模式:單節點

Databricks執行時版本:選擇最新執行時版本的ML版本,而不是標準執行時版本。確保選擇的ML版本:

節點型別:Standard_DS3_v2

不使用GPU

包含Scala > 2.11

空閒120分鐘後終止

包含Spark > 3.0

選擇“建立叢集”

您的叢集將在幾分鐘內準備好。叢集將自動啟動,叢集名稱旁邊的“掛起旋轉”指示器將變為實心綠色圓圈,顯示“正在執行”狀態。

上傳資料

下載下面的檔案,並將其另存為nyc-taxi.csv到任意資料夾。

https://raw.githubusercontent.com/MicrosoftLearning/dp-090-databricks-ml/master/data/nyc-taxi.csv

在Databricks工作區的“資料”頁面上選擇“建立表”。

在“檔案”區域中,選擇“瀏覽”並瀏覽到您下載的nyc-taxi.csv檔案。

將檔案上傳到工作區後,選擇“使用UI建立表”。

選擇已建立的叢集並預覽表。單擊“建立表”。

表建立後,您可以在工作區中檢視它。

匯入Databricks筆記本

在Azure Databricks工作區中,使用左側的命令欄選擇“工作區”。然後選擇“使用者”和your_user_name。

在出現的刀片中,選擇名稱旁邊的向下箭頭,然後選擇“匯入”以匯入它。

在“匯入筆記本”對話方塊中,從以下URL匯入筆記本存檔,請注意,將建立一個包含一個或多個筆記本的資料夾,其名稱與存檔名稱相同:

https://github.com/MicrosoftLearning/dp-090-databricks-ml/raw/master/01%20-%20Introduction%20to%20Azure%20Databricks.dbc

再次重複上述步驟以匯入筆記本存檔。對於每個匯入的存檔,都會建立一個資料夾。

結論

微軟在其已建立的基礎上不斷改進其服務。一個重要的關注領域是互動性和文件。Azure Databricks工作區文件和示例程式碼得到了大幅更新,微軟還計劃改進Azure ML建模器和PubSub的文件。微軟還在投資培訓,以支援Databricks成為構建AI模型、資料工程作業和整體資料分析工作流程的認可平臺。

更新於:2022年12月16日

2K+ 次瀏覽

啟動您的職業生涯

完成課程獲得認證

開始
廣告
© . All rights reserved.