Azure Databricks入門
微軟的Azure Databricks和Azure機器學習旨在簡化開發大規模資料分析的過程,無需使用顯式程式語言或管理大量的R或Python程式碼。您可以使用這些工具執行分析和AI作業,並簡化雲環境中的資料分析和管理。
Azure Databricks起源於微軟將資料科學功能整合到Azure雲平臺的決定。微軟並沒有急於推出這項服務。然而,微軟公司開發了一個包含許多專家驅動功能的套件,包括一個程式設計介面,用於設計、訓練和執行人工智慧和分析作業。
由於雲計算在資料和分析公司運營中佔據著舉足輕重的地位,微軟將其Databricks服務從Azure遷移到了Azure公有云,以便任何Azure訂閱者都可以使用這項技術。它還將功能從無伺服器資源管理器遷移到了微軟的開放資料服務,這是Azure Databricks的核心構建塊。
Azure Databricks
Azure Databricks湖倉一體平臺提供了一套統一的工具,用於構建、部署、共享和維護大規模的企業級資料解決方案。它與雲帳戶中的分散式儲存和安全整合,並代表您管理和部署雲基礎設施。
Azure Databricks如何與Azure協同工作?
Azure Databricks平臺架構由兩個主要部分組成:Azure Databricks用於交付、配置和管理平臺和服務的框架,以及與Azure Databricks和您的組織協同管理的客戶擁有的基礎設施。
與許多企業資料庫解決方案不同,Azure Databricks不會強制您將資料遷移到專有儲存系統才能使用該平臺。
相反,您可以透過在Azure Databricks平臺和您的雲端儲存之間配置安全的整合來配置Azure Databricks工作區。然後,Azure Databricks會部署使用您帳戶中雲資源的臨時計算叢集,以處理和儲存物件儲存和其他您控制的整合服務中的資料。
Azure Databricks的用途是什麼?
我們的客戶使用Azure Databricks來處理、儲存、清理、共享、分析、建模和轉換其資料集,解決方案涵蓋從BI到AI的各種應用。您可以使用Azure Databricks平臺構建各種跨越不同資料角色的應用程式。
Azure Databricks工作區提供了許多核心資料任務的UI,包括以下工具:
- 使用Git進行原始碼控制
- 互動式筆記本
- 特徵儲存
- 工作流排程器和管理器
- 機器學習模型服務
- SQL編輯器和儀表板
- 機器學習(ML)實驗跟蹤
- 資料攝取和治理
- 計算管理
- 資料發現、標註和探索
建立Azure Databricks資源
要使用Azure Databricks,您必須首先在Azure訂閱中部署Azure Databricks工作區。建立一個叢集,您可以在其上執行筆記本並執行程式碼。然後,您可以上傳筆記本和資料來試用工作區。
部署Azure Databricks工作區
等待工作區建立完成。工作區建立需要幾分鐘時間。在工作區建立期間,門戶會在右側顯示Azure Databricks平鋪的部署情況。您可以觀察任一區域的進度。螢幕頂部還會顯示一個進度條。
建立叢集
建立Azure Databricks工作區資源後,請在門戶中轉到該資源,然後選擇“啟動工作區”以在新選項卡中開啟您的Databricks工作區。
在Databricks工作區的左側選單中,選擇“計算”,然後按“+ 建立叢集”新增一個具有以下規範的新叢集:
名稱:輸入唯一名稱。
叢集模式:單節點
Databricks執行時版本:選擇最新執行時版本的ML版本,而不是標準執行時版本。確保選擇的ML版本:
節點型別:Standard_DS3_v2
不使用GPU
包含Scala > 2.11
空閒120分鐘後終止
包含Spark > 3.0
選擇“建立叢集”
您的叢集將在幾分鐘內準備好。叢集將自動啟動,叢集名稱旁邊的“掛起旋轉”指示器將變為實心綠色圓圈,顯示“正在執行”狀態。
上傳資料
下載下面的檔案,並將其另存為nyc-taxi.csv到任意資料夾。
https://raw.githubusercontent.com/MicrosoftLearning/dp-090-databricks-ml/master/data/nyc-taxi.csv
在Databricks工作區的“資料”頁面上選擇“建立表”。
在“檔案”區域中,選擇“瀏覽”並瀏覽到您下載的nyc-taxi.csv檔案。
將檔案上傳到工作區後,選擇“使用UI建立表”。
選擇已建立的叢集並預覽表。單擊“建立表”。
表建立後,您可以在工作區中檢視它。
匯入Databricks筆記本
在Azure Databricks工作區中,使用左側的命令欄選擇“工作區”。然後選擇“使用者”和your_user_name。
在出現的刀片中,選擇名稱旁邊的向下箭頭,然後選擇“匯入”以匯入它。
在“匯入筆記本”對話方塊中,從以下URL匯入筆記本存檔,請注意,將建立一個包含一個或多個筆記本的資料夾,其名稱與存檔名稱相同:
再次重複上述步驟以匯入筆記本存檔。對於每個匯入的存檔,都會建立一個資料夾。
結論
微軟在其已建立的基礎上不斷改進其服務。一個重要的關注領域是互動性和文件。Azure Databricks工作區文件和示例程式碼得到了大幅更新,微軟還計劃改進Azure ML建模器和PubSub的文件。微軟還在投資培訓,以支援Databricks成為構建AI模型、資料工程作業和整體資料分析工作流程的認可平臺。
資料結構
網路
關係資料庫管理系統 (RDBMS)
作業系統
Java
iOS
HTML
CSS
Android
Python
C語言程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP