更新於 2022 年 8 月 25 日 12:29:12
516 次瀏覽
RDD 的全稱是分散式資料庫。Spark 效能基於此不明確的集合,讓其可以一以貫之地應對大資料處理條件,包括 MapReduce、流、SQL、機器學習、圖形等。Spark 支援多種程式語言,包括 Scala、Python 和 R。RDD 也支援維護這些語言中的素材。如何建立 RDD Spark 在多處支援 RDD 架構,包括本地檔案系統、HDFS 檔案系統、記憶體和 HBase。對於本地檔案系統,我們可以透過以下方式建立 RDD:val distFile = sc.textFile("file:///user/root/rddData.txt") 預設情況下,Spark 會採用 ... 瞭解更多