更新於 2022 年 8 月 25 日 12:29:12
517 次檢視
RDD 的全稱為分散式資料庫。Spark 的效能基於此模糊集,使其能夠持續應對各種主要資料處理條件,包括 MapReduce、流處理、SQL、機器學習、圖形等。Spark 支援許多程式語言,包括 Scala、Python 和 R。RDD 還支援使用這些語言來維護資源。如何建立 RDD Spark 在以下多個區域中支援建立 RDD,包括本地檔案系統、HDFS 檔案系統、記憶體和 HBase。對於本地檔案系統,我們可以透過以下方式建立 RDD - val distFile = sc.textFile("file:///user/root/rddData.txt") 在 ... 中新增更多內容瞭解更多