Spark是一個(gè)開(kāi)源的,并行數(shù)據(jù)處理框架,能夠幫助用戶簡(jiǎn)單的開(kāi)發(fā)快速,統(tǒng)一的 大數(shù)據(jù) 應(yīng)用,對(duì)數(shù)據(jù)進(jìn)行,協(xié)處理,流式處理,交互式分析等等。
Spark提供了一個(gè)快速的計(jì)算,寫入,以及交互式查詢的框架。相比于Hadoop,Spark擁有明顯的性能優(yōu)勢(shì)。Spark使用in-memory的計(jì)算方式,通過(guò)這種方式來(lái)避免一個(gè)MapReduce工作流中的多個(gè)任務(wù)對(duì)同一個(gè) 數(shù)據(jù)集 進(jìn)行計(jì)算時(shí)的IO瓶頸。Spark利用Scala語(yǔ)言實(shí)現(xiàn),Scala能夠使得處理分布式數(shù)據(jù)集時(shí),能夠像處理本地化數(shù)據(jù)一樣。除了交互式的數(shù)據(jù)分析,Spark還能夠支持交互式的數(shù)據(jù)挖掘,由于Spark是基于內(nèi)存的計(jì)算,很方便處理迭代計(jì)算,而數(shù)據(jù)挖掘的問(wèn)題通常都是對(duì)同一份數(shù)據(jù)進(jìn)行迭代計(jì)算。除此之外,Spark能夠運(yùn)行于安裝Hadoop 2.0 Yarn的集群。之所以Spark能夠在保留MapReduce容錯(cuò)性,數(shù)據(jù)本地化,可擴(kuò)展性等特性的同時(shí),能夠保證性能的高效,并且避免繁忙的磁盤IO,主要原因是因?yàn)镾park創(chuàng)建了一種叫做RDD(Resilient Distributed Dataset)的內(nèi)存抽象結(jié)構(gòu)。
鏈接:https://support.huaweicloud.com/productdesc-mrs/mrs_08_000801.html
華為云推薦:
MapReduce服務(wù) https://support.huaweicloud.com/mrs/index.html