華為云提供了 大數(shù)據(jù) MapReduce服務(wù) (MRS),MRS是一個在華為云上部署和管理Hadoop系統(tǒng)的服務(wù),一鍵即可部署Hadoop集群。
產(chǎn)品架構(gòu)
華為云MRS的邏輯架構(gòu)如圖1所示。
圖1 MRS架構(gòu)
.jpg)
MRS架構(gòu)包括了基礎(chǔ)設(shè)施和大數(shù)據(jù)處理流程各個階段的能力。
基礎(chǔ)設(shè)施
MRS基于華為云彈性 云服務(wù)器ECS 構(gòu)建的大 數(shù)據(jù)集 群,充分利用了其虛擬化層的高可靠、高安全的能力。
虛擬私有云 (VPC)為每個租戶提供的虛擬內(nèi)部網(wǎng)絡(luò),默認(rèn)與其他網(wǎng)絡(luò)隔離。
云硬盤 (EVS)提供高可靠、高性能的存儲。
彈性 云服務(wù)器 (ECS)提供的彈性可擴(kuò)展虛擬機,結(jié)合VPC、安全組、EVS數(shù)據(jù)多副本等能力打造一個高效、可靠、安全的計算環(huán)境。
數(shù)據(jù)集成
數(shù)據(jù)集成層提供了數(shù)據(jù)接入到MRS集群的能力,包括Flume(數(shù)據(jù)采集)、Loader(關(guān)系型數(shù)據(jù)導(dǎo)入)、Kafka(高可靠消息隊列),支持各種數(shù)據(jù)源導(dǎo)入數(shù)據(jù)到大數(shù)據(jù)集群中。
數(shù)據(jù)存儲
MRS支持結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)在集群中的存儲,并且支持多種高效的格式來滿足不同計算引擎的要求。
HDFS是大數(shù)據(jù)上通用的分布式文件系統(tǒng)。
OBS是 對象存儲服務(wù) ,具有高可用低成本的特點。
HBase支持帶索引的數(shù)據(jù)存儲,適合高性能基于索引查詢的場景。
數(shù)據(jù)計算
MRS提供多種主流計算引擎:MapReduce(批處理)、Tez(DAG模型)、Spark(內(nèi)存計算)、SparkStreaming(微批流計算)、Storm(流計算)、Flink(流計算),滿足多種大數(shù)據(jù)應(yīng)用場景,將數(shù)據(jù)進(jìn)行結(jié)構(gòu)和邏輯的轉(zhuǎn)換,轉(zhuǎn)化成滿足業(yè)務(wù)目標(biāo)的數(shù)據(jù)模型。
數(shù)據(jù)分析
基于預(yù)設(shè)的數(shù)據(jù)模型,使用易用SQL的數(shù)據(jù)分析,用戶可以選擇Hive( 數(shù)據(jù)倉庫 ),SparkSQL以及Presto交互式查詢引擎。
數(shù)據(jù)呈現(xiàn)調(diào)度
用于數(shù)據(jù)分析結(jié)果的呈現(xiàn),并與 數(shù)據(jù)湖 工廠(DLF)集成,提供一站式的大數(shù)據(jù)協(xié)同開發(fā)平臺,幫助用戶輕松完成數(shù)據(jù)建模、數(shù)據(jù)集成、腳本開發(fā)、作業(yè)調(diào)度、運維監(jiān)控等多項任務(wù),可以極大降低用戶使用大數(shù)據(jù)的門檻,幫助用戶快速構(gòu)建大數(shù)據(jù)處理中心。
集群管理
以Hadoop為基礎(chǔ)的大數(shù)據(jù)生態(tài)的各種組件均是以分布式的方式進(jìn)行部署,其部署、管理和運維復(fù)雜度較高。
MRS集群管理提供了統(tǒng)一的運維管理平臺,包括一鍵式部署集群能力,并提供多版本選擇,支持運行過程中集群在無業(yè)務(wù)中斷條件下,進(jìn)行擴(kuò)縮容、 彈性伸縮 。同時MRS集群管理還提供了作業(yè)管理、資源標(biāo)簽管理,以及對上述數(shù)據(jù)處理各層組件的運維,并提供監(jiān)控、告警、配置、補丁升級等一站式運維能力。