IDC調(diào)研顯示, 大數(shù)據(jù) 分析已在數(shù)字化轉(zhuǎn)型戰(zhàn)略中成為第一要務(wù)。今年1月發(fā)布的《大數(shù)據(jù)技術(shù)前瞻》中更指出:超大規(guī)模數(shù)據(jù)如何組織和管理、數(shù)據(jù)量指數(shù)級增長時效性差、數(shù)據(jù)如何打破多源異構(gòu)造成的隔閡、從單域走向跨域數(shù)據(jù)融合、 數(shù)據(jù)治理 質(zhì)量評估等仍是制約大數(shù)據(jù)發(fā)展的瓶頸。當前,湖倉一體是最佳解決方案。
湖倉一體是構(gòu)建現(xiàn)代數(shù)據(jù)棧的關(guān)鍵
在近兩年的Gartner 數(shù)據(jù)管理 技術(shù)成熟曲線圖中,Lakehouse湖倉一體技術(shù)已成為主流架構(gòu),其主要觀點是結(jié)合 數(shù)據(jù)湖 和 數(shù)據(jù)倉庫 的優(yōu)勢,旨在構(gòu)建高效、靈活、簡潔的現(xiàn)代數(shù)據(jù)平臺。
數(shù)據(jù)湖內(nèi)承載全量數(shù)據(jù),根據(jù)業(yè)務(wù)需求靈活組合,對數(shù)據(jù)進行批量、實時加工,讓企業(yè)用一份數(shù)據(jù),按需建立AI、BI、數(shù)據(jù)科學(xué)等多工作負載,加速數(shù)據(jù)在湖內(nèi)流動,減少80%的數(shù)據(jù)搬遷,一個數(shù)據(jù)平臺按需支持批處理、流計算、交互式查詢和機器學(xué)習(xí)四大場景,根據(jù)上層業(yè)務(wù)建設(shè)多樣性數(shù)倉集市。
湖倉一體避免了煙囪式割裂建設(shè)導(dǎo)致的效率問題,進一步降低多技術(shù)平臺導(dǎo)致的運維復(fù)雜度,降低了跨湖倉來回ETL的時延。
云技術(shù)、開源社區(qū)和開放技術(shù)模式,促使大數(shù)據(jù)飛速發(fā)展
▎頭部云廠商引領(lǐng)大數(shù)據(jù)技術(shù)發(fā)展
根據(jù)《IDC大數(shù)據(jù)平臺市場報告,2021H1》發(fā)現(xiàn)大數(shù)據(jù)平臺的Top4廠商均為云廠商。 云計算 為大數(shù)據(jù)提供計算、存儲資源,具有 彈性伸縮 ,動態(tài)擴展等優(yōu)勢,加速了云與大數(shù)據(jù)技術(shù)深度融合。
· 優(yōu)勢一:資源彈性發(fā)放,業(yè)務(wù)快速上線
通過 云原生 大數(shù)據(jù)服務(wù),實現(xiàn)小時級發(fā)放上線,容器化部署,讓客戶更加聚焦上層業(yè)務(wù)。
· 優(yōu)勢二:存算分離,更低TCO
云計算可以將計算和存儲資源分離,實現(xiàn)計算不夠擴計算、存儲不足擴存儲。
· 優(yōu)勢三:多服務(wù)組合,靈活按需建立多工作負載
通過湖倉一體和云原生技術(shù),圍繞全局一份數(shù)據(jù),按數(shù)據(jù)全生命周期展開,靈活按需構(gòu)建。
▎大數(shù)據(jù)開源技術(shù)蓬勃發(fā)展
近十年來,經(jīng)過全球持續(xù)技術(shù)投入,大數(shù)據(jù)開源技術(shù)已經(jīng)成為事實標準,并在客戶數(shù)字化、智能化轉(zhuǎn)型推動下加速迭代更新??此泼赓M、易獲得的特點,使得開源軟件在各領(lǐng)域有意無意獲得廣泛使用。
根據(jù)DB-Engine顯示開源license流行度已經(jīng)超過一半,開源技術(shù)仍將持續(xù)主導(dǎo)大數(shù)據(jù)技術(shù)發(fā)展,即“軟件吞噬世界,開源吞噬軟件”。
▎開放數(shù)據(jù)格式更加適合靈活建模分析
大數(shù)據(jù)如今已經(jīng)從早期的批量加工深入到政企客戶全業(yè)務(wù)場景,但如果還采用傳統(tǒng)的FS-LDM方式建模,將會面臨靈活性差、周期長、成本高的問題。處于業(yè)務(wù)高速發(fā)展期的客戶,往往要求數(shù)據(jù)平臺要靈活、高效。
大數(shù)據(jù)技術(shù)通過開放的數(shù)據(jù)格式,幫助客戶快速構(gòu)建面向不同使用者的貼源層-明細層-匯總層-集市層,結(jié)合大寬表自助式OLAP分析組件,進一步解決大數(shù)據(jù)的大表關(guān)聯(lián)問題,面向業(yè)務(wù)靈活建模,讓數(shù)據(jù)驅(qū)動業(yè)務(wù)創(chuàng)新更加輕量敏捷。
華為云Stack FusionInsight MRS,云原生數(shù)據(jù)湖讓數(shù)據(jù)走上“高速”路
華為在湖倉一體早有布局,在2020年華為全球分析師大會上華為云CTO張宇昕發(fā)布了FusionInsight湖倉一體架構(gòu)。
作為部署在政企客戶本地數(shù)據(jù)中心的云基礎(chǔ)設(shè)施,華為云Stack提供FusionInsight MRS云原生數(shù)據(jù)湖(以下簡稱“FusionInsight MRS”),采用“一湖+多樣集群+數(shù)據(jù)智能”分層建設(shè),加速現(xiàn)代數(shù)據(jù)棧構(gòu)建。
當前,政企客戶數(shù)據(jù)平臺存在三種常見的建設(shè)方案:
X 傳統(tǒng)數(shù)倉
興起于上世紀90年代,對于早期僅需求數(shù)據(jù)OLAP較為常用。隨著政企客戶業(yè)務(wù)高速發(fā)展,對于面對多樣性數(shù)據(jù)需要匹配業(yè)務(wù)特定場景的多樣化訴求,能力太過單一。
X 傳統(tǒng)大數(shù)據(jù)
早期政企往往按業(yè)務(wù)部門需求,分開建設(shè)批處理集群、流處理集群,煙囪式建設(shè)導(dǎo)致建設(shè)成本居高不下。多系統(tǒng)平臺運維復(fù)雜,還存在大量數(shù)據(jù)冗余,造成ETL來回搬遷,制約了政企數(shù)據(jù)發(fā)揮要素關(guān)鍵價值。
X 湖外建倉
數(shù)倉在上世紀90年代高速發(fā)展,當時信息化程度較高的金融、運營商等行業(yè),大量使用了傳統(tǒng)數(shù)倉。2010-2020年之間,隨著Spark、Flink、Hive、HBase、ClickHouse等技術(shù)逐步成熟,大數(shù)據(jù)逐步成為數(shù)據(jù)處理主要平臺,湖外建倉導(dǎo)致湖倉來回搬遷的耗時問題日益凸顯,超長的數(shù)據(jù)處理鏈路,多系統(tǒng)維護的復(fù)雜度,成為政企客戶釋放數(shù)據(jù)價值的障礙。
上述三種傳統(tǒng)企業(yè)數(shù)據(jù)分析平臺,現(xiàn)在都可以平滑演進到FusionInsight MRS。
▎FusionInsight MRS“一湖+多樣集群+數(shù)據(jù)智能”分層建設(shè)
FusionInsight MRS通過“一湖+多樣集群+數(shù)據(jù)智能”分層建設(shè),有效整合傳統(tǒng)大數(shù)據(jù)、傳統(tǒng)數(shù)倉、湖外建倉方案,實現(xiàn)傳統(tǒng)大數(shù)據(jù)平臺向云原生數(shù)據(jù)湖演進、傳統(tǒng)數(shù)倉 數(shù)據(jù)集 可以向MRS多樣性集市升級。
· FusionInsight MRS采用湖倉一體架構(gòu),結(jié)合湖倉優(yōu)勢,即保障了全局一份數(shù)據(jù),還實現(xiàn)了數(shù)據(jù)的一致性,進一步讓實現(xiàn)大數(shù)據(jù)平臺SQL化更好的落地;
· 政企客戶可以采用全局一個數(shù)據(jù)湖,讓內(nèi)部全量數(shù)據(jù)充分共享、存儲與計算,實現(xiàn)數(shù)據(jù)資源相關(guān)的集約化;
· 現(xiàn)代數(shù)據(jù)??梢蕴峁┒鄻有约校罂蛻舭凑諛I(yè)務(wù)場景,在一個數(shù)據(jù)湖之上,匹配最適合當前業(yè)務(wù)的數(shù)倉集市,讓數(shù)據(jù)計算達到極致性能;
· 當然,近年來數(shù)智融合技術(shù)的成熟,在Gartner相關(guān)報告建設(shè)“以數(shù)據(jù)為中心的人工智能”的指導(dǎo)下,AI將基于數(shù)據(jù)湖,實現(xiàn)“數(shù)據(jù)->信息->知識->智慧”的價值閉環(huán)。
▎FusionInsight MRS湖倉一體架構(gòu)實現(xiàn)集約化建設(shè)“一企一湖”
政企客戶使用湖倉一體后,可以實現(xiàn):
· 架構(gòu)開放,讓企業(yè)數(shù)據(jù)平臺持續(xù)演進
相較傳統(tǒng)數(shù)倉、 數(shù)據(jù)庫 系統(tǒng),大數(shù)據(jù)面向海量數(shù)據(jù)分析而生,其橫向擴展能力強,并隨著政企客戶業(yè)務(wù)的高速發(fā)展,最大單集群已經(jīng)可擴至6萬多節(jié)點,還可以通過集群聯(lián)邦無限擴容。
· 單向流動,數(shù)據(jù)一致性好
單向流動,無交叉。湖倉一體批流一體技術(shù)的成熟,讓一份數(shù)據(jù)在加工時就實現(xiàn)不同業(yè)務(wù)數(shù)據(jù)的分層解耦,即保障了靈活性,又保障了時效性,更是實現(xiàn)全局數(shù)據(jù)的一致性,保障數(shù)據(jù)的“清潔”,也進一步減輕了數(shù)據(jù)治理的負擔。
· 全生命周期數(shù)據(jù)開發(fā)和數(shù)據(jù)治理,提高數(shù)據(jù)質(zhì)量
數(shù)據(jù)治理是數(shù)據(jù)分析正確的前提,數(shù)據(jù)治理為政企客戶提供多源數(shù)據(jù)的集成,通過數(shù)據(jù)開發(fā)編排實現(xiàn)數(shù)據(jù)作業(yè)的ETL和作業(yè) 自動化 ,采用數(shù)據(jù)適量實現(xiàn)政企客戶多層級全局統(tǒng)一的數(shù)據(jù)質(zhì)量,最終形成可視、可管、可用的高質(zhì)量 數(shù)據(jù)地圖 。
· 數(shù)據(jù)“可用不可見”
隨著人工智能、密碼學(xué)、可信執(zhí)行環(huán)境三個關(guān)鍵技術(shù)的成熟,以保障 數(shù)據(jù)安全 與隱私為前提,數(shù)據(jù)的可信流通與用數(shù),將通過多域數(shù)據(jù)聯(lián)邦分析與訓(xùn)練實現(xiàn),在數(shù)據(jù)開放、數(shù)據(jù)交易、普惠金融、聯(lián)合營銷、聯(lián)合風(fēng)控等場景大放異彩。
▎FusionInsight MRS多樣集市靈活匹配高速發(fā)展的業(yè)務(wù)訴求
為靈活匹配高速發(fā)展的業(yè)務(wù)訴求,F(xiàn)usionInsight MRS也提供了豐富的組件:
· 在多表復(fù)雜關(guān)聯(lián)場景
大容量多表復(fù)雜關(guān)聯(lián)分析組件Doris可以實現(xiàn)PB級數(shù)據(jù)亞秒響應(yīng)的。
· 在多維分析場景
ClickHouse支持亞秒級大寬表實時OLAP,單表支持1萬多列,萬億行數(shù)據(jù)。
· 在時序分析方面
專業(yè)的時序數(shù)據(jù)庫IoTDB提供“專、快、易、穩(wěn)、省”能力,壓縮比相較傳統(tǒng)時序數(shù)據(jù)庫壓縮比高達20多倍。
同時在眾多分析數(shù)倉集市場景,還提供了GES 圖引擎 、MRS HBase、Elasticsearch、Redis等其他多樣集市,滿足客戶針對業(yè)務(wù)場景數(shù)據(jù)量、時效性等業(yè)務(wù)特點,按需、經(jīng)濟地建設(shè)多樣數(shù)據(jù)集市的訴求。
基于FusionInsight 智能數(shù)據(jù)湖 ,已經(jīng)幫助客戶數(shù)據(jù)在“高速”路上馳騁:
工商銀行攜手華為云Stack提供的FusionInsight MRS湖倉一體批流一體技術(shù),建成同業(yè)最大單集群,總規(guī)模達5000+節(jié)點,支撐300+行內(nèi)大數(shù)據(jù)應(yīng)用,日均承載批量計算作業(yè)數(shù)達30萬+,支撐行內(nèi)外金融數(shù)據(jù)服務(wù)。
某股份制銀行,早期采用批處理集群、數(shù)據(jù)分析集群、實時處理集群、數(shù)據(jù)倉庫4套集群,存在多集群建設(shè),管理維護復(fù)雜,人力填入代價高。
通過采用FusionInsight MRS方案,集群歸一化建設(shè),使得集群規(guī)模降低28.2%,資源利用率提升20%+,運維工作量減少50%,極大提升行內(nèi)用數(shù)效率。
目前,F(xiàn)usionInsight智能數(shù)據(jù)湖已服務(wù)于全球60多個國家的3500多個客戶,累計交付40多萬節(jié)點,最大單集群已達1萬多節(jié)點,700多PB,助力政務(wù)、金融、泛企業(yè)行業(yè)加速現(xiàn)代數(shù)據(jù)棧建設(shè)。
最新文章
- GaussDB數(shù)據(jù)庫的構(gòu)建_GaussDB是什么_高斯數(shù)據(jù)庫構(gòu)建
- GaussDB查版本命令_GaussDB命令參考_高斯數(shù)據(jù)庫查版本命令-華為云
- GaussDB命令_GaussDB數(shù)據(jù)庫命令_高斯數(shù)據(jù)庫命令-華為云
- 大數(shù)據(jù)應(yīng)用范圍有哪些_大數(shù)據(jù)技術(shù)與應(yīng)用要學(xué)習(xí)什么課程
- 大數(shù)據(jù)分析系統(tǒng)包括哪些方面_大數(shù)據(jù)分析要滿足什么條件
- 企業(yè)應(yīng)用現(xiàn)代化白皮書