華為云Stack 智能數(shù)據(jù)湖 解決方案支持湖倉一體,其中,HetuEngine河 圖引擎 承擔(dān)一站式SQL分析引擎角色,使能跨源、跨域的一體化分析落地,基于 云原生 架構(gòu),讓“邏輯 數(shù)據(jù)湖 ”大規(guī)模數(shù)據(jù)融合分析提效50倍。
背景
隨著 大數(shù)據(jù) 平臺在各行業(yè)的快速發(fā)展,大 數(shù)據(jù)集 群呈現(xiàn)零散式建設(shè)、湖倉割裂、來回搬遷等新挑戰(zhàn),客戶對于跨域高效、跨源易用、云原生化提出了更高的要求。
傳統(tǒng)方案普遍涉及了下圖中的1、2點。對于單企業(yè)、小規(guī)模業(yè)務(wù)場景而言,在業(yè)務(wù)發(fā)展初期基本可滿足需求,但是對技術(shù)開發(fā)、維護(hù)人員的技能要求較高,一旦業(yè)務(wù)發(fā)生變化就需要重新定制開發(fā),手工變更部署方案,易造成信息泄露。
.png)
為了打造一款成熟、可商用的虛擬化引擎,我們需要站在客戶實際使用場景角度出發(fā),系統(tǒng)性、端到端地設(shè)計一款安全、易用、易運維、可擴展的數(shù)據(jù)虛擬化引擎。
實踐經(jīng)驗表明,上圖中3、4、5、6點是決定一款數(shù)據(jù)虛擬化引擎能否滿足業(yè)務(wù)實際需求、能否高效上線業(yè)務(wù)的關(guān)鍵。
HetuEngine架構(gòu)
HetuEngine是華為云FusionInsight團(tuán)隊自研的一款高性能分布式SQL查詢&數(shù)據(jù)虛擬化引擎,可與大數(shù)據(jù)生態(tài)無縫融合,實現(xiàn)海量數(shù)據(jù)秒級查詢;支持多源異構(gòu)協(xié)同,使能數(shù)據(jù)湖內(nèi)/湖間/湖倉一站式SQL融合分析。
.png)
圖 HetuEngine架構(gòu)圖
我們完全基于云原生2.0的技術(shù)理念實施了HetuEngine頂層架構(gòu)設(shè)計,這一點決定了HetuEngine從一開始就是為云服務(wù)化、“湖倉一體”而生。統(tǒng)一的云服務(wù)層在帶來極簡操作和極致運維體驗的同時,也為引擎層的多實例、 彈性伸縮 、跨域跨源統(tǒng)一訪問入口、數(shù)據(jù)虛擬化等能力奠定了軟件架構(gòu)基礎(chǔ)。
面向跨域、跨源、云原生三大維度,HetuEngine分別具有如下架構(gòu)優(yōu)勢:
1. 跨域聯(lián)邦分析:SQL化、一致性體驗、動態(tài)感知
HetuEngine對外提供標(biāo)準(zhǔn)、統(tǒng)一的SQL訪問入口,同時通過后臺管理接口的實現(xiàn)在線、實時、無損業(yè)務(wù)的運維變更操作,并保證所有變更操作能夠快速同步到每一個計算實例,從而保證了SQL入口的一致性體驗。
.png)
與此同時,跨域聯(lián)邦查詢場景中,每個地域的HetuEngine能夠做到自動感知其它地域?qū)ν忾_放的元數(shù)據(jù)信息,按需動態(tài)實時感知和獲取,從而降低了跨域元數(shù)據(jù)同步的安全風(fēng)險和負(fù)載壓力。
HetuEngine內(nèi)置提供了高性能安全加密傳輸通道,使得跨地域間網(wǎng)絡(luò)通信問題迎刃而解。該跨域聯(lián)邦SQL分析方案安全高效,適用于公網(wǎng)、專網(wǎng)等多種網(wǎng)絡(luò)類型混合組網(wǎng),支持穿透NAT。支持億級數(shù)據(jù)秒級跨域,支持去中心化跨域組網(wǎng),支持受控對外開放數(shù)據(jù),跨域協(xié)同效率提升50倍。
2. 跨源協(xié)同分析:低門檻、高性能、安全可靠
HetuEngine提供可視化的數(shù)據(jù)源信息管理頁面,實現(xiàn)一站式數(shù)據(jù)源信息配置和實時在線生效,避免了每次做數(shù)據(jù)源信息變更需要重啟計算引擎實例的麻煩。針對不同數(shù)據(jù)源類型,HetuEngine會針對性提供不同的性能優(yōu)化配置參數(shù),并支持設(shè)置與具體業(yè)務(wù)環(huán)境需求強相關(guān)的個性化配置參數(shù),通過前臺頁面一站式完成配置,免去了95%的運維負(fù)擔(dān)。
.png)
在性能方面,HetuEngine加強了對DWS、ES等數(shù)據(jù)源的計算下推能力,實現(xiàn)了相對開源軟件提速5倍的高性能跨源協(xié)同分析效果。同時,HetuEngine完成了對Hive SQL語法兼容性增強,在支持100% Presto SQL語法的同時,還可支撐90%的HQL業(yè)務(wù)平滑 遷移 。
3. 云原生加持:彈性伸縮、動態(tài)多租、統(tǒng)一入口
得益于云原生技術(shù)架構(gòu),HetuEngine允許管理員通過后臺接口進(jìn)行可視化的統(tǒng)一運維操作,從而完成一鍵式動態(tài)部署、多計算實例在線滾動重啟、人工/全自動觸發(fā)的計算實例彈性伸縮(無損業(yè)務(wù)),完成多租戶的資源配置變更及動態(tài)生效。
.png)
HetuEngine的統(tǒng)一服務(wù)化入口可以很容易幫助用戶實現(xiàn)SQL客戶端的接入和業(yè)務(wù)請求的提交,極大降低了業(yè)務(wù)用戶的學(xué)習(xí)成本和開發(fā)成本。同時也幫助業(yè)務(wù)應(yīng)用開發(fā)人員實現(xiàn)將業(yè)務(wù)層與后臺服務(wù)層解耦的目的,為后期的持續(xù)擴容與升級變更操作帶來的隱形福利。
HetuEngine的多計算實例架構(gòu)天然具備橫向擴展的優(yōu)勢,可以滿足“湖倉一體”對海量數(shù)據(jù)、多實例、高并發(fā)的長遠(yuǎn)需求。
.png)
最佳實踐
隨著金融業(yè)的快速發(fā)展和大數(shù)據(jù)技術(shù)生態(tài)的不斷完善,近年來工行與華為持續(xù)聯(lián)合創(chuàng)新,通過引入FusionInsight智能數(shù)據(jù)湖,工行大數(shù)據(jù)技術(shù)從僅對大數(shù)據(jù)批量加工,已延展到大數(shù)據(jù)實時計算、聯(lián)機查詢、 數(shù)據(jù)可視化 、安全管控等金融應(yīng)用場景,不斷提升工行服務(wù)實體經(jīng)濟(jì)的能力,傾力打造服務(wù)于經(jīng)濟(jì)高質(zhì)量發(fā)展的數(shù)字工行。 目前工行已建成同業(yè)最大的單集群,已部署上線的FusionInsight MRS云原生數(shù)據(jù)湖和DWS云 數(shù)據(jù)倉庫 集群規(guī)模達(dá)2000+節(jié)點,支撐了300+總行應(yīng)用、分行及集團(tuán)子公司的平臺化大數(shù)據(jù)應(yīng)用開發(fā),日均承載批量計算作業(yè)數(shù)達(dá)20萬+,強力支撐了行內(nèi)、行外的金融數(shù)據(jù)服務(wù)。
.png)
中國工商銀行大數(shù)據(jù)平臺支撐了全行約13000名數(shù)據(jù)分析師的交互式查詢業(yè)務(wù)場景,原先通過離線計算引擎來支撐,分析師普遍反映響應(yīng)時間過長。從2021年工行開始引入交互式查詢引擎(HetuEngine),使得分析師靈活查詢的響應(yīng)時間從平均1000秒降低至20秒,提效50倍,目前已將HetuEngine面向全行推廣。
在業(yè)界現(xiàn)有的跨域、跨源分析引擎中,能夠同時做到以下幾點的,當(dāng)前已知的僅有HetuEngine,這得益于:
? 三位一體:跨域、跨源、交互式查詢一體化;
? 云原生:動態(tài)多租戶、彈性伸縮、統(tǒng)一入口;
? 規(guī)模商用:提供端到端的安全解決方案;
目前,HetuEngine已經(jīng)在政務(wù)、金融、運營商、大企業(yè)行業(yè)規(guī)模交付,對原有交互式查詢、跨源跨域分析業(yè)務(wù)提升倍數(shù),并驅(qū)動客戶業(yè)務(wù)持續(xù)創(chuàng)新。
未來,HetuEngine還將在自學(xué)習(xí)優(yōu)化、SQL安全、物化視圖、索引、存儲等維度,繼續(xù)構(gòu)筑核心競爭力,加速客戶“湖倉一體”架構(gòu)落地和數(shù)字化轉(zhuǎn)型。
華為云FusionInsight MRS云原生數(shù)據(jù)湖提供一個架構(gòu)實現(xiàn)三種數(shù)據(jù)湖,即離線數(shù)據(jù)湖,一站式提供AI、BI多引擎,規(guī)模最大支持6萬+;實時數(shù)據(jù)湖,分鐘級供數(shù),全自助分析,時效從T+1到T+0;邏輯數(shù)據(jù)湖,HetuEngine實現(xiàn)跨湖、跨倉協(xié)同提效50倍。目前FusionInsight MRS已經(jīng)用于60多個國家和地區(qū),聯(lián)合800+ISV服務(wù)于3000+政務(wù)、金融、運營商、泛企業(yè)客戶,助力客戶構(gòu)建一企一湖,一城一湖。
最新文章
- 央國企15大行業(yè)場景化解決方案_政企深度用云_華為云Stack
- DWS產(chǎn)品介紹_DWS產(chǎn)品優(yōu)勢_DWS功能_DWS使用場景_DWS是什么
- 什么是Spark SQL作業(yè)_數(shù)據(jù)湖探索DLISpark SQL作業(yè)
- 什么是Flink OpenSource SQL_數(shù)據(jù)湖探索_Flink OpenSource SQL
- 大數(shù)據(jù)應(yīng)用范圍有哪些_大數(shù)據(jù)技術(shù)與應(yīng)用要學(xué)習(xí)什么課程
- 什么是數(shù)據(jù)湖探索服務(wù)_數(shù)據(jù)湖探索DLI用途與特點