HetuEngine簡介
HetuEngine是自研高性能交互式SQL分析及數(shù)據(jù)虛擬化引擎。與大數(shù)據(jù)生態(tài)無縫融合,實現(xiàn)海量數(shù)據(jù)秒級交互式查詢;支持跨源跨域統(tǒng)一訪問,使能數(shù)據(jù)湖內、湖間、湖倉一站式SQL融合分析。其能夠支持跨源(多種數(shù)據(jù)源,如Hive,HBase,GaussDB(DWS),ClickHouse等),跨域(多個地域或數(shù)據(jù)中心)的快速聯(lián)合查詢,尤其適用于Hadoop集群(MRS)的Hive、Hudi數(shù)據(jù)的交互式快速查詢場景。
HetuEngine結構
常見概念介紹
- 云服務層
HetuEngine CLI/JDBC
HetuEngine的客戶端,使用者通過客戶端向服務端提交查詢請求,然后將執(zhí)行結果取回并展示。
HSBroker
HetuEngine的服務管理,用作計算實例的資源管理校驗,健康管理與自動維護等。
HSConsole
對外提供數(shù)據(jù)源信息管理,計算實例管理,自動化任務的查看等功能的可視化操作界面和RESTful接口。
HSFabric
提供SQL統(tǒng)一訪問入口及跨域(DC)高性能安全數(shù)據(jù)傳輸。
- 引擎層
Coordinator
HetuEngine計算實例的管理節(jié)點,提供SQL接收、SQL解析、生成執(zhí)行計劃、執(zhí)行計劃優(yōu)化、分派任務和資源調度等能力。
Worker
HetuEngine計算實例的工作節(jié)點,提供數(shù)據(jù)源數(shù)據(jù)并行拉取,分布式SQL計算等能力。
HetuEngine跨源功能
- 功能簡介
出于管理和信息收集的需要,企業(yè)內部會存儲海量數(shù)據(jù),包括數(shù)目眾多的各種數(shù)據(jù)庫、數(shù)據(jù)倉庫等,此時會面臨數(shù)據(jù)源種類繁多、數(shù)據(jù)集結構化混合、相關數(shù)據(jù)存放分散等困境,導致跨源查詢開發(fā)成本高,跨源復雜查詢耗時長。
HetuEngine提供了統(tǒng)一標準SQL實現(xiàn)跨源協(xié)同分析,簡化跨源分析操作。
- 關鍵技術和優(yōu)勢
計算下推
在通過HetuEngine進行跨源協(xié)同分析時,為了提升訪問效率,HetuEngine從下表所示維度增強了計算下推的能力。
多源異構
協(xié)同分析既支持Hive、GaussDB等結構化數(shù)據(jù)源,也支持HBase等非結構化數(shù)據(jù)源。
全局元數(shù)據(jù)
對于非結構化數(shù)據(jù)源HBase,提供映射表方式將非結構化SCHEMA映射成結構化SCHEMA,實現(xiàn)HetuEngine對HBase的無差別SQL訪問;對于數(shù)據(jù)源信息,提供全局管理。
全局權限控制
數(shù)據(jù)源的權限均可通過HetuEngine開放給Ranger集中管理,統(tǒng)一控制。
HetuEngine跨域功能
- 功能簡介
HetuEngine提供統(tǒng)一標準SQL對分布于多個地域(或數(shù)據(jù)中心)的多種數(shù)據(jù)源實現(xiàn)高效訪問,屏蔽數(shù)據(jù)在結構、存儲及地域上的差異,實現(xiàn)數(shù)據(jù)與應用的解耦。
- 關鍵技術和優(yōu)勢
無單點瓶頸
HSFabric可進行水平擴展,多通道并行傳輸,速率最大化,跨地域延遲不再成為瓶頸。
計算資源利用
將數(shù)據(jù)壓縮,序列化的任務下推到Worker并行計算。
高效序列化
優(yōu)化數(shù)據(jù)序列化格式,同等數(shù)據(jù)量級下,更低的數(shù)據(jù)傳輸量。
流式傳輸
基于HTTP 2.0 stream, 保證HTTP協(xié)議通用性的同時,減少大量數(shù)據(jù)傳輸中RPC重復調用。
斷點續(xù)傳
防止數(shù)據(jù)傳輸過程中連接異常斷開后重傳大量數(shù)據(jù)。
流量管控
支持按地區(qū)限制數(shù)據(jù)傳輸所占用的網絡帶寬,避免在跨地域有限帶寬場景下因流量獨占而影響其他業(yè)務的正常使用。