規(guī)范設(shè)計:數(shù)據(jù)建模可視化、 自動化 、智能化
DAYU規(guī)范設(shè)計踐行 數(shù)據(jù)治理 方法論,將數(shù)據(jù)治理行為可視化,打通數(shù)據(jù)基礎(chǔ)層到匯總層、集市層的數(shù)據(jù)處理鏈路,落地數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)資產(chǎn),通過關(guān)系建模、維度建模實(shí)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)化,通過統(tǒng)一指標(biāo)平臺建設(shè),實(shí)現(xiàn)規(guī)范化指標(biāo)體系,消除歧義、統(tǒng)一口徑、統(tǒng)一計算邏輯,對外提供主題式數(shù)據(jù)查詢與挖掘服務(wù)。
圖1數(shù)據(jù)規(guī)范設(shè)計
據(jù)湖運(yùn)營平臺功能1.jpg)
DAYU規(guī)范設(shè)計主要包括以下三個部分:
主題設(shè)計
構(gòu)建統(tǒng)一的數(shù)據(jù)分類體系,用于目錄化管理所有業(yè)務(wù)數(shù)據(jù),便于數(shù)據(jù)的歸類,查找,評價,使用。通過分層架構(gòu)對數(shù)據(jù)的分類和定義,可幫助用戶厘清數(shù)據(jù)資產(chǎn),明確業(yè)務(wù)領(lǐng)域和業(yè)務(wù)對象的關(guān)聯(lián)關(guān)系。
數(shù)據(jù)標(biāo)準(zhǔn)
構(gòu)建統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)體系,數(shù)據(jù)標(biāo)準(zhǔn)流程化、系統(tǒng)化。用戶可基于國家標(biāo)準(zhǔn)或行業(yè)標(biāo)準(zhǔn),對每一行數(shù)據(jù)、每一個字段的具體取值進(jìn)行標(biāo)準(zhǔn)化,從而提升數(shù)據(jù)質(zhì)量和易用性。
數(shù)據(jù)建模
構(gòu)建統(tǒng)一的數(shù)據(jù)模型體系,通過規(guī)范定義和數(shù)據(jù)建模,自頂向下構(gòu)建企業(yè)數(shù)據(jù)分層體系,沉淀企業(yè)數(shù)據(jù)公共層和主題庫,便于數(shù)據(jù)的流通、共享、創(chuàng)造、創(chuàng)新,提升數(shù)據(jù)使用效率,極大的減少數(shù)據(jù)冗余,混亂,隔離,不一致以及謬誤等。
DAYU規(guī)范設(shè)計支持的數(shù)據(jù)建模方法有:
關(guān)系建模
關(guān)系建模是用實(shí)體關(guān)系(Entity Relationship,ER)模型描述企業(yè)業(yè)務(wù),它在范式理論上符合3NF,出發(fā)點(diǎn)是整合數(shù)據(jù),將各個系統(tǒng)中的數(shù)據(jù)以整個企業(yè)角度按主題進(jìn)行相似性組合和合并,并進(jìn)行一致性處理,為數(shù)據(jù)分析決策服務(wù),但是并不能直接用于分析決策。
維度建模
維度建模是以維度建模理論為基礎(chǔ),構(gòu)建總線矩陣、抽象出事實(shí)和維度,構(gòu)建維度模型和事實(shí)模型,同時對報表需求進(jìn)行抽象整理出相關(guān)指標(biāo)體系,構(gòu)建出匯總模型。
數(shù)據(jù)集 成:多種方式異構(gòu)數(shù)據(jù)源高效接入
DAYU數(shù)據(jù)集成支持批量 數(shù)據(jù)遷移 和實(shí)時數(shù)據(jù)接入兩種方式。
批量數(shù)據(jù) 遷移
批量數(shù)據(jù)遷移提供20+同構(gòu)/異構(gòu)數(shù)據(jù)源之間批量數(shù)據(jù)遷移的功能,幫助您實(shí)現(xiàn)數(shù)據(jù)自由流動。支持自建和云上的文件系統(tǒng),關(guān)系 數(shù)據(jù)庫 , 數(shù)據(jù)倉庫 ,NoSQL, 大數(shù)據(jù) 云服務(wù), 對象存儲 等數(shù)據(jù)源。
批量數(shù)據(jù)遷移基于分布式計算框架,利用并行化處理技術(shù),支持用戶穩(wěn)定高效地對海量數(shù)據(jù)進(jìn)行移動,實(shí)現(xiàn)不停服數(shù)據(jù)遷移,快速構(gòu)建所需的數(shù)據(jù)架構(gòu)。
圖2批量數(shù)據(jù)遷移
據(jù)湖運(yùn)營平臺功能2.jpg)
批量數(shù)據(jù)遷移提供全向?qū)饺蝿?wù)管理界面,幫助用戶在幾分鐘內(nèi)完成數(shù)據(jù)遷移任務(wù)的創(chuàng)建,輕松應(yīng)對復(fù)雜遷移場景。批量數(shù)據(jù)遷移支持的功能主要有:
表/文件/整庫遷移
支持批量遷移表或者文件,還支持同構(gòu)/異構(gòu)數(shù)據(jù)庫之間整庫遷移,一個作業(yè)即可遷移幾百張表。
增量數(shù)據(jù)遷移
支持文件增量遷移、關(guān)系型數(shù)據(jù)庫增量遷移、HBase增量遷移,以及使用Where條件配合時間變量函數(shù)實(shí)現(xiàn)增量數(shù)據(jù)遷移。
事務(wù)模式遷移
支持當(dāng)遷移作業(yè)執(zhí)行失敗時,將數(shù)據(jù)回滾到作業(yè)開始之前的狀態(tài),自動清理目的表中的數(shù)據(jù)。
字段轉(zhuǎn)換
支持去隱私、字符串操作、日期操作等常用字段的數(shù)據(jù)轉(zhuǎn)換功能。
文件加密
在遷移文件到文件系統(tǒng)時,批量數(shù)據(jù)遷移支持對寫入云端的文件進(jìn)行加密。
MD5校驗一致性
支持使用MD5校驗,檢查端到端文件的一致性,并輸出校驗結(jié)果。
臟數(shù)據(jù)歸檔
支持將遷移過程中處理失敗的、被清洗過濾掉的、不符合字段轉(zhuǎn)換或者不符合清洗規(guī)則的數(shù)據(jù)自動歸檔到臟數(shù)據(jù)日志中,方便用戶分析異常數(shù)據(jù)。并支持設(shè)置臟數(shù)據(jù)比例閾值,來決定任務(wù)是否成功。
實(shí)時數(shù)據(jù)接入
實(shí)時數(shù)據(jù)接入為處理或分析流數(shù)據(jù)的自定義應(yīng)用程序構(gòu)建數(shù)據(jù)流管道,主要解決云服務(wù)外的數(shù)據(jù)實(shí)時傳輸?shù)皆品?wù)內(nèi)的問題。實(shí)時數(shù)據(jù)接入每小時可從數(shù)十萬種數(shù)據(jù)源(例如日志和定位追蹤事件、網(wǎng)站點(diǎn)擊流、社交媒體源等)中連續(xù)捕獲、傳送和存儲數(shù)TB數(shù)據(jù)。
數(shù)據(jù)流向:
實(shí)時數(shù)據(jù)接入實(shí)時從多種數(shù)據(jù)源采集數(shù)據(jù)。
實(shí)時數(shù)據(jù)接入連續(xù)傳輸數(shù)據(jù),自動將數(shù)據(jù)傳輸至MRS,DLI,DWS和OBS等服務(wù)做計算、分析和存儲。
圖3數(shù)據(jù)流向
據(jù)湖運(yùn)營平臺功能3.jpg)
關(guān)鍵能力:
無限擴(kuò)展:實(shí)時數(shù)據(jù)接入通道的吞吐量每小時可從數(shù)MB擴(kuò)展到數(shù)TB,PUT記錄每秒鐘可從數(shù)千次擴(kuò)展到數(shù)百萬。
易于使用:您可以在幾秒鐘內(nèi)創(chuàng)建數(shù)據(jù)接入通道,輕松的將數(shù)據(jù)放入通道中,并構(gòu)建用于數(shù)據(jù)處理的應(yīng)用程序。
成本低廉:沒有前期成本,您只需要為實(shí)際使用的資源付費(fèi)即可。
并行處理:您可以用多個應(yīng)用程序同時處理同一個數(shù)據(jù)通道。例如,您可以讓一個應(yīng)用程序運(yùn)行實(shí)時分析,讓其他應(yīng)用程序從同一個數(shù)據(jù)通道中將數(shù)據(jù)發(fā)送至 對象存儲服務(wù) ( Object Storage Service ,簡稱OBS)。
安全可靠:實(shí)時數(shù)據(jù)接入可將數(shù)據(jù)保留N*24小時,N的取值為1~7的整數(shù),以防數(shù)據(jù)在應(yīng)用程序故障、個別機(jī)器故障或設(shè)施故障時丟失。
數(shù)據(jù)開發(fā):一站式協(xié)同開發(fā)平臺
DAYU數(shù)據(jù)開發(fā)是一個一站式敏捷大數(shù)據(jù)開發(fā)平臺,提供可視化的圖形開發(fā)界面、豐富的數(shù)據(jù)開發(fā)類型(腳本開發(fā)和作業(yè)開發(fā))、全托管的作業(yè)調(diào)度和運(yùn)維監(jiān)控能力,內(nèi)置行業(yè)數(shù)據(jù)處理pipeline,一鍵式開發(fā),全流程可視化,支持多人在線協(xié)同開發(fā),支持管理多種大數(shù)據(jù)云服務(wù),極大地降低了用戶使用大數(shù)據(jù)的門檻,幫助用戶快速構(gòu)建大數(shù)據(jù)處理中心。
圖4數(shù)據(jù)開發(fā)流程
據(jù)湖運(yùn)營平臺功能4.jpg)
數(shù)據(jù)開發(fā)支持 數(shù)據(jù)管理 、數(shù)據(jù)集成、腳本開發(fā)、作業(yè)開發(fā)、資源管理、作業(yè)調(diào)度、運(yùn)維監(jiān)控等操作,幫助用戶輕松完成整個數(shù)據(jù)的處理分析流程。
數(shù)據(jù)管理
支持管理DWS、DLI、MRS Hive等多種數(shù)據(jù)倉庫。
支持可視化和DDL方式管理數(shù)據(jù)庫表。
數(shù)據(jù)集成
與批量數(shù)據(jù)遷移無縫集成,依托批量數(shù)據(jù)遷移的強(qiáng)力支撐,支持20多種異構(gòu)數(shù)據(jù)源之間可靠高效的數(shù)據(jù)傳輸,輕松實(shí)現(xiàn)多數(shù)據(jù)源集成到數(shù)據(jù)倉庫。
腳本開發(fā)
提供在線腳本編輯器,支持多人協(xié)作進(jìn)行SQL、Shell腳本在線代碼開發(fā)和調(diào)測。
支持使用變量和函數(shù)。
作業(yè)開發(fā)
提供圖形化設(shè)計器,支持拖拽式工作流開發(fā),快速構(gòu)建數(shù)據(jù)處理業(yè)務(wù)流水線。
預(yù)設(shè)數(shù)據(jù)集成、SQL、MR、Spark、Shell、機(jī)器學(xué)習(xí)等多種任務(wù)類型,通過任務(wù)間依賴完成復(fù)雜數(shù)據(jù)分析處理。
支持導(dǎo)入和導(dǎo)出作業(yè)。
資源管理
支持統(tǒng)一管理在腳本開發(fā)和作業(yè)開發(fā)使用到的file、jar、archive類型的資源。
作業(yè)調(diào)度
支持單次調(diào)度、周期調(diào)度和事件驅(qū)動調(diào)度,周期調(diào)度支持分鐘、小時、天、周、月多種調(diào)度周期。
作業(yè)調(diào)度支持多種云服務(wù)的多種類型的任務(wù)混合編排,高性能的調(diào)度引擎已經(jīng)經(jīng)過幾百個應(yīng)用的檢驗。
運(yùn)維監(jiān)控
支持對作業(yè)進(jìn)行運(yùn)行、暫停、恢復(fù)、終止等多種操作。
支持查看作業(yè)和其內(nèi)各任務(wù)節(jié)點(diǎn)的運(yùn)行詳情。
支持配置多種方式報警,作業(yè)和任務(wù)發(fā)生錯誤時可及時通知相關(guān)人,保證業(yè)務(wù)正常運(yùn)行。
數(shù)據(jù)質(zhì)量:可控可檢驗
數(shù)據(jù)質(zhì)量模塊支持對業(yè)務(wù)指標(biāo)和數(shù)據(jù)質(zhì)量進(jìn)行監(jiān)控,數(shù)據(jù)質(zhì)量可檢驗,幫助用戶及時發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題。
業(yè)務(wù)指標(biāo)監(jiān)控
業(yè)務(wù)指標(biāo)監(jiān)控是對業(yè)務(wù)指標(biāo)數(shù)據(jù)進(jìn)行質(zhì)量管理的有效工具,可以靈活的創(chuàng)建業(yè)務(wù)指標(biāo)、業(yè)務(wù)規(guī)則和業(yè)務(wù)場景,實(shí)時、周期性進(jìn)行調(diào)度,滿足業(yè)務(wù)的數(shù)據(jù)質(zhì)量監(jiān)控需求。
數(shù)據(jù)質(zhì)量監(jiān)控
數(shù)據(jù)質(zhì)量監(jiān)控是對數(shù)據(jù)庫里的數(shù)據(jù)質(zhì)量進(jìn)行質(zhì)量管理的工具,您可以配置數(shù)據(jù)質(zhì)量檢查規(guī)則,在線監(jiān)控數(shù)據(jù)準(zhǔn)確性。
數(shù)據(jù)質(zhì)量可以從完整性、有效性、及時性、一致性、準(zhǔn)確性、唯一性六個維度進(jìn)行單列、跨列、跨行和跨表的分析,也支持?jǐn)?shù)據(jù)的清洗和標(biāo)準(zhǔn)化,能夠根據(jù)數(shù)據(jù)標(biāo)準(zhǔn)自動生成清洗和標(biāo)準(zhǔn)化的質(zhì)量規(guī)則,支持周期性的監(jiān)控和清洗。
圖5數(shù)據(jù)質(zhì)量規(guī)則體系
據(jù)湖運(yùn)營平臺功能5.jpg)
數(shù)據(jù)資產(chǎn)管理:360度全鏈路數(shù)據(jù)資產(chǎn)可視化
DAYU提供企業(yè)級的元數(shù)據(jù)管理,厘清信息資產(chǎn)。數(shù)據(jù)資產(chǎn)管理可視,支持鉆取、溯源等。通過 數(shù)據(jù)地圖 ,實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)的數(shù)據(jù)血緣和數(shù)據(jù)全景可視,提供數(shù)據(jù)智能搜索和運(yùn)營監(jiān)控。
元數(shù)據(jù)管理
元數(shù)據(jù)管理模塊是數(shù)據(jù)湖治理的基石,支持創(chuàng)建自定義策略的采集任務(wù),可采集數(shù)據(jù)源中的技術(shù)元數(shù)據(jù)。支持自定義業(yè)務(wù)元模型,批量導(dǎo)入業(yè)務(wù)元數(shù)據(jù),關(guān)聯(lián)業(yè)務(wù)和技術(shù)元數(shù)據(jù)、全鏈路的血緣管理和應(yīng)用。
圖6全鏈路數(shù)據(jù)血緣
據(jù)湖運(yùn)營平臺功能6.jpg)
數(shù)據(jù)地圖
數(shù)據(jù)地圖圍繞數(shù)據(jù)搜索,服務(wù)于數(shù)據(jù)分析、數(shù)據(jù)開發(fā)、數(shù)據(jù)挖掘、數(shù)據(jù)運(yùn)營等數(shù)據(jù)表的使用者和擁有者,提供方便快捷的數(shù)據(jù)搜索服務(wù),擁有功能強(qiáng)大的血緣信息及影響分析。
在數(shù)據(jù)地圖中,可通過關(guān)鍵詞搜索數(shù)據(jù)資產(chǎn),支持模糊搜索,快速檢索,定位數(shù)據(jù)。
使用數(shù)據(jù)地圖根據(jù)表名直接查看表詳情,快速查閱明細(xì)信息,掌握使用規(guī)則。獲得數(shù)據(jù)詳細(xì)信息后,可添加額外描述。
通過數(shù)據(jù)地圖的血緣分析可以查看每個數(shù)據(jù)表的來源、去向,并查看每個表及字段的加工邏輯。
對數(shù)據(jù)資產(chǎn),可以從業(yè)務(wù)角度定義分類或標(biāo)簽。
數(shù)據(jù)服務(wù):提升訪問查詢檢索效率
DAYU數(shù)據(jù)服務(wù)旨在為企業(yè)搭建統(tǒng)一的數(shù)據(jù)服務(wù)總線,幫助企業(yè)統(tǒng)一管理對內(nèi)對外的API服務(wù),支撐業(yè)務(wù)主題/畫像/指標(biāo)的訪問、查詢和檢索,提升數(shù)據(jù)消費(fèi)體驗和效率,最終實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)的變現(xiàn)。數(shù)據(jù)服務(wù)為您提供快速將數(shù)據(jù)表生成數(shù)據(jù)API的能力,同時支持您將現(xiàn)有的API快速注冊到數(shù)據(jù)服務(wù)平臺以統(tǒng)一管理和發(fā)布。
數(shù)據(jù)服務(wù)采用Serverless架構(gòu),您只需關(guān)注API本身的查詢邏輯,無需關(guān)心運(yùn)行環(huán)境等基礎(chǔ)設(shè)施,數(shù)據(jù)服務(wù)會為您準(zhǔn)備好計算資源,并支持彈性擴(kuò)展,零運(yùn)維成本。
圖7數(shù)據(jù)服務(wù)架構(gòu)圖
據(jù)湖運(yùn)營平臺功能7.jpg)
數(shù)據(jù)安全 :全方位安全保障
網(wǎng)絡(luò)安全
基于網(wǎng)絡(luò)隔離、安全組規(guī)則以及一系列 安全加固 項,實(shí)現(xiàn)租戶隔離和訪問權(quán)限控制,保護(hù)系統(tǒng)和用戶的隱私及數(shù)據(jù)安全。
用戶權(quán)限策略
基于角色的訪問控制,用戶通過角色與權(quán)限進(jìn)行關(guān)聯(lián),并支持細(xì)粒度權(quán)限策略,可滿足不同的授權(quán)需求。針對不同的用戶,DAYU提供了管理者、開發(fā)者、運(yùn)維者、訪問者四種不同的角色,各個角色擁有不同的權(quán)限。
數(shù)據(jù)安全
針對規(guī)范設(shè)計、數(shù)據(jù)服務(wù)等關(guān)鍵流程,DAYU提供了審核流程。
數(shù)據(jù)的分級分類管理,數(shù)據(jù)的全生命周期管理,保證數(shù)據(jù)的隱私合規(guī)、可審計、可回溯。