檢測(cè)到您已登錄華為云國(guó)際站賬號(hào),為了您更好的體驗(yàn),建議您訪問國(guó)際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
Support)。 一、行為域ODS層詳細(xì)設(shè)計(jì) 1 ODS層功能 ODS:操作數(shù)據(jù)層 主要作用:直接映射操作數(shù)據(jù)(原始數(shù)據(jù)),數(shù)據(jù)備份; 建模方法:與原始數(shù)據(jù)結(jié)構(gòu)保持完全一致 存儲(chǔ)周期:相對(duì)來說,存儲(chǔ)周期較短;視數(shù)據(jù)規(guī)模,增長(zhǎng)速度,以及業(yè)務(wù)的需求而定;對(duì)于埋點(diǎn)日志數(shù)據(jù)ODS層存儲(chǔ),通常可以選擇3個(gè)月或者半年;
Build,代表著數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建層。在這個(gè)階段,主要的目標(biāo)是將DWD中的數(shù)據(jù)進(jìn)行整合和清洗,構(gòu)建出符合業(yè)務(wù)需求的數(shù)據(jù)模型。這個(gè)模型通常是一個(gè)多維度的數(shù)據(jù)立方體,可以支持多種數(shù)據(jù)分析算法和決策支持應(yīng)用。DWB的數(shù)據(jù)源可以是多個(gè)數(shù)據(jù)倉(cāng)庫(kù)的整合,也可以是多個(gè)數(shù)據(jù)源的整合。DWS(Data
文章目錄 數(shù)據(jù)倉(cāng)庫(kù) 什么是數(shù)據(jù)倉(cāng)庫(kù)? 數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別? 事實(shí)表和維度表 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型: 為什么數(shù)據(jù)倉(cāng)庫(kù)要分層? 數(shù)據(jù)倉(cāng)庫(kù)模式:Kimball (金箔)和 Inmon(恩門) 數(shù)據(jù)庫(kù)架構(gòu)——Lambda架構(gòu)和Kappa架構(gòu)
息系統(tǒng)相關(guān)。 數(shù)據(jù)倉(cāng)庫(kù)是集成的,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)有來自于分散的操作型數(shù)據(jù),將所需數(shù)據(jù)從原來的數(shù)據(jù)中抽取出來,進(jìn)行加工與集成,統(tǒng)一與綜合之后才能進(jìn)入數(shù)據(jù)倉(cāng)庫(kù); 數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是在對(duì)原有分散的數(shù)據(jù)庫(kù)數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保
可。 數(shù)據(jù)倉(cāng)庫(kù)具體的分層 標(biāo)準(zhǔn)的數(shù)據(jù)倉(cāng)庫(kù)分層: stg(數(shù)據(jù)緩沖層), ods (數(shù)據(jù)貼源層),dw:dwd dws dwt (數(shù)據(jù)倉(cāng)庫(kù) 層),ads (數(shù)據(jù)集市層),app (應(yīng)用層)。 stg:源數(shù)據(jù)緩沖層,它和源系統(tǒng)數(shù)據(jù)是同構(gòu)的,而且這一層數(shù)據(jù)粒度是最細(xì)的,數(shù)據(jù)層與 業(yè)務(wù)源的數(shù)據(jù)結(jié)構(gòu)-
中間表 中間表一般出現(xiàn)在Job中,是Job中臨時(shí)存儲(chǔ)的中間數(shù)據(jù)的表,中間表的作用域只限于當(dāng)前Job執(zhí)行過程中,Job一旦執(zhí)行完成,該中間表的使命就完成了,是可以刪除的(按照自己公司的場(chǎng)景自由選擇,以前公司會(huì)保留幾天的中間表數(shù)據(jù),用來排查問題)。 規(guī)范:mid_table_name_[0~9|dim]
從數(shù)據(jù)源的采集到多層清洗加工的過程中,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)邏輯分層一般分為4層。 分層的核心思想就是解耦。 ODS Operation Data Store 原始數(shù)據(jù)層,也有叫貼源層,該層對(duì)采集的原始數(shù)據(jù)進(jìn)行原樣存儲(chǔ)。 DWD Data Warehouse Detail 明細(xì)數(shù)據(jù)層,對(duì)ODS進(jìn)行清洗,解決數(shù)據(jù)質(zhì)量問題。
可。 數(shù)據(jù)倉(cāng)庫(kù)具體的分層 標(biāo)準(zhǔn)的數(shù)據(jù)倉(cāng)庫(kù)分層: stg(數(shù)據(jù)緩沖層), ods (數(shù)據(jù)貼源層),dw:dwd dws dwt (數(shù)據(jù)倉(cāng)庫(kù) 層),ads (數(shù)據(jù)集市層),app (應(yīng)用層)。 stg:源數(shù)據(jù)緩沖層,它和源系統(tǒng)數(shù)據(jù)是同構(gòu)的,而且這一層數(shù)據(jù)粒度是最細(xì)的,數(shù)據(jù)層與 業(yè)務(wù)源的數(shù)據(jù)結(jié)構(gòu)-
字當(dāng)天看是一個(gè)數(shù)據(jù),第二天看昨天的數(shù)據(jù)反而發(fā)生了變化。批量計(jì)算在計(jì)算窗口內(nèi)無法完成:在IOT時(shí)代,數(shù)據(jù)量級(jí)越來越大,經(jīng)常發(fā)現(xiàn)夜間只有4、5個(gè)小時(shí)的時(shí)間窗口,已經(jīng)無法完成白天20多個(gè)小時(shí)累計(jì)的數(shù)據(jù),保證早上上班前準(zhǔn)時(shí)出數(shù)據(jù)已成為每個(gè)大數(shù)據(jù)團(tuán)隊(duì)頭疼的問題。開發(fā)和維護(hù)的復(fù)雜性問題:Lambda
數(shù)據(jù)倉(cāng)庫(kù)的定義很多剛?cè)腴T的小伙伴都會(huì)問,數(shù)據(jù)倉(cāng)庫(kù)是不是NoSQL ?其實(shí)數(shù)據(jù)倉(cāng)庫(kù)不是NoSQL,但NoSQL數(shù)據(jù)庫(kù)是數(shù)據(jù)倉(cāng)庫(kù)的一種實(shí)現(xiàn)方式。數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、穩(wěn)定的、不同時(shí)間的數(shù)據(jù)集合,用于支持決策支持和數(shù)據(jù)分析。它是一個(gè)用于存儲(chǔ)、管理和分析大量數(shù)據(jù)的數(shù)據(jù)庫(kù)系統(tǒng),
Informatic D正確3. (單選)關(guān)于數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)的差別,下面的敘述中不正確的是:A. 數(shù)據(jù)庫(kù)是面向事務(wù)的設(shè)計(jì),數(shù)據(jù)倉(cāng)庫(kù)是面向主題的設(shè)計(jì)B. 數(shù)據(jù)庫(kù)一般存儲(chǔ)歷史數(shù)據(jù),數(shù)據(jù)倉(cāng)庫(kù)一般存儲(chǔ)在線數(shù)據(jù) 正確C. 數(shù)據(jù)庫(kù)設(shè)計(jì)是盡量避免冗余,數(shù)據(jù)倉(cāng)庫(kù)是有意引入冗余B 提交提交答案正確 (6/6
GaussDB 和 云數(shù)據(jù)倉(cāng)庫(kù) GaussDB(DWS) 有什么區(qū)別
的產(chǎn)生。由于企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)、實(shí)施很困難,使得最早吃數(shù)據(jù)倉(cāng)庫(kù)螃蟹的公司遭到大面積的失敗,因此數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)者和分析師開始考慮只建設(shè)企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)的一部分,然后再逐步添加,但是這有背于BillInmon的原則:各個(gè)實(shí)施部分的數(shù)據(jù)抽取、清洗、轉(zhuǎn)換和加載是獨(dú)立,導(dǎo)致了數(shù)據(jù)的混亂與不
互不共享的CPU、內(nèi)存、存儲(chǔ)等系統(tǒng)資源的邏輯節(jié)點(diǎn)組成。在這樣的系統(tǒng)架構(gòu)中,業(yè)務(wù)數(shù)據(jù)被分散存儲(chǔ)在多個(gè)節(jié)點(diǎn)上,數(shù)據(jù)分析任務(wù)被推送到數(shù)據(jù)所在位置就近執(zhí)行,并行地完成大規(guī)模的數(shù)據(jù)處理工作,實(shí)現(xiàn)對(duì)數(shù)據(jù)處理的快速響應(yīng)。 圖1 產(chǎn)品架構(gòu) 應(yīng)用層數(shù)據(jù)加載工具
關(guān)于數(shù)據(jù)環(huán)境: 數(shù)據(jù)倉(cāng)庫(kù)開發(fā)最好是以反復(fù)的方式進(jìn)行。首先建立數(shù)據(jù)倉(cāng)庫(kù)的一部分,然后再建立另一部分。即出現(xiàn)所謂的CLDS的數(shù)據(jù)驅(qū)動(dòng)的開發(fā)生命周期,區(qū)別于傳統(tǒng)的需求驅(qū)動(dòng)開發(fā)生命周期(SDLC)。 粒度的選擇: 一般采用雙重粒度或建立活樣本數(shù)據(jù)庫(kù)。 數(shù)據(jù)倉(cāng)庫(kù)中分區(qū)是在應(yīng)用層而非系統(tǒng)層進(jìn)行;
了華為云混合負(fù)載數(shù)據(jù)倉(cāng)庫(kù)DWS。DWS采用“一庫(kù)兩用”的設(shè)計(jì)理念,一套數(shù)據(jù)倉(cāng)庫(kù)集群既可以支持超高并發(fā)、低時(shí)延的業(yè)務(wù)交易請(qǐng)求,同時(shí)可支撐復(fù)雜的海量數(shù)據(jù)分析和BI應(yīng)用,減少開發(fā)和運(yùn)維成本。相比于原系統(tǒng),BI系統(tǒng)時(shí)效性大大提高,且數(shù)據(jù)分析性能提升3倍。做到數(shù)據(jù)實(shí)時(shí)一致的同時(shí),DWS也確
優(yōu)化這些查詢,使這些查詢的效率很高。而即席查詢是用戶在使用時(shí)臨時(shí)生產(chǎn)的,無法人工預(yù)先優(yōu)化這些查詢,需要數(shù)據(jù)庫(kù)內(nèi)部實(shí)時(shí)自動(dòng)優(yōu)化,所以即席查詢也是評(píng)估數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)重要指標(biāo)。在一個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中,即席查詢使用的越多,對(duì)數(shù)據(jù)倉(cāng)庫(kù)的要求就越高,對(duì)數(shù)據(jù)模型的對(duì)稱性的要求也越高。
Processing),支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。 數(shù)據(jù)倉(cāng)庫(kù)匯總有可能有很多維度數(shù)據(jù)的統(tǒng)計(jì)分析結(jié)果,取百家之長(zhǎng)(各個(gè)數(shù)據(jù)源的數(shù)據(jù)),成就自己的一方天地(規(guī)劃各種業(yè)務(wù)域的模型,指標(biāo))。 舉個(gè)栗子~ 車聯(lián)網(wǎng)早期是肯定沒有數(shù)據(jù)倉(cāng)庫(kù)的,剛開始啟動(dòng)階段就是
1.數(shù)據(jù)治理是什么?數(shù)據(jù)治理:為公司業(yè)務(wù)越來越復(fù)雜而帶來的數(shù)據(jù)越來越臟、亂、差的問題,而提出一套治理數(shù)據(jù)的方法+工具集2. 數(shù)據(jù)治理的內(nèi)容這一部分,我將從六個(gè)方面來講解數(shù)據(jù)治理的內(nèi)容。2.1 數(shù)據(jù)標(biāo)準(zhǔn)定義數(shù)據(jù)維度及指標(biāo)需要清晰的、統(tǒng)一的、標(biāo)準(zhǔn)的定義。(這里的部分參考Hadoop數(shù)
地區(qū)部空運(yùn)成本,再匯總看季度全球空運(yùn)成本)數(shù)據(jù)倉(cāng)庫(kù)跟業(yè)務(wù)執(zhí)行系統(tǒng)的不同點(diǎn)業(yè)務(wù)執(zhí)行系統(tǒng)OLTP數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)OLAP數(shù)據(jù)原始數(shù)據(jù)導(dǎo)出數(shù)據(jù)細(xì)節(jié)性數(shù)據(jù)綜合性和提煉性數(shù)據(jù)當(dāng)前值數(shù)據(jù)歷史數(shù)據(jù)可更新不可更新,但周期性刷新一次處理的數(shù)據(jù)量小一次處理的數(shù)據(jù)量大面向應(yīng)用,事務(wù)驅(qū)動(dòng)面向分析,分析驅(qū)動(dòng)?