檢測(cè)到您已登錄華為云國(guó)際站賬號(hào),為了您更好的體驗(yàn),建議您訪(fǎng)問(wèn)國(guó)際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
文章目錄 數(shù)據(jù)倉(cāng)庫(kù) 什么是數(shù)據(jù)倉(cāng)庫(kù)? 數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別? 事實(shí)表和維度表 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型: 為什么數(shù)據(jù)倉(cāng)庫(kù)要分層? 數(shù)據(jù)倉(cāng)庫(kù)模式:Kimball (金箔)和 Inmon(恩門(mén)) 數(shù)據(jù)庫(kù)架構(gòu)——Lambda架構(gòu)和Kappa架構(gòu)
息系統(tǒng)相關(guān)。 數(shù)據(jù)倉(cāng)庫(kù)是集成的,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)有來(lái)自于分散的操作型數(shù)據(jù),將所需數(shù)據(jù)從原來(lái)的數(shù)據(jù)中抽取出來(lái),進(jìn)行加工與集成,統(tǒng)一與綜合之后才能進(jìn)入數(shù)據(jù)倉(cāng)庫(kù); 數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是在對(duì)原有分散的數(shù)據(jù)庫(kù)數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過(guò)系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保
可。 數(shù)據(jù)倉(cāng)庫(kù)具體的分層 標(biāo)準(zhǔn)的數(shù)據(jù)倉(cāng)庫(kù)分層: stg(數(shù)據(jù)緩沖層), ods (數(shù)據(jù)貼源層),dw:dwd dws dwt (數(shù)據(jù)倉(cāng)庫(kù) 層),ads (數(shù)據(jù)集市層),app (應(yīng)用層)。 stg:源數(shù)據(jù)緩沖層,它和源系統(tǒng)數(shù)據(jù)是同構(gòu)的,而且這一層數(shù)據(jù)粒度是最細(xì)的,數(shù)據(jù)層與 業(yè)務(wù)源的數(shù)據(jù)結(jié)構(gòu)-
如果要保留歷史的中間表,可以加上日期或者時(shí)間戳 3.3 臨時(shí)表 臨時(shí)表是臨時(shí)測(cè)試的表,是臨時(shí)使用一次的表,就是暫時(shí)保存下數(shù)據(jù)看看,后續(xù)一般不再使用的表,是可以隨時(shí)刪除的表。 規(guī)范:tmp_xxx 只要加上tmp開(kāi)頭即可,其他名字隨意,注意tmp開(kāi)頭的表不要用來(lái)實(shí)際使用,只是測(cè)試驗(yàn)證而已。
指對(duì)應(yīng)的值。ETL 元數(shù)據(jù) 根據(jù) ETL 目的的不同,可以分為兩類(lèi):數(shù)據(jù)清洗元數(shù)據(jù);數(shù)據(jù)處理元數(shù)據(jù)。數(shù)據(jù)清洗,主要目的是為了解決掉臟數(shù)據(jù)及規(guī)范數(shù)據(jù)格式;因此此處元數(shù)據(jù)主要為:各表各列的"正確"數(shù)據(jù)規(guī)則;默認(rèn)數(shù)據(jù)類(lèi)型的"正確"規(guī)則。數(shù)據(jù)處理,例如常見(jiàn)的表輸入表輸出;非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化;特殊字段的拆分
在介紹Lambda和Kappa架構(gòu)之前,我們先回顧一下數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展歷程: 傳送門(mén)-數(shù)據(jù)倉(cāng)庫(kù)發(fā)展歷程 寫(xiě)在前面 咳,隨著數(shù)據(jù)量的暴增和數(shù)據(jù)實(shí)時(shí)性要求越來(lái)越高,以及大數(shù)據(jù)技術(shù)的發(fā)展驅(qū)動(dòng)企業(yè)不斷升級(jí)迭代,數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)方面也在不斷演進(jìn),分別經(jīng)歷了以下過(guò)程:早期經(jīng)典數(shù)倉(cāng)架構(gòu) > 離線(xiàn)大數(shù)據(jù)架構(gòu) > Lambda
Database,即數(shù)據(jù)庫(kù),用于管理各類(lèi)數(shù)據(jù)對(duì)象,各數(shù)據(jù)庫(kù)間相互隔離。 Datafile Segment,即數(shù)據(jù)文件,通常每張表只對(duì)應(yīng)一個(gè)數(shù)據(jù)文件。如果某張表的數(shù)據(jù)大于1GB,則會(huì)分為多個(gè)數(shù)據(jù)文件存儲(chǔ)。 Table,即表,每張表只能屬于一個(gè)數(shù)據(jù)庫(kù)。 B
可。 數(shù)據(jù)倉(cāng)庫(kù)具體的分層 標(biāo)準(zhǔn)的數(shù)據(jù)倉(cāng)庫(kù)分層: stg(數(shù)據(jù)緩沖層), ods (數(shù)據(jù)貼源層),dw:dwd dws dwt (數(shù)據(jù)倉(cāng)庫(kù) 層),ads (數(shù)據(jù)集市層),app (應(yīng)用層)。 stg:源數(shù)據(jù)緩沖層,它和源系統(tǒng)數(shù)據(jù)是同構(gòu)的,而且這一層數(shù)據(jù)粒度是最細(xì)的,數(shù)據(jù)層與 業(yè)務(wù)源的數(shù)據(jù)結(jié)構(gòu)-
從數(shù)據(jù)源的采集到多層清洗加工的過(guò)程中,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)邏輯分層一般分為4層。 分層的核心思想就是解耦。 ODS Operation Data Store 原始數(shù)據(jù)層,也有叫貼源層,該層對(duì)采集的原始數(shù)據(jù)進(jìn)行原樣存儲(chǔ)。 DWD Data Warehouse Detail 明細(xì)數(shù)據(jù)層,對(duì)ODS進(jìn)行清洗,解決數(shù)據(jù)質(zhì)量問(wèn)題。
了華為云混合負(fù)載數(shù)據(jù)倉(cāng)庫(kù)DWS。DWS采用“一庫(kù)兩用”的設(shè)計(jì)理念,一套數(shù)據(jù)倉(cāng)庫(kù)集群既可以支持超高并發(fā)、低時(shí)延的業(yè)務(wù)交易請(qǐng)求,同時(shí)可支撐復(fù)雜的海量數(shù)據(jù)分析和BI應(yīng)用,減少開(kāi)發(fā)和運(yùn)維成本。相比于原系統(tǒng),BI系統(tǒng)時(shí)效性大大提高,且數(shù)據(jù)分析性能提升3倍。做到數(shù)據(jù)實(shí)時(shí)一致的同時(shí),DWS也確
Processing),支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢(xún)結(jié)果。 數(shù)據(jù)倉(cāng)庫(kù)匯總有可能有很多維度數(shù)據(jù)的統(tǒng)計(jì)分析結(jié)果,取百家之長(zhǎng)(各個(gè)數(shù)據(jù)源的數(shù)據(jù)),成就自己的一方天地(規(guī)劃各種業(yè)務(wù)域的模型,指標(biāo))。 舉個(gè)栗子~ 車(chē)聯(lián)網(wǎng)早期是肯定沒(méi)有數(shù)據(jù)倉(cāng)庫(kù)的,剛開(kāi)始啟動(dòng)階段就是
地區(qū)部空運(yùn)成本,再匯總看季度全球空運(yùn)成本)數(shù)據(jù)倉(cāng)庫(kù)跟業(yè)務(wù)執(zhí)行系統(tǒng)的不同點(diǎn)業(yè)務(wù)執(zhí)行系統(tǒng)OLTP數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)OLAP數(shù)據(jù)原始數(shù)據(jù)導(dǎo)出數(shù)據(jù)細(xì)節(jié)性數(shù)據(jù)綜合性和提煉性數(shù)據(jù)當(dāng)前值數(shù)據(jù)歷史數(shù)據(jù)可更新不可更新,但周期性刷新一次處理的數(shù)據(jù)量小一次處理的數(shù)據(jù)量大面向應(yīng)用,事務(wù)驅(qū)動(dòng)面向分析,分析驅(qū)動(dòng)?
臨時(shí)轉(zhuǎn)儲(chǔ)數(shù)據(jù)倉(cāng)庫(kù)
和組織的數(shù)據(jù)。它包含元數(shù)據(jù)和原始數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)是高級(jí)分析、報(bào)告和決策的基礎(chǔ)。 數(shù)據(jù)集市:數(shù)據(jù)集市是數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)子集,用于存儲(chǔ)特定團(tuán)隊(duì)或用途(如銷(xiāo)售或營(yíng)銷(xiāo))的數(shù)據(jù)。它可以幫助用戶(hù)快速訪(fǎng)問(wèn)他們工作所需的信息。 數(shù)據(jù)挖掘:數(shù)據(jù)挖掘是分析存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中的大型數(shù)據(jù)集以發(fā)現(xiàn)有意義的模式、
3,數(shù)據(jù)從系統(tǒng)中被真正清除 4,數(shù)據(jù)從體系結(jié)構(gòu)的一個(gè)層次轉(zhuǎn)到另一個(gè)層次,比如從操作層轉(zhuǎn)到數(shù)據(jù)倉(cāng)庫(kù)層 在操作型環(huán)境中的檔案數(shù)據(jù)的時(shí)間范圍稱(chēng)為數(shù)據(jù)的操作型窗口,一般不是很長(zhǎng),只能從一個(gè)星期到兩年。 數(shù)據(jù)倉(cāng)庫(kù)中的錯(cuò)誤數(shù)據(jù)處理方法: 1,原始數(shù)據(jù)更新 2,加入修正條目 3,重新設(shè)置當(dāng)前正確數(shù)據(jù)。作者
的產(chǎn)生。由于企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)、實(shí)施很困難,使得最早吃數(shù)據(jù)倉(cāng)庫(kù)螃蟹的公司遭到大面積的失敗,因此數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)者和分析師開(kāi)始考慮只建設(shè)企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)的一部分,然后再逐步添加,但是這有背于BillInmon的原則:各個(gè)實(shí)施部分的數(shù)據(jù)抽取、清洗、轉(zhuǎn)換和加載是獨(dú)立,導(dǎo)致了數(shù)據(jù)的混亂與不
因此數(shù)據(jù)倉(cāng)庫(kù)就相當(dāng)于宜家的一樓倉(cāng)庫(kù),在這里,數(shù)據(jù)(家具)按照特定的模型,如FS-LDM等(貨架-位置)組織起來(lái),這種模型,對(duì)于顧客(業(yè)務(wù)人員,數(shù)據(jù)最終用戶(hù))是不友好的,但是對(duì)于科技人員(倉(cāng)庫(kù)管理員,宜家員工)來(lái)說(shuō)相對(duì)友好,因?yàn)樗凑找环N更加集約化的規(guī)則將數(shù)據(jù)(家具)管理起
數(shù)據(jù)倉(cāng)庫(kù)是信息(對(duì)其進(jìn)行分析可做出更明智的決策)的中央存儲(chǔ)庫(kù)。通常,數(shù)據(jù)定期從事務(wù)系統(tǒng)、關(guān)系數(shù)據(jù)庫(kù)和其他來(lái)源流入數(shù)據(jù)倉(cāng)庫(kù)。業(yè)務(wù)分析師、數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家和決策者通過(guò)商業(yè)智能 (BI) 工具、SQL 客戶(hù)端和其他分析應(yīng)用程序訪(fǎng)問(wèn)數(shù)據(jù)。 數(shù)據(jù)和分析已然成為
在數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)建設(shè)過(guò)程中,數(shù)據(jù)的加載、卸載,各層數(shù)據(jù)模型之間的數(shù)據(jù)流轉(zhuǎn),業(yè)務(wù)規(guī)則的實(shí)現(xiàn)等等數(shù)據(jù)加工過(guò)程都會(huì)以ETL任務(wù)的方式實(shí)現(xiàn)。 構(gòu)建ETL子系統(tǒng)是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)實(shí)施的一個(gè)非常重要的環(huán)節(jié),在倉(cāng)庫(kù)平臺(tái)建設(shè)過(guò)程中搭建一個(gè)完整、標(biāo)準(zhǔn)的ETL子系統(tǒng)是數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)建設(shè)的基礎(chǔ)性目標(biāo)之一。ET
分)檢查多選題6分(計(jì)分)4. (多選)一般在數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型有:A. 雪花模型B. 星型模型C. 直線(xiàn)模型D. 總線(xiàn)模型AB正確5. (多選)一般在數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)分為三層,包括:A. ODS層(數(shù)據(jù)貼源層)B. DW層(數(shù)據(jù)倉(cāng)庫(kù)層)C. DM層(數(shù)據(jù)集市層)D. SQL層(數(shù)據(jù)查詢(xún)層)ABC