檢測(cè)到您已登錄華為云國(guó)際站賬號(hào),為了您更好的體驗(yàn),建議您訪問(wèn)國(guó)際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)會(huì)來(lái)自各個(gè)業(yè)務(wù)系統(tǒng)數(shù)據(jù)或者外部爬取數(shù)據(jù),所以需要我們知道每個(gè)數(shù)據(jù)倉(cāng)庫(kù)的模型字段都是來(lái)自哪個(gè)源,這樣我們就能快速全面的了解相關(guān)業(yè)務(wù)。相對(duì)穩(wěn)定,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)一般不會(huì)實(shí)時(shí)變化,所以我們今天看去年的數(shù)據(jù)和明天看去年的數(shù)據(jù)是一樣的,如果我們發(fā)現(xiàn)某一個(gè)月度數(shù)據(jù)不對(duì),就可能需要
選擇索引類(lèi)型 違反規(guī)范的影響: 錯(cuò)誤的索引對(duì)列存的訪問(wèn)無(wú)任何性能幫助,反而可能影響查詢(xún)性能。 方案建議: 創(chuàng)建索引時(shí)指定索引類(lèi)型,避免使用默認(rèn)的PSORT類(lèi)型索引。 極端點(diǎn)查(海量數(shù)據(jù)中檢索極少數(shù)據(jù))場(chǎng)景,可使用B-Tree類(lèi)型索引。 范圍查詢(xún)性能要求高的場(chǎng)景,可以創(chuàng)建Partial
禁止使用一個(gè)數(shù)據(jù)庫(kù)用戶(hù)運(yùn)行所有業(yè)務(wù) 違反規(guī)則的影響: 同一個(gè)數(shù)據(jù)庫(kù)用戶(hù)運(yùn)行所有業(yè)務(wù)不利于業(yè)務(wù)管控,異常場(chǎng)景無(wú)法針對(duì)特定用戶(hù)做緊急隔離。 方案建議: 根據(jù)用途規(guī)劃管理員、業(yè)務(wù)運(yùn)行賬號(hào)、運(yùn)維賬號(hào)等。 根據(jù)業(yè)務(wù)模塊進(jìn)行用戶(hù)細(xì)分,以便通過(guò)用戶(hù)進(jìn)行業(yè)務(wù)和資源的劃分和管控。 父主題: DWS對(duì)象設(shè)計(jì)規(guī)范
【建議】給可以顯式命名的約束顯式命名。除了NOT NULL和DEFAULT約束外,其他約束都可以顯式命名。 局部聚簇 Partial Cluster Key(局部聚簇,簡(jiǎn)稱(chēng)PCK)是列存表的一種局部聚簇技術(shù),在DWS中,使用PCK可以通過(guò)min/max稀疏索引實(shí)現(xiàn)事實(shí)表快速過(guò)濾掃描。PCK的選取遵循以下原則:
【建議】給可以顯式命名的約束顯式命名。除了NOT NULL和DEFAULT約束外,其他約束都可以顯式命名。 局部聚簇 Partial Cluster Key(局部聚簇,簡(jiǎn)稱(chēng)PCK)是列存表的一種局部聚簇技術(shù),在DWS中,使用PCK可以通過(guò)min/max稀疏索引實(shí)現(xiàn)事實(shí)表快速過(guò)濾掃描。PCK的選取遵循以下原則:
數(shù)據(jù)倉(cāng)庫(kù)是信息(對(duì)其進(jìn)行分析可做出更明智的決策)的中央存儲(chǔ)庫(kù)。通常,數(shù)據(jù)定期從事務(wù)系統(tǒng)、關(guān)系數(shù)據(jù)庫(kù)和其他來(lái)源流入數(shù)據(jù)倉(cāng)庫(kù)。業(yè)務(wù)分析師、數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家和決策者通過(guò)商業(yè)智能 (BI) 工具、SQL 客戶(hù)端和其他分析應(yīng)用程序訪問(wèn)數(shù)據(jù)。 數(shù)據(jù)和分析已然成為
在數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)建設(shè)過(guò)程中,數(shù)據(jù)的加載、卸載,各層數(shù)據(jù)模型之間的數(shù)據(jù)流轉(zhuǎn),業(yè)務(wù)規(guī)則的實(shí)現(xiàn)等等數(shù)據(jù)加工過(guò)程都會(huì)以ETL任務(wù)的方式實(shí)現(xiàn)。 構(gòu)建ETL子系統(tǒng)是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)實(shí)施的一個(gè)非常重要的環(huán)節(jié),在倉(cāng)庫(kù)平臺(tái)建設(shè)過(guò)程中搭建一個(gè)完整、標(biāo)準(zhǔn)的ETL子系統(tǒng)是數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)建設(shè)的基礎(chǔ)性目標(biāo)之一。ET
開(kāi)源 中 中 定時(shí)任務(wù)調(diào)度和 ETL 從表中可以看出,不同的 ETL 工具適用于不同的場(chǎng)景,開(kāi)發(fā)者需要根據(jù)項(xiàng)目需求選擇合適的工具。 2. 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì):構(gòu)建高效的數(shù)據(jù)存儲(chǔ)架構(gòu) 數(shù)據(jù)倉(cāng)庫(kù)是一種面向主題的、集成的、非易失的、隨時(shí)間變化的數(shù)據(jù)集合,用于支持管理決策。良好的數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)可以顯著提升查詢(xún)性能和數(shù)據(jù)分析效率。
ClickHouse寬表設(shè)計(jì)原則 寬表設(shè)計(jì)原則 由于ClickHouse的寬表查詢(xún)性能較優(yōu),且當(dāng)前ClickHouse可支持幾百到幾千列的寬表橫向擴(kuò)展。 在大部分場(chǎng)景下,有大表兩表join以及多表join的場(chǎng)景,且多個(gè)join的表數(shù)據(jù)變化更新頻率較低,這種情況,建議對(duì)多個(gè)表join查詢(xún)邏
規(guī)則:數(shù)據(jù)庫(kù)設(shè)計(jì)與開(kāi)發(fā)時(shí)必須遵守的約定。 建議:數(shù)據(jù)庫(kù)設(shè)計(jì)與開(kāi)發(fā)時(shí)建議考慮的約定。 說(shuō)明:對(duì)規(guī)則/建議進(jìn)行的詳細(xì)說(shuō)明和解釋。 總體開(kāi)發(fā)設(shè)計(jì)規(guī)范 下表是DWS開(kāi)發(fā)過(guò)程中需遵循的開(kāi)發(fā)設(shè)計(jì)規(guī)范全集列表,可以單擊鏈接跳轉(zhuǎn)到對(duì)應(yīng)的規(guī)則下了解詳細(xì)說(shuō)明。 表1 DWS開(kāi)發(fā)設(shè)計(jì)規(guī)范全集列表 編號(hào) 類(lèi)別 規(guī)則/建議
數(shù)據(jù)倉(cāng)庫(kù) 華為云數(shù)據(jù)倉(cāng)庫(kù)高級(jí)工程師培訓(xùn) 父主題: 培訓(xùn)服務(wù)
選擇索引類(lèi)型 違反規(guī)范的影響: 錯(cuò)誤的索引對(duì)列存的訪問(wèn)無(wú)任何性能幫助,反而可能影響查詢(xún)性能。 方案建議: 創(chuàng)建索引時(shí)指定索引類(lèi)型,避免使用默認(rèn)的PSORT類(lèi)型索引。 極端點(diǎn)查(海量數(shù)據(jù)中檢索極少數(shù)據(jù))場(chǎng)景,可使用B-Tree類(lèi)型索引。 范圍查詢(xún)性能要求高的場(chǎng)景,可以創(chuàng)建Partial
之上的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)架構(gòu)。這是一種部分真實(shí)的表述(因?yàn)槟蓪⒃?span id="4ykyiyl" class='cur'>數(shù)據(jù)轉(zhuǎn)換為星形模式),但在創(chuàng)建事實(shí)表和維度表時(shí),它更關(guān)乎設(shè)計(jì)而不是技術(shù)。盡管如此,Hive 并不真正是一個(gè)數(shù)據(jù)倉(cāng)庫(kù)。它甚至并不真正是一個(gè)數(shù)據(jù)庫(kù)。您可以使用 Hive 構(gòu)建和設(shè)計(jì)一個(gè)數(shù)據(jù)倉(cāng)庫(kù),也可以使用 Hive 構(gòu)建和設(shè)計(jì)數(shù)據(jù)庫(kù)表,但存在的一些限制需
壓力,使數(shù)據(jù)的處理本地化,提高集群的性能和可支持的并發(fā)度。通過(guò)對(duì)關(guān)聯(lián)條件和分組條件的仔細(xì)設(shè)計(jì),能夠盡可能的減少不必要的數(shù)據(jù)shuffle。 選擇存儲(chǔ)方案 【建議】表的存儲(chǔ)類(lèi)型是表定義設(shè)計(jì)的第一步,客戶(hù)業(yè)務(wù)類(lèi)型是決定表的存儲(chǔ)類(lèi)型的主要因素,表存儲(chǔ)類(lèi)型的選擇依據(jù)請(qǐng)參考表1。
SCHEMA對(duì)象設(shè)計(jì)規(guī)范 建議2.7 不在其他USER的私有SCHEMA下創(chuàng)建對(duì)象 私有SCHEMA是指創(chuàng)建USER時(shí)自帶的同名SCHEMA,該SCHEMA為該USER私有。 違反規(guī)則的影響: 在其他用戶(hù)私有SCHEMA下創(chuàng)建對(duì)象,對(duì)象權(quán)限不受創(chuàng)建者控制,OWNER也非創(chuàng)建者。 方案建議:
決數(shù)據(jù)倉(cāng)庫(kù)不能處理非結(jié)構(gòu)化數(shù)據(jù)和報(bào)表開(kāi)發(fā)周期長(zhǎng)的問(wèn)題而產(chǎn)生。數(shù)據(jù)平臺(tái)先是通過(guò)將企業(yè)所有數(shù)據(jù)(包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù))抽取出來(lái)放到一起,成為一個(gè)大的數(shù)據(jù)集,再根據(jù)業(yè)務(wù)需求,單獨(dú)提取其中的小數(shù)據(jù)集并提供給數(shù)據(jù)應(yīng)用。數(shù)據(jù)倉(cāng)庫(kù)算產(chǎn)品,數(shù)據(jù)平臺(tái)算平臺(tái),數(shù)據(jù)中臺(tái)的精髓在于其機(jī)制,數(shù)據(jù)中臺(tái)不
數(shù)據(jù)庫(kù) 與 數(shù)據(jù)倉(cāng)庫(kù) 數(shù)據(jù)庫(kù) 1)用于OLTP 2)數(shù)據(jù)庫(kù)是面向事物處理的,數(shù)據(jù)是由日常的業(yè)務(wù)產(chǎn)生的,會(huì)有頻繁的增刪改操作 3)數(shù)據(jù)庫(kù)一般用來(lái)存儲(chǔ)當(dāng)前事務(wù)性數(shù)據(jù),如交易數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù) 4)數(shù)據(jù)庫(kù)的設(shè)計(jì)一般是符合三范式的,有最大的精確度和最小的冗余度,有利于數(shù)據(jù)的操作 5)數(shù)
型采用星形結(jié)構(gòu),表分兩類(lèi)——事實(shí)表和維度表。事實(shí)表處于星星的中心,儲(chǔ)存能描述業(yè)務(wù)狀況的各種度量數(shù)據(jù),可以通過(guò)事實(shí)表了解業(yè)務(wù)狀況。維度表則圍繞著事實(shí)表,通過(guò)外鍵以一對(duì)一的形式相關(guān)聯(lián),提供看待業(yè)務(wù)狀況的不同角度。相比業(yè)務(wù)數(shù)據(jù)庫(kù)常用的E-R模型,星形結(jié)構(gòu)更容易理解,更方便進(jìn)行分析。</
Processing),支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢(xún)結(jié)果。 數(shù)據(jù)倉(cāng)庫(kù)匯總有可能有很多維度數(shù)據(jù)的統(tǒng)計(jì)分析結(jié)果,取百家之長(zhǎng)(各個(gè)數(shù)據(jù)源的數(shù)據(jù)),成就自己的一方天地(規(guī)劃各種業(yè)務(wù)域的模型,指標(biāo))。 舉個(gè)栗子~ 車(chē)聯(lián)網(wǎng)早期是肯定沒(méi)有數(shù)據(jù)倉(cāng)庫(kù)的,剛開(kāi)始啟動(dòng)階段就是
DWS對(duì)象設(shè)計(jì)規(guī)范 DATABASE對(duì)象設(shè)計(jì)規(guī)范 USER對(duì)象設(shè)計(jì)規(guī)范 SCHEMA對(duì)象設(shè)計(jì)規(guī)范 TABLESPACE對(duì)象設(shè)計(jì)規(guī)范 TABLE對(duì)象設(shè)計(jì)規(guī)范(重點(diǎn)) INDEX對(duì)象設(shè)計(jì)規(guī)范(重點(diǎn)) VIEW對(duì)象設(shè)計(jì)規(guī)范 父主題: DWS開(kāi)發(fā)設(shè)計(jì)建議