檢測到您已登錄華為云國際站賬號,為了您更好的體驗(yàn),建議您訪問國際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
Database,即數(shù)據(jù)庫,用于管理各類數(shù)據(jù)對象,各數(shù)據(jù)庫間相互隔離。 Datafile Segment,即數(shù)據(jù)文件,通常每張表只對應(yīng)一個(gè)數(shù)據(jù)文件。如果某張表的數(shù)據(jù)大于1GB,則會分為多個(gè)數(shù)據(jù)文件存儲。 Table,即表,每張表只能屬于一個(gè)數(shù)據(jù)庫。 B
故障對系統(tǒng)造成的影響,并持續(xù)穩(wěn)定地運(yùn)行,建議遵循以下設(shè)計(jì)原則。 高可用設(shè)計(jì) 單點(diǎn)故障會導(dǎo)致整個(gè)系統(tǒng)崩潰、主要功能受到影響、任務(wù)延誤的系統(tǒng)輕度損壞或存在較大的故障隱患,因此系統(tǒng)的高可用設(shè)計(jì)非常關(guān)鍵。 高可用設(shè)計(jì)的主要手段是冗余,甚至是多級冗余的組合,包括異地容災(zāi)方式保證災(zāi)難情況下無單點(diǎn):
設(shè)計(jì)原則 大數(shù)據(jù)的部署架構(gòu)設(shè)計(jì)包括大數(shù)據(jù)集群、大數(shù)據(jù)任務(wù)調(diào)度平臺和大數(shù)據(jù)應(yīng)用,其中大數(shù)據(jù)應(yīng)用的部署架構(gòu)請參考應(yīng)用架構(gòu)設(shè)計(jì)。 圖1 大數(shù)據(jù)架構(gòu)設(shè)計(jì)分類 大數(shù)據(jù)架構(gòu)設(shè)計(jì)同樣要考慮架構(gòu)設(shè)計(jì)的6要素: 成本 可用性 安全性 可擴(kuò)展性 可運(yùn)維性 性能 圖2 架構(gòu)設(shè)計(jì)6要素 父主題: 大數(shù)據(jù)架構(gòu)設(shè)計(jì)
Processing),支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。 數(shù)據(jù)倉庫匯總有可能有很多維度數(shù)據(jù)的統(tǒng)計(jì)分析結(jié)果,取百家之長(各個(gè)數(shù)據(jù)源的數(shù)據(jù)),成就自己的一方天地(規(guī)劃各種業(yè)務(wù)域的模型,指標(biāo))。 舉個(gè)栗子~ 車聯(lián)網(wǎng)早期是肯定沒有數(shù)據(jù)倉庫的,剛開始啟動階段就是
地區(qū)部空運(yùn)成本,再匯總看季度全球空運(yùn)成本)數(shù)據(jù)倉庫跟業(yè)務(wù)執(zhí)行系統(tǒng)的不同點(diǎn)業(yè)務(wù)執(zhí)行系統(tǒng)OLTP數(shù)據(jù)數(shù)據(jù)倉庫OLAP數(shù)據(jù)原始數(shù)據(jù)導(dǎo)出數(shù)據(jù)細(xì)節(jié)性數(shù)據(jù)綜合性和提煉性數(shù)據(jù)當(dāng)前值數(shù)據(jù)歷史數(shù)據(jù)可更新不可更新,但周期性刷新一次處理的數(shù)據(jù)量小一次處理的數(shù)據(jù)量大面向應(yīng)用,事務(wù)驅(qū)動面向分析,分析驅(qū)動?
Hive是Apache開源的數(shù)據(jù)倉庫工具,基于Hadoop構(gòu)建,用于處理大規(guī)模結(jié)構(gòu)化數(shù)據(jù)。Hive 是 Apache 開源的數(shù)據(jù)倉庫工具,基于 Hadoop 構(gòu)建,主要用于處理和分析大規(guī)模結(jié)構(gòu)化數(shù)據(jù)。它將結(jié)構(gòu)化的數(shù)據(jù)文件映射為數(shù)據(jù)庫表,并通過類 SQL 的查詢語言(HiveQL)簡
設(shè)計(jì)原則 以下是常用的性能優(yōu)化指導(dǎo)原則: 中心化原則:識別支配性工作量負(fù)載功能,并使其處理過程最小化,把注意力集中在對性能影響最大的部分進(jìn)行提升。 本地化原則:選擇靠近的活動、功能和結(jié)果的資源;避免通過間接的方式去達(dá)到目的,導(dǎo)致通信量或者處理量大幅增加,性能大幅下降。 共享資源:
和組織的數(shù)據(jù)。它包含元數(shù)據(jù)和原始數(shù)據(jù)。數(shù)據(jù)倉庫是高級分析、報(bào)告和決策的基礎(chǔ)。 數(shù)據(jù)集市:數(shù)據(jù)集市是數(shù)據(jù)倉庫的一個(gè)子集,用于存儲特定團(tuán)隊(duì)或用途(如銷售或營銷)的數(shù)據(jù)。它可以幫助用戶快速訪問他們工作所需的信息。 數(shù)據(jù)挖掘:數(shù)據(jù)挖掘是分析存儲在數(shù)據(jù)倉庫中的大型數(shù)據(jù)集以發(fā)現(xiàn)有意義的模式、
規(guī)則:數(shù)據(jù)庫設(shè)計(jì)與開發(fā)時(shí)必須遵守的約定。 建議:數(shù)據(jù)庫設(shè)計(jì)與開發(fā)時(shí)建議考慮的約定。 說明:對規(guī)則/建議進(jìn)行的詳細(xì)說明和解釋。 總體開發(fā)設(shè)計(jì)規(guī)范 下表是DWS開發(fā)過程中需遵循的開發(fā)設(shè)計(jì)規(guī)范全集列表,可以單擊鏈接跳轉(zhuǎn)到對應(yīng)的規(guī)則下了解詳細(xì)說明。 表1 DWS開發(fā)設(shè)計(jì)規(guī)范全集列表 編號 類別 規(guī)則/建議
數(shù)據(jù)的簡易查詢。 立即體驗(yàn) 使用GaussDB(DWS)導(dǎo)入Hive數(shù)據(jù),實(shí)現(xiàn)對大數(shù)據(jù)的融合分析 指導(dǎo)用戶創(chuàng)建數(shù)據(jù)倉庫集群GaussDB(DWS),并將Hive數(shù)據(jù)導(dǎo)入數(shù)據(jù)倉庫,實(shí)現(xiàn)跨集群大數(shù)據(jù)的融合分析。 立即體驗(yàn) 使用GaussDB(DWS)實(shí)現(xiàn)零售業(yè)經(jīng)營狀況的多維度查詢分析
最小化憑證:盡量消除對長期的、靜態(tài)憑證的依賴。 數(shù)據(jù)安全保護(hù)原則(Data Security) 數(shù)據(jù)分類分級,定義不同級別的數(shù)據(jù)防護(hù)措施。 確保對數(shù)據(jù)進(jìn)行適當(dāng)的加密、備份和訪問控制,以保護(hù)數(shù)據(jù)的機(jī)密性、完整性和可用性。 維護(hù)個(gè)人隱私權(quán)利,保護(hù)隱私數(shù)據(jù)的機(jī)密性和完整性。 DevSecOps
多原dbc的系統(tǒng)表,為了減小業(yè)務(wù)腳本的改動量,我們保留該Schema)。3、 用戶及權(quán)限管理用戶的權(quán)限設(shè)計(jì)應(yīng)該與原設(shè)計(jì)基本相同,數(shù)據(jù)庫的用戶權(quán)限管理與原Teradata的權(quán)限管理的形式基本一致。原Teradata庫中的權(quán)限設(shè)計(jì)中將每個(gè)庫的權(quán)限拆成四類權(quán)限組:表和視圖的查詢訪問權(quán)限
集群的性能和可支持的并發(fā)度。通過對關(guān)聯(lián)條件和分組條件的仔細(xì)設(shè)計(jì),能夠盡可能的減少不必要的數(shù)據(jù)shuffle。 選擇存儲方案 【建議】表的存儲類型是表定義設(shè)計(jì)的第一步,用戶業(yè)務(wù)類型是決定表的存儲類型的主要因素,表存儲類型的選擇依據(jù)請參考表1。 表1 表的存儲類型及場景 存儲類型 適用場景
個(gè)區(qū)域的制造企業(yè),這是平臺建設(shè)遵循的重要原則。 中試中心采用開放可擴(kuò)展的建設(shè)技術(shù)路線,大量采用模塊化、開放性好、自主性強(qiáng)的單元技術(shù),以創(chuàng)新性工業(yè)互聯(lián)網(wǎng)技術(shù)的融合應(yīng)用為導(dǎo)向,遵循分層解耦的原則,設(shè)計(jì)平臺的總體架構(gòu)。采用“模塊化可重構(gòu)+數(shù)字孿生”的技術(shù)路線,兼顧新技術(shù)、新標(biāo)準(zhǔn)的技術(shù),
臨時(shí)轉(zhuǎn)儲數(shù)據(jù)倉庫
禁止使用一個(gè)數(shù)據(jù)庫用戶運(yùn)行所有業(yè)務(wù) 違反規(guī)則的影響: 同一個(gè)數(shù)據(jù)庫用戶運(yùn)行所有業(yè)務(wù)不利于業(yè)務(wù)管控,異常場景無法針對特定用戶做緊急隔離。 方案建議: 根據(jù)用途規(guī)劃管理員、業(yè)務(wù)運(yùn)行賬號、運(yùn)維賬號等。 根據(jù)業(yè)務(wù)模塊進(jìn)行用戶細(xì)分,以便通過用戶進(jìn)行業(yè)務(wù)和資源的劃分和管控。 父主題: DWS對象設(shè)計(jì)規(guī)范
設(shè)計(jì)原則 組織,流程和成本管理相匹配 在成本優(yōu)化過程中,一個(gè)很重要的原則是需要將組織結(jié)構(gòu),流程和成本管理相匹配。需要建立“責(zé)權(quán)分明”的體系,否則即使用再好的成本優(yōu)化工具,也無法將成本優(yōu)化落到實(shí)處。 流程上,需要把成本管理作為各個(gè)上云流程中必備的一環(huán); 組織上,需要投入適當(dāng)的時(shí)間,資源和人力用于建立云財(cái)務(wù)管理的能力。
大表、事實(shí)表,無合適分布列的表。 Replication 表中的全量數(shù)據(jù)在集群的每一個(gè)DN實(shí)例上保留一份。 優(yōu)點(diǎn):每個(gè)DN上都有此表的全量數(shù)據(jù),JOIN操作中可以完全避免節(jié)點(diǎn)間數(shù)據(jù)通信,從而減小網(wǎng)絡(luò)開銷,同時(shí)減少了STREAM線程啟停開銷。 缺點(diǎn):每個(gè)DN都保留了表的完整數(shù)據(jù),數(shù)據(jù)的冗余,占用更多存儲空間。
試,部署的開發(fā)周期較小,使用頻繁的小型迭代進(jìn)行。一個(gè)典型的實(shí)踐是使用微服務(wù)和CI/CD實(shí)踐,微服務(wù)架構(gòu)是一種更為靈活、可擴(kuò)展和易于維護(hù)的架構(gòu)風(fēng)格,已經(jīng)逐漸成為現(xiàn)代應(yīng)用開發(fā)的主流選擇。它通過將應(yīng)用程序拆分為小的、自治的服務(wù),每個(gè)服務(wù)都負(fù)責(zé)執(zhí)行特定的業(yè)務(wù)功能,可以使用不同的技術(shù)棧,由
同構(gòu):需要同步的兩張表一模一樣;異構(gòu):需要同步的兩張表結(jié)構(gòu)不一樣。審計(jì)可以在數(shù)據(jù)倉庫進(jìn)行,但是不應(yīng)該從中進(jìn)行。 數(shù)據(jù)倉庫的數(shù)據(jù)清理 1,數(shù)據(jù)加入到失去原有細(xì)節(jié)的一個(gè)輪轉(zhuǎn)綜合文件中 2,數(shù)據(jù)從高性能的介質(zhì)(如DASD)轉(zhuǎn)移到大容量介質(zhì)上 3,數(shù)據(jù)從系統(tǒng)中被真正清除