檢測到您已登錄華為云國際站賬號,為了您更好的體驗,建議您訪問國際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
設(shè)計原則 大數(shù)據(jù)的部署架構(gòu)設(shè)計包括大數(shù)據(jù)集群、大數(shù)據(jù)任務(wù)調(diào)度平臺和大數(shù)據(jù)應用,其中大數(shù)據(jù)應用的部署架構(gòu)請參考應用架構(gòu)設(shè)計。 圖1 大數(shù)據(jù)架構(gòu)設(shè)計分類 大數(shù)據(jù)架構(gòu)設(shè)計同樣要考慮架構(gòu)設(shè)計的6要素: 成本 可用性 安全性 可擴展性 可運維性 性能 圖2 架構(gòu)設(shè)計6要素 父主題: 大數(shù)據(jù)架構(gòu)設(shè)計
Hive是Apache開源的數(shù)據(jù)倉庫工具,基于Hadoop構(gòu)建,用于處理大規(guī)模結(jié)構(gòu)化數(shù)據(jù)。Hive 是 Apache 開源的數(shù)據(jù)倉庫工具,基于 Hadoop 構(gòu)建,主要用于處理和分析大規(guī)模結(jié)構(gòu)化數(shù)據(jù)。它將結(jié)構(gòu)化的數(shù)據(jù)文件映射為數(shù)據(jù)庫表,并通過類 SQL 的查詢語言(HiveQL)簡
故障對系統(tǒng)造成的影響,并持續(xù)穩(wěn)定地運行,建議遵循以下設(shè)計原則。 高可用設(shè)計 單點故障會導致整個系統(tǒng)崩潰、主要功能受到影響、任務(wù)延誤的系統(tǒng)輕度損壞或存在較大的故障隱患,因此系統(tǒng)的高可用設(shè)計非常關(guān)鍵。 高可用設(shè)計的主要手段是冗余,甚至是多級冗余的組合,包括異地容災方式保證災難情況下無單點:
和組織的數(shù)據(jù)。它包含元數(shù)據(jù)和原始數(shù)據(jù)。數(shù)據(jù)倉庫是高級分析、報告和決策的基礎(chǔ)。 數(shù)據(jù)集市:數(shù)據(jù)集市是數(shù)據(jù)倉庫的一個子集,用于存儲特定團隊或用途(如銷售或營銷)的數(shù)據(jù)。它可以幫助用戶快速訪問他們工作所需的信息。 數(shù)據(jù)挖掘:數(shù)據(jù)挖掘是分析存儲在數(shù)據(jù)倉庫中的大型數(shù)據(jù)集以發(fā)現(xiàn)有意義的模式、
Processing),支持復雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。 數(shù)據(jù)倉庫匯總有可能有很多維度數(shù)據(jù)的統(tǒng)計分析結(jié)果,取百家之長(各個數(shù)據(jù)源的數(shù)據(jù)),成就自己的一方天地(規(guī)劃各種業(yè)務(wù)域的模型,指標)。 舉個栗子~ 車聯(lián)網(wǎng)早期是肯定沒有數(shù)據(jù)倉庫的,剛開始啟動階段就是
地區(qū)部空運成本,再匯總看季度全球空運成本)數(shù)據(jù)倉庫跟業(yè)務(wù)執(zhí)行系統(tǒng)的不同點業(yè)務(wù)執(zhí)行系統(tǒng)OLTP數(shù)據(jù)數(shù)據(jù)倉庫OLAP數(shù)據(jù)原始數(shù)據(jù)導出數(shù)據(jù)細節(jié)性數(shù)據(jù)綜合性和提煉性數(shù)據(jù)當前值數(shù)據(jù)歷史數(shù)據(jù)可更新不可更新,但周期性刷新一次處理的數(shù)據(jù)量小一次處理的數(shù)據(jù)量大面向應用,事務(wù)驅(qū)動面向分析,分析驅(qū)動?
設(shè)計原則 以下是常用的性能優(yōu)化指導原則: 中心化原則:識別支配性工作量負載功能,并使其處理過程最小化,把注意力集中在對性能影響最大的部分進行提升。 本地化原則:選擇靠近的活動、功能和結(jié)果的資源;避免通過間接的方式去達到目的,導致通信量或者處理量大輻增加,性能大輻下降。 共享資源:
個區(qū)域的制造企業(yè),這是平臺建設(shè)遵循的重要原則。 中試中心采用開放可擴展的建設(shè)技術(shù)路線,大量采用模塊化、開放性好、自主性強的單元技術(shù),以創(chuàng)新性工業(yè)互聯(lián)網(wǎng)技術(shù)的融合應用為導向,遵循分層解耦的原則,設(shè)計平臺的總體架構(gòu)。采用“模塊化可重構(gòu)+數(shù)字孿生”的技術(shù)路線,兼顧新技術(shù)、新標準的技術(shù),
最小化憑證:盡量消除對長期的、靜態(tài)憑證的依賴。 數(shù)據(jù)安全保護原則(Data Security) 數(shù)據(jù)分類分級,定義不同級別的數(shù)據(jù)防護措施。 確保對數(shù)據(jù)進行適當的加密、備份和訪問控制,以保護數(shù)據(jù)的機密性、完整性和可用性。 維護個人隱私權(quán)利,保護隱私數(shù)據(jù)的機密性和完整性。 DevSecOps
多原dbc的系統(tǒng)表,為了減小業(yè)務(wù)腳本的改動量,我們保留該Schema)。3、 用戶及權(quán)限管理用戶的權(quán)限設(shè)計應該與原設(shè)計基本相同,數(shù)據(jù)庫的用戶權(quán)限管理與原Teradata的權(quán)限管理的形式基本一致。原Teradata庫中的權(quán)限設(shè)計中將每個庫的權(quán)限拆成四類權(quán)限組:表和視圖的查詢訪問權(quán)限
設(shè)計原則 組織,流程和成本管理相匹配 在成本優(yōu)化過程中,一個很重要的原則是需要將組織結(jié)構(gòu),流程和成本管理相匹配。需要建立“責權(quán)分明”的體系,否則即使用再好的成本優(yōu)化工具,也無法將成本優(yōu)化落到實處。 流程上,需要把成本管理作為各個上云流程中必備的一環(huán); 組織上,需要投入適當的時間,資源和人力用于建立云財務(wù)管理的能力。
試,部署的開發(fā)周期較小,使用頻繁的小型迭代進行。一個典型的實踐是使用微服務(wù)和CI/CD實踐,微服務(wù)架構(gòu)是一種更為靈活、可擴展和易于維護的架構(gòu)風格,已經(jīng)逐漸成為現(xiàn)代應用開發(fā)的主流選擇。它通過將應用程序拆分為小的、自治的服務(wù),每個服務(wù)都負責執(zhí)行特定的業(yè)務(wù)功能,可以使用不同的技術(shù)棧,由
集群的性能和可支持的并發(fā)度。通過對關(guān)聯(lián)條件和分組條件的仔細設(shè)計,能夠盡可能的減少不必要的數(shù)據(jù)shuffle。 選擇存儲方案 【建議】表的存儲類型是表定義設(shè)計的第一步,用戶業(yè)務(wù)類型是決定表的存儲類型的主要因素,表存儲類型的選擇依據(jù)請參考表1。 表1 表的存儲類型及場景 存儲類型 適用場景
性能,以便比較不同的設(shè)計對表的加載性能、存儲空間和查詢性能的影響。 在進行調(diào)優(yōu)表實踐之前,需要先了解表結(jié)構(gòu)設(shè)計相關(guān)的內(nèi)容。因為進行數(shù)據(jù)庫設(shè)計時,表設(shè)計上的一些關(guān)鍵項將嚴重影響后續(xù)整庫的查詢性能。表設(shè)計對數(shù)據(jù)存儲也有影響:好的表設(shè)計能夠減少I/O操作及最小化內(nèi)存使用,進而提升查詢性能。
集群的性能和可支持的并發(fā)度。通過對關(guān)聯(lián)條件和分組條件的仔細設(shè)計,能夠盡可能的減少不必要的數(shù)據(jù)shuffle。 選擇存儲方案 【建議】表的存儲類型是表定義設(shè)計的第一步,用戶業(yè)務(wù)類型是決定表的存儲類型的主要因素,表存儲類型的選擇依據(jù)請參考表1。 表1 表的存儲類型及場景 存儲類型 適用場景
同構(gòu):需要同步的兩張表一模一樣;異構(gòu):需要同步的兩張表結(jié)構(gòu)不一樣。審計可以在數(shù)據(jù)倉庫進行,但是不應該從中進行。 數(shù)據(jù)倉庫的數(shù)據(jù)清理 1,數(shù)據(jù)加入到失去原有細節(jié)的一個輪轉(zhuǎn)綜合文件中 2,數(shù)據(jù)從高性能的介質(zhì)(如DASD)轉(zhuǎn)移到大容量介質(zhì)上 3,數(shù)據(jù)從系統(tǒng)中被真正清除
臨時轉(zhuǎn)儲數(shù)據(jù)倉庫
規(guī)則:數(shù)據(jù)庫設(shè)計與開發(fā)時必須遵守的約定。 建議:數(shù)據(jù)庫設(shè)計與開發(fā)時建議考慮的約定。 說明:對規(guī)則/建議進行的詳細說明和解釋。 總體開發(fā)設(shè)計規(guī)范 下表是DWS開發(fā)過程中需遵循的開發(fā)設(shè)計規(guī)范全集列表,可以單擊鏈接跳轉(zhuǎn)到對應的規(guī)則下了解詳細說明。 表1 DWS開發(fā)設(shè)計規(guī)范全集列表 編號 類別 規(guī)則/建議
數(shù)據(jù)倉庫是信息(對其進行分析可做出更明智的決策)的中央存儲庫。通常,數(shù)據(jù)定期從事務(wù)系統(tǒng)、關(guān)系數(shù)據(jù)庫和其他來源流入數(shù)據(jù)倉庫。業(yè)務(wù)分析師、數(shù)據(jù)工程師、數(shù)據(jù)科學家和決策者通過商業(yè)智能 (BI) 工具、SQL 客戶端和其他分析應用程序訪問數(shù)據(jù)。 數(shù)據(jù)和分析已然成為
之上的數(shù)據(jù)倉庫基礎(chǔ)架構(gòu)。這是一種部分真實的表述(因為您可將源數(shù)據(jù)轉(zhuǎn)換為星形模式),但在創(chuàng)建事實表和維度表時,它更關(guān)乎設(shè)計而不是技術(shù)。盡管如此,Hive 并不真正是一個數(shù)據(jù)倉庫。它甚至并不真正是一個數(shù)據(jù)庫。您可以使用 Hive 構(gòu)建和設(shè)計一個數(shù)據(jù)倉庫,也可以使用 Hive 構(gòu)建和設(shè)計數(shù)據(jù)庫表,但存在的一些限制需