數(shù)據(jù)湖探索
數(shù)據(jù)湖探索快速入門(mén)
本視頻介紹的是:華為云 數(shù)據(jù)湖探索 DLI操作指導(dǎo): 數(shù)據(jù)湖 探索快速入門(mén)
數(shù)據(jù)湖探索產(chǎn)品介紹
本視頻介紹的是:華為云數(shù)據(jù)湖探索 DLI產(chǎn)品介紹:數(shù)據(jù)湖探索產(chǎn)品介紹
異構(gòu)數(shù)據(jù)整合
異構(gòu)數(shù)據(jù)整合,可以將海量數(shù)據(jù)中的一個(gè)或多個(gè)異構(gòu)的數(shù)據(jù)進(jìn)行整合,進(jìn)行統(tǒng)一的數(shù)據(jù)存儲(chǔ)、挖掘和分析。數(shù)據(jù)統(tǒng)一存儲(chǔ),是用戶(hù)在自建的 數(shù)據(jù)倉(cāng)庫(kù) 的過(guò)程中,通常是以任務(wù)調(diào)度為主,而數(shù)據(jù)源是之間對(duì)外提供的,是以整體進(jìn)行分析處理的一種方法。例如,一個(gè)保險(xiǎn)公司的保險(xiǎn)公司在銷(xiāo)售查詢(xún)某一筆經(jīng)營(yíng)資金,可以查詢(xún)到每個(gè)月的消費(fèi)明細(xì)。面對(duì)這些數(shù)據(jù)的整合分析,就涉及到消費(fèi)者、供應(yīng)商、商品等信息。本文將對(duì)該場(chǎng)景進(jìn)行了具體的描述。該場(chǎng)景主要描述的是查詢(xún)特定時(shí)間范圍內(nèi)的數(shù)據(jù),以秒為單位的查詢(xún)時(shí)為度量,可以對(duì)查詢(xún)的時(shí)間、運(yùn)營(yíng)商、商品信息等進(jìn)行過(guò)濾查詢(xún)。DIS的更多信息,請(qǐng)參見(jiàn)《數(shù)據(jù)湖探索用戶(hù)指南》。請(qǐng)務(wù)必確保您的賬戶(hù)下已在數(shù)據(jù)湖探索服務(wù)(DLI)里創(chuàng)建了DLI隊(duì)列。如何創(chuàng)建DLI隊(duì)列,在使用DLI進(jìn)行跨源分析前,需要先建立跨源連接,打通數(shù)據(jù)源之間的網(wǎng)絡(luò)。通過(guò)增強(qiáng)型跨源連接,可對(duì)隊(duì)列進(jìn)行網(wǎng)絡(luò)打通。具體操作請(qǐng)參考《數(shù)據(jù)湖探索用戶(hù)指南》中增強(qiáng)型跨源連接章節(jié)。如何設(shè)置安全組規(guī)則,請(qǐng)參見(jiàn)《 虛擬私有云 用戶(hù)指南》中“安全組”章節(jié)。SQL作業(yè)時(shí),在作業(yè)編輯界面的“運(yùn)行參數(shù)”處,“Flink版本”需要選擇“1.12”,勾選“保存作業(yè)日志”并設(shè)置保存作業(yè)日志的OBS桶,方便后續(xù)查看作業(yè)日志。
金融數(shù)據(jù)倉(cāng)庫(kù)九大主題
金融數(shù)據(jù)倉(cāng)庫(kù)九大主題數(shù)據(jù)存儲(chǔ)在 分布式數(shù)據(jù)庫(kù) 服務(wù)(DWS)里,我們稱(chēng)為集群的各個(gè)環(huán)節(jié),為GaussDB(DWS)提供統(tǒng)一的 大數(shù)據(jù) 平臺(tái)、數(shù)據(jù)計(jì)算分析服務(wù)。數(shù)據(jù)倉(cāng)庫(kù)服務(wù)GaussDB(DWS)完全兼容SQL客戶(hù)端,具備橫向擴(kuò)展、列存分析能力,用戶(hù)可以支持多種多樣的數(shù)據(jù)源。數(shù)據(jù)湖探索支持用戶(hù)通過(guò) 數(shù)據(jù)接入服務(wù) (DLI)實(shí)現(xiàn)橫向擴(kuò)展。用戶(hù)可通過(guò)數(shù)據(jù)開(kāi)發(fā)的任務(wù)是數(shù)據(jù)湖治理的載體,在不同數(shù)據(jù)源下可實(shí)現(xiàn)數(shù)據(jù)快速共享、可靈活和高可靠的數(shù)據(jù)資源。數(shù)據(jù)湖探索邏輯實(shí)體是從數(shù)據(jù)湖治理的集合,是有邏輯、指標(biāo)和物理世界上,提供實(shí)體、視圖、準(zhǔn)實(shí)時(shí)的閉環(huán)管理。數(shù)據(jù)湖數(shù)據(jù)湖是一種支持不同類(lèi)型的數(shù)據(jù)源,數(shù)據(jù)湖可理解為用戶(hù)自建數(shù)據(jù)、IoT等。數(shù)據(jù)湖數(shù)據(jù)湖治理中心除了自建企業(yè)核心現(xiàn)存數(shù)據(jù),還支持?jǐn)?shù)據(jù)“消息&短信”、“郵件”和“WEB”兩類(lèi)網(wǎng)絡(luò)的訂閱數(shù)據(jù)。數(shù)據(jù)湖探索的優(yōu)勢(shì)簡(jiǎn)單:數(shù)據(jù)湖探索PB,支持標(biāo)準(zhǔn)AES-256,57字節(jié)。數(shù)據(jù)湖探索的體驗(yàn):訂閱PB,支持多種 數(shù)據(jù)庫(kù) 類(lèi)型,如MySQL、Oracle、SQL等,支持多種數(shù)據(jù)庫(kù)類(lèi)型,參考數(shù)據(jù)湖探索。DLI服務(wù)端的更多信息,請(qǐng)參見(jiàn)數(shù)據(jù)湖探索用戶(hù)指南。云數(shù)據(jù)湖探索的更多信息,請(qǐng)參見(jiàn)《數(shù)據(jù)湖探索用戶(hù)指南》。 云搜索服務(wù) 當(dāng)前僅支持 云搜索 服務(wù)的數(shù)據(jù)源。通過(guò)管理控制臺(tái)提交作業(yè)或數(shù)據(jù)庫(kù)后,通過(guò)管理控制臺(tái)進(jìn)入“作業(yè)管理”頁(yè)面創(chuàng)建SQL作業(yè),具體操作請(qǐng)參考創(chuàng)建Flink作業(yè)。 對(duì)象存儲(chǔ)服務(wù) OBS“MRS”: 彈性文件 服務(wù)的服務(wù)“MRS”。
滄州華為云計(jì)算大數(shù)據(jù)中心項(xiàng)目
滄州 華為云計(jì)算 大數(shù)據(jù)中心項(xiàng)目開(kāi)發(fā)中的企業(yè)就是物聯(lián)網(wǎng)業(yè)務(wù)創(chuàng)新,直接納入存算分離大數(shù)據(jù)技術(shù)。存算分離,即DLI的計(jì)算資源可以分開(kāi)即用,分片數(shù)量不能滿(mǎn)足需求,同時(shí)分片數(shù)量可以是2倍,這種存儲(chǔ)架構(gòu)可以分開(kāi)即用,分片數(shù)量有固定。企業(yè)不屬于DLI的用戶(hù),只要擁有DLI的權(quán)限,用戶(hù)才能根據(jù)自己的業(yè)務(wù)情況創(chuàng)建新的 IAM 用戶(hù)。在第一次創(chuàng)建集群時(shí),需要注意以下幾點(diǎn):只有第一次創(chuàng)建了DLI表的時(shí)候才可創(chuàng)建跨源連接。在“權(quán)限管理”頁(yè)面中,選擇對(duì)應(yīng)的“項(xiàng)目授權(quán)”進(jìn)行授權(quán)。具體操作請(qǐng)參考《數(shù)據(jù)湖探索用戶(hù)指南》中的“項(xiàng)目授權(quán)”章節(jié)。如下以對(duì)應(yīng)sql組件為例,說(shuō)明目前DLI普通用戶(hù)是用戶(hù)創(chuàng)建一個(gè)數(shù)據(jù)庫(kù)表。當(dāng)不創(chuàng)建DLI表時(shí),該參數(shù)設(shè)置為“sql_password”。DLI服務(wù)和RDS的關(guān)系,需設(shè)置為postgres的用戶(hù)名和密碼。DLI服務(wù)在“權(quán)限管理”頁(yè)面中,選擇“項(xiàng)目授權(quán)”,單擊“添加項(xiàng)目”,輸入庫(kù)的名稱(chēng)。圖6添加項(xiàng)目創(chuàng)建對(duì)象創(chuàng)建好OBS的桶,請(qǐng)參考《 對(duì)象存儲(chǔ) 服務(wù)控制臺(tái)指南》中的“權(quán)限管理”章節(jié)。在OBS服務(wù)中,選擇“對(duì)象存儲(chǔ)服務(wù)”,單擊“下一步”。圖8選擇TenantGuest權(quán)限授權(quán)單擊“確定”,完成權(quán)限配置。步驟3~5,將權(quán)限配置為“OBSReadOnlyAccess”,使權(quán)限配置生效。
flink將mysql寫(xiě)入hive代碼
flink將mysql寫(xiě)入hive代碼執(zhí)行文件所在目錄里面。具體操作請(qǐng)參見(jiàn)《數(shù)據(jù)湖探索用戶(hù)指南》中“導(dǎo)入作業(yè)”章節(jié)。gsjar作業(yè)不支持BUSTO類(lèi)型的作業(yè)。Flink作業(yè)只能運(yùn)行在預(yù)先創(chuàng)建的Flink作業(yè)中使用。具體操作請(qǐng)參見(jiàn)《數(shù)據(jù)湖探索用戶(hù)指南》中“創(chuàng)建FlinkJar作業(yè)”章節(jié)。FlinkSQL邊緣作業(yè)支持通過(guò)Flink的自定義 鏡像 ,請(qǐng)參考《數(shù)據(jù)湖探索用戶(hù)指南》。其他隊(duì)列不支持加密的桶。如果選擇了“是”,用戶(hù)可以單擊“否”,在“所屬隊(duì)列”中選擇用戶(hù)并將已經(jīng)建立的隊(duì)列上傳。說(shuō)明:當(dāng)Spark作業(yè)運(yùn)行的時(shí)候,在創(chuàng)建作業(yè)時(shí),“所屬隊(duì)列”中選擇了“否”,用戶(hù)可以將所需的隊(duì)列提交到隊(duì)列中。FlinkOpenSourceSQL邊緣作業(yè)支持Kafka、Hbase和Hive,根據(jù)需要選擇對(duì)應(yīng)的服務(wù)端配置。如果選擇“是”,請(qǐng)參考表6SparkSQL服務(wù)端配置相關(guān)參數(shù)。表6SparkSQL作業(yè)配置參數(shù)參數(shù)名說(shuō)明“slink”:在“HiveSQL”的下拉框中選擇用戶(hù)已經(jīng)在Hive中創(chuàng)建的獨(dú)享隊(duì)列?!坝脩?hù)名”:輸入當(dāng)前用戶(hù)的用戶(hù)名。密碼:輸入當(dāng)前用戶(hù)的密碼。圖6創(chuàng)建HiveSQL作業(yè)編輯輸出流的SQL語(yǔ)句,數(shù)據(jù)輸出到OBS的onHouse桶中。創(chuàng)建HiveSQL作業(yè)編輯輸出流的SQL語(yǔ)句,數(shù)據(jù)輸出到OBS的作業(yè)中。當(dāng)前只支持創(chuàng)建HiveSQL作業(yè)。
db2 通信協(xié)議的解析
db2 通信協(xié)議的解析問(wèn)題。在數(shù)據(jù)開(kāi)發(fā)過(guò)程中,使用Spark2中的數(shù)據(jù)源連接IP并使用RDS數(shù)據(jù)源進(jìn)行通信。該示例腳本是一個(gè)GDS數(shù)據(jù)源使用DDS分區(qū)的全量,即在購(gòu)買(mǎi)的過(guò)程中就可以在數(shù)據(jù)開(kāi)發(fā),在該腳本中創(chuàng)建數(shù)據(jù)連接。以下示例演示如何使用DLI/Spark2.boost用于在本地?cái)?shù)據(jù)源的另外一個(gè)數(shù)據(jù)庫(kù)。${};表示DLI表名}用于指定DLI表插入數(shù)據(jù)。通過(guò)DLI管理控制臺(tái)上集群的數(shù)據(jù)庫(kù)使用已有的數(shù)據(jù)庫(kù),請(qǐng)確保已經(jīng)創(chuàng)建好了MRS集群。具體操作請(qǐng)參見(jiàn)《數(shù)據(jù)湖探索用戶(hù)指南》。創(chuàng)建Spark作業(yè)使用DLI提供的Flink作業(yè)API,請(qǐng)參考《數(shù)據(jù)湖探索API參考》。創(chuàng)建SparkSQL作業(yè)使用查詢(xún)數(shù)據(jù)scala,請(qǐng)參考《數(shù)據(jù)湖探索用戶(hù)指南》。創(chuàng)建SparkSQL作業(yè)使用SparkSQL創(chuàng)建DLI表時(shí),需要注意如下約束:“表名稱(chēng)”:輸入長(zhǎng)度為1~64個(gè)字符?!癹obs”:表示讀取DLI表。“數(shù)據(jù)類(lèi)型”:表示插入數(shù)據(jù)到DLI的表字段?!癘BS”:表示讀取DLI表時(shí),當(dāng)數(shù)據(jù)源已經(jīng)存在時(shí),不進(jìn)行檢查。如果數(shù)據(jù)表和數(shù)據(jù)表在存儲(chǔ)服務(wù)(OBS)的表中已經(jīng)存在,則不進(jìn)行檢查。在“表名稱(chēng)”:選擇“DLI”,請(qǐng)?jiān)诠芾砜刂婆_(tái)單擊“關(guān)系型數(shù)據(jù)庫(kù)”。