備份恢復(fù)簡介
備份功能支持將數(shù)據(jù)備份至本地磁盤(LocalDir)、本端HDFS(LocalHDFS)、遠端HDFS(RemoteHDFS)、NAS(NFS/CIFS)、SFTP服務(wù)器(SFTP)、OBS。
對于支持多服務(wù)的組件,支持同服務(wù)多個實例的備份恢復(fù)功能且備份恢復(fù)操作與自身服務(wù)實例一致。
備份恢復(fù)任務(wù)的使用場景如下:
- 用于日常備份,確保系統(tǒng)及組件的數(shù)據(jù)安全。
- 當(dāng)系統(tǒng)故障導(dǎo)致無法工作時,使用已備份的數(shù)據(jù)完成恢復(fù)操作。
- 當(dāng)主集群完全故障,需要創(chuàng)建一個與主集群完全相同的鏡像集群,可以使用已備份的數(shù)據(jù)完成恢復(fù)操作。
備份恢復(fù)原理
任務(wù)
在進行備份恢復(fù)之前,需要先創(chuàng)建備份恢復(fù)任務(wù),并指定任務(wù)的參數(shù),例如任務(wù)名稱、備份數(shù)據(jù)源和備份文件保存的目錄類型等等。通過執(zhí)行備份恢復(fù)任務(wù),用戶可完成數(shù)據(jù)的備份恢復(fù)需求。在使用Manager執(zhí)行恢復(fù)HDFS、HBase、Hive和NameNode數(shù)據(jù)時,無法訪問集群。
每個備份任務(wù)可同時備份不同的數(shù)據(jù)源,每個數(shù)據(jù)源將生成獨立的備份文件,每次備份的所有備份文件組成一個備份文件集,可用于恢復(fù)任務(wù)。備份任務(wù)支持將備份文件保存在Linux本地磁盤、本集群HDFS與備集群HDFS中。
備份任務(wù)提供全量備份或增量備份的策略,云數(shù)據(jù)備份任務(wù)不支持增量備份策略。如果備份的路徑類型是NFS或CIFS,不建議使用增量備份功能。因為在NFS或CIFS備份時使用增量備份時,每次增量備份都會刷新最近一次全量備份的備份數(shù)據(jù),所以不會產(chǎn)生新的恢復(fù)點。
管理員在規(guī)劃備份恢復(fù)任務(wù)時,請嚴(yán)格根據(jù)業(yè)務(wù)邏輯、數(shù)據(jù)存儲結(jié)構(gòu)、數(shù)據(jù)庫或表關(guān)聯(lián)關(guān)系,選擇需要備份或者恢復(fù)的數(shù)據(jù)。系統(tǒng)默認(rèn)創(chuàng)建間隔為1小時的周期備份任務(wù)“default-oms”、“default-集群ID”,支持全量備份OMS及集群的DBService、NameNode等元數(shù)據(jù)到本地磁盤。
快照
系統(tǒng)通過快照技術(shù),快速備份數(shù)據(jù)。快照包含HBase快照、HDFS快照。
HBase快照:
HBase快照是HBase表在特定時間的一個備份,該備份文件不復(fù)制業(yè)務(wù)數(shù)據(jù),不影響RegionServer。HBase快照主要復(fù)制表的元數(shù)據(jù),包含table descriptor,region info和HFile的引用信息。通過這些元數(shù)據(jù)信息可以恢復(fù)快照時間點之前的數(shù)據(jù)。
HDFS快照:
HDFS快照是HDFS文件系統(tǒng)在特定時間點的只讀備份副本,主要用于數(shù)據(jù)備份、用戶誤操作保護和災(zāi)難恢復(fù)的場景。
任意HDFS目錄均可以配置啟用快照功能并創(chuàng)建對應(yīng)的快照文件,為目錄創(chuàng)建快照前系統(tǒng)會自動啟用此目錄的快照功能。創(chuàng)建快照不會對正常的HDFS操作有任何影響。每個HDFS目錄最多可創(chuàng)建65536個快照。
如果一個HDFS目錄已創(chuàng)建快照,那么在快照完全刪除以前,此目錄無法刪除或修改名稱。該目錄的上級目錄或子目錄也無法再創(chuàng)建快照。
DistCp
DistCp(distributed copy)是一個用于在本集群HDFS中或不同集群HDFS間進行大量數(shù)據(jù)復(fù)制的工具。在HBase、HDFS或Hive元數(shù)據(jù)的備份恢復(fù)任務(wù)中,如果選擇將數(shù)據(jù)備份在備集群HDFS中,系統(tǒng)將調(diào)用DistCp完成操作。主備集群請選擇安裝相同版本的MRS軟件版本并安裝集群系統(tǒng)。
DistCp使用Mapreduce來影響數(shù)據(jù)的分布、異常處理及恢復(fù)和報告,此工具會把指定列表中包含的多個源文件和目錄輸入不同的Map任務(wù),每個Map任務(wù)將復(fù)制列表中指定文件對應(yīng)分區(qū)的數(shù)據(jù)。
使用DistCp在兩個集群的HDFS間進行數(shù)據(jù)復(fù)制,集群雙方需要分別配置互信(同一個FusionInsight Manager管理下的集群不需要配置互信)和啟用集群間拷貝功能。集群數(shù)據(jù)備份到另一個集群的HDFS時,需要安裝Yarn組件,否則備份失敗。
本地快速恢復(fù)
使用DistCp將本集群HBase、HDFS和Hive數(shù)據(jù)備份在備集群HDFS中以后,本集群HDFS保留了備份數(shù)據(jù)的快照。用戶可以通過創(chuàng)建本地快速恢復(fù)任務(wù),直接從本集群HDFS的快照文件中恢復(fù)數(shù)據(jù)。
NAS
NAS(Network Attached Storage)是一種特殊的專用數(shù)據(jù)存儲服務(wù)器,包括存儲器件和內(nèi)嵌系統(tǒng)軟件,可提供跨平臺文件共享功能。利用NFS(支持NFSv3、NFSv4)和CIFS(支持SMBv2、SMBv3)協(xié)議,用戶可以連通MRS的業(yè)務(wù)平面與NAS服務(wù)器,將數(shù)據(jù)備份至NAS或從NAS恢復(fù)數(shù)據(jù)。
備份恢復(fù)實踐
MRS支持對Manager、ClickHouse、DBService、HBase、HDFS、NameNode、Hive、Kafka等數(shù)據(jù)的備份和恢復(fù)。
系統(tǒng)管理員可以通過FusionInsight Manager創(chuàng)建備份任務(wù)并備份數(shù)據(jù)。支持創(chuàng)建任務(wù)自動或手動備份數(shù)據(jù)。