英文摘要:As the importance of data increases, and transmission of data quickens, data availability becomes a more critical issue. Recovery Time Objective (RTO) and Recovery Point Objective (RPO) of current protection technologies are insufficient in meeting data protection requirements. Continuous data protection represents a major breakthrough—it can capture and monitor data changes, and recover data to any point in time.
英文關(guān)鍵字:data protection; continuous data protection; backup; snapshot
基金項目:中央高?;究蒲袠I(yè)務(wù)費專項資金(2009RC0217)
在數(shù)據(jù)信息日益重要的今天,構(gòu)建完善的數(shù)據(jù)保護(hù)系統(tǒng)成為研究的熱點。隨著企業(yè)對數(shù)據(jù)安全性以及業(yè)務(wù)連續(xù)性的要求越來越高,傳統(tǒng)上常用的數(shù)據(jù)復(fù)制、備份、恢復(fù)等數(shù)據(jù)保護(hù)技術(shù)[1-3]逐漸難以保證靈活的目標(biāo)恢復(fù)點及較快的目標(biāo)恢復(fù)時間。持續(xù)數(shù)據(jù)保護(hù)(CDP)技術(shù)的產(chǎn)生解決了這一難題。CDP保存所有的數(shù)據(jù)改變操作,能夠?qū)?shù)據(jù)恢復(fù)到丟失前的任意歷史狀態(tài)。作為數(shù)據(jù)保護(hù)的一種高級形式,CDP技術(shù)已經(jīng)成為存儲行業(yè)關(guān)注的焦點。
全球網(wǎng)絡(luò)存儲工業(yè)協(xié)會(SNIA)數(shù)據(jù)保護(hù)論壇(DMF)的持續(xù)數(shù)據(jù)保護(hù)特別興趣小組(CDP SIG)對持續(xù)數(shù)據(jù)保護(hù)的定義是:持續(xù)數(shù)據(jù)保護(hù)是一套方法,它可以捕獲或跟蹤數(shù)據(jù)的變化,并將其在生產(chǎn)數(shù)據(jù)之外獨立存放,以確保數(shù)據(jù)可以恢復(fù)到過去的任意時間點。持續(xù)數(shù)據(jù)保護(hù)系統(tǒng)可以基于塊、文件或應(yīng)用實現(xiàn),可以為恢復(fù)對象提供足夠細(xì)的恢復(fù)粒度,實現(xiàn)幾乎無限多的恢復(fù)時間點[4]。
持續(xù)數(shù)據(jù)保護(hù)技術(shù)的關(guān)鍵詞是“持續(xù)”,其主要功能是在故障瞬發(fā)生的瞬間完成對數(shù)據(jù)的快速恢復(fù),保證業(yè)務(wù)的連續(xù)性。因此,能夠從根本上解決傳統(tǒng)備份中恢復(fù)能力低和非精確時間策略(如按照天的備份)的先天弱點。就給定的數(shù)據(jù)集而言,持續(xù)數(shù)據(jù)保護(hù)提供連續(xù)的恢復(fù)點,能夠存取任何時間點上的數(shù)據(jù),允許應(yīng)用恢復(fù)到任意的時間點之前,而不僅僅針對那些由備份流程預(yù)先確定的特殊時刻,且恢復(fù)點可在事件發(fā)生后選定并動態(tài)重建。因此持續(xù)數(shù)據(jù)保護(hù)能夠提供無限密集的恢復(fù)點,有些情況下可以提供接近即時的恢復(fù)[5]。
持續(xù)數(shù)據(jù)保護(hù)并不是一項全新的數(shù)據(jù)保護(hù)技術(shù),它是建立在傳統(tǒng)數(shù)據(jù)保護(hù)、容災(zāi)技術(shù)基礎(chǔ)之上的一套方法。和傳統(tǒng)的數(shù)據(jù)備份和恢復(fù)技術(shù)相比,持續(xù)數(shù)據(jù)保護(hù)在幾個方面有明顯的特點[6]:
保護(hù)連續(xù)性
更小的恢復(fù)點目標(biāo)(RPO)
更小的恢復(fù)時間目標(biāo)(RPO)
傳統(tǒng)的數(shù)據(jù)保護(hù)解決方案專注于數(shù)據(jù)的周期性備份,因此無法避免存在備份窗口、難以確保數(shù)據(jù)一致性以及會影響生產(chǎn)系統(tǒng)等問題。圖1所示為CDP與傳統(tǒng)數(shù)據(jù)保護(hù)在保護(hù)時間間隔上的比較。由圖1可以看出,備份技術(shù)實現(xiàn)的數(shù)據(jù)保護(hù)間隔一般為24小時,因此用戶會面臨丟失多達(dá)24小時所產(chǎn)生的數(shù)據(jù)的風(fēng)險。采用快照技術(shù)可以將數(shù)據(jù)的風(fēng)險丟失量降低到幾個小時之內(nèi)。數(shù)據(jù)復(fù)制技術(shù)可以通過與生產(chǎn)數(shù)據(jù)的同步來獲得數(shù)據(jù)的最新狀態(tài),但卻無法防止由人為的邏輯錯誤或病毒攻擊所造成的數(shù)據(jù)丟失。而持續(xù)數(shù)據(jù)保護(hù)是一種精細(xì)化多點跟蹤技術(shù),會不斷監(jiān)測關(guān)鍵數(shù)據(jù)的變化,捕獲和保護(hù)數(shù)據(jù)中所有的變化,而非僅僅是某個預(yù)先選定的時間點,能將數(shù)據(jù)風(fēng)險丟失量降低到幾秒。

1 持續(xù)數(shù)據(jù)保護(hù)技術(shù)的實現(xiàn)
1.1 持續(xù)數(shù)據(jù)保護(hù)關(guān)鍵技術(shù)
持續(xù)數(shù)據(jù)保護(hù)實現(xiàn)的關(guān)鍵技術(shù)是對數(shù)據(jù)變化的記錄和保存,以便實現(xiàn)任意時間點的快速恢復(fù)。一般來講,有3種實現(xiàn)方式。
(1)基準(zhǔn)參考數(shù)據(jù)模式
基準(zhǔn)參考數(shù)據(jù)模式如圖2所示?;鶞?zhǔn)參考數(shù)據(jù)模式是一種After Imaging的策略,對要保護(hù)的數(shù)據(jù)建立一個初始的映像,然后將其日志按數(shù)據(jù)請求到來的順序記錄。這種策略中每次數(shù)據(jù)請求最多只導(dǎo)致一次對磁盤的實際寫操作,因此實現(xiàn)簡單,帶來的額外開銷較小?;鶞?zhǔn)參考數(shù)據(jù)模式在數(shù)據(jù)恢復(fù)時,需要從最原始的參考數(shù)據(jù)開始,逐步進(jìn)行數(shù)據(jù)恢復(fù),恢復(fù)點越靠近當(dāng)前點,恢復(fù)所需要的時間就越長。

(2)復(fù)制參考數(shù)據(jù)模式
復(fù)制參考數(shù)據(jù)模式如圖3所示。復(fù)制參考數(shù)據(jù)模式是一種Before Imaging的策略,它維護(hù)的映像是數(shù)據(jù)的最新狀態(tài),因此它克服了基準(zhǔn)參考數(shù)據(jù)模式中數(shù)據(jù)讀效率低的缺點,適合于讀請求較多的環(huán)境。復(fù)制參考數(shù)據(jù)模式通常利用Copy on Write技術(shù),即映像中的原始數(shù)據(jù)被覆寫之前先將其拷貝到日志中。這樣記錄的日志在恢復(fù)點越靠近當(dāng)前點時所需時間越短,但一次寫操作能引發(fā)兩次寫操作,因此,需要較多的系統(tǒng)資源。

(3)合成參考數(shù)據(jù)模式
合成參考數(shù)據(jù)模式如圖4所示。合成參考數(shù)據(jù)模式是以上兩種模式的折衷,較好地實現(xiàn)了以上兩種模式的妥協(xié),因此可以得到較好的資源占用和恢復(fù)時間效果。但需要復(fù)雜的軟件管理和數(shù)據(jù)處理功能,實現(xiàn)起來比較復(fù)雜。

1.2 持續(xù)數(shù)據(jù)保護(hù)實現(xiàn)層次
CDP技術(shù)或解決方案可以在不同的層次實現(xiàn),參考SNIA的存儲共享模型,可以將當(dāng)前實現(xiàn)CDP的產(chǎn)品或解決方案分為3類:
基于應(yīng)用的持續(xù)數(shù)據(jù)保護(hù)
基于文件的數(shù)據(jù)保護(hù)
基于數(shù)據(jù)塊的持續(xù)數(shù)據(jù)保護(hù)
(1)數(shù)據(jù)塊級持續(xù)數(shù)據(jù)保護(hù)技術(shù)
數(shù)據(jù)塊級的持續(xù)數(shù)據(jù)保護(hù)技術(shù)可以直接在物理的存儲設(shè)備上運行,也可以在數(shù)據(jù)塊傳輸層上運行。當(dāng)發(fā)生數(shù)據(jù)塊寫入操作時,持續(xù)數(shù)據(jù)保護(hù)功能模塊可以將原始的數(shù)據(jù)復(fù)制并傳送到另外一個存儲設(shè)備中進(jìn)行存儲。數(shù)據(jù)塊級的持續(xù)數(shù)據(jù)保護(hù)需要將所有更改過的數(shù)據(jù)塊按時間順序保存下來[7]。每次寫操作都會生成帶有時間標(biāo)記的數(shù)據(jù)塊副本。由于每次數(shù)據(jù)寫操作都被完整的記錄保存下來,因此數(shù)據(jù)塊級的持續(xù)數(shù)據(jù)保護(hù)技術(shù)能夠動態(tài)地訪問歷史任意一個時間點的數(shù)據(jù)。數(shù)據(jù)塊級的持續(xù)數(shù)據(jù)保護(hù)技術(shù)的最大優(yōu)點是與應(yīng)用的相關(guān)性比較小(因為運作在塊設(shè)備層,與文件系統(tǒng)、應(yīng)用無關(guān)),性能以及效率都比較高(特別是對于數(shù)據(jù)庫這類直接訪問塊設(shè)備的應(yīng)用)。其缺點是對備份存儲空間的要求比較高,同時對于數(shù)據(jù)一致性的處理也缺乏通用有效的機制。
數(shù)據(jù)塊級持續(xù)數(shù)據(jù)保護(hù)技術(shù)又有基于主機、基于傳輸層和基于存儲層3類實現(xiàn)方式。
(a)基于主機端卷管理軟件或客戶端代理軟件Agent實現(xiàn)
目前常見的主機端卷管理軟件有VeritasVxVM、LinuxLVM、Microsoft動態(tài)磁盤等,也有廠商針對Linux和Windows平臺開發(fā)了客戶端代理軟件Agent。它們的功能是通過卷鏡像的方式獲取生產(chǎn)數(shù)據(jù)的動態(tài)副本,并以此副本為基準(zhǔn)進(jìn)行數(shù)據(jù)持續(xù)保護(hù)。Symantec Storage Foundation、Falcon StorCDP、浪潮CDP屬于此類。
(b)基于傳輸層實現(xiàn)
該方式通過含有DataSplitter功能的FCSAN交換機來獲取同寫入生產(chǎn)卷相同的I/O數(shù)據(jù)塊,F(xiàn)CSAN交換機有BrocadeAP-7420B、CISCOMDS9000配置SANTAPSSM模塊等,價格比較高。EMCRecoverpoint、LSIStoragAge等屬于這種方式。
(c)基于存儲層實現(xiàn)
某些廠商的存儲陣列本身支持WriteSplitter功能,比如EMCClariiON磁盤陣列,這種實現(xiàn)方式比較受限于廠商。
(2)文件級持續(xù)數(shù)據(jù)保護(hù)技術(shù)
文件級的持續(xù)數(shù)據(jù)保護(hù)技術(shù)工作在文件系統(tǒng)之上。它可以跟蹤文件系統(tǒng)中文件數(shù)據(jù)或者元數(shù)據(jù)的改變,及時備份這些變動信息并記錄發(fā)生改變的時間,以便將來能夠?qū)崿F(xiàn)文件歷史任意時間點的恢復(fù)。
目前根據(jù)持續(xù)數(shù)據(jù)保護(hù)思想在文件系統(tǒng)級進(jìn)行相關(guān)研究的公司不多,主要包括:Symantec的Continuous Protection Server[8]、XOsoft的XOsoft Engine[9]、IBM的Tivoli Continuous Data Protection for Files[10]、Storactive公司的LiveBackup for Desktop/Laptops、TimeSpring公司的TimeData等產(chǎn)品。
(3)應(yīng)用級持續(xù)數(shù)據(jù)保護(hù)技術(shù)
實現(xiàn)應(yīng)用級持續(xù)數(shù)據(jù)保護(hù)技術(shù)時,需要在受保護(hù)的應(yīng)用程序中直接插入和運行持續(xù)數(shù)據(jù)保護(hù)功能程序代碼。持續(xù)數(shù)據(jù)保護(hù)程序代碼可以由應(yīng)用程序開發(fā)商將其直接嵌入在軟件產(chǎn)品中,也可以由應(yīng)用程序軟件開發(fā)商提供相關(guān)的應(yīng)用程序接口(API),然后由第三方持續(xù)數(shù)據(jù)保護(hù)軟件開發(fā)商來完成持續(xù)數(shù)據(jù)保護(hù)的功能[11]。在應(yīng)用程序中實現(xiàn)持續(xù)數(shù)據(jù)保護(hù)的最大優(yōu)勢是與能和應(yīng)用程序無縫整合,確保應(yīng)用程序的數(shù)據(jù)在持續(xù)保護(hù)過程中的一致性,同時管理也比較靈活,用戶容易部署和實施。目前在應(yīng)用程序級實現(xiàn)的連續(xù)數(shù)據(jù)保護(hù)解決方案大多是針對成熟的應(yīng)用開發(fā)的。已經(jīng)有一些公司的持續(xù)數(shù)據(jù)保護(hù)軟件可以支持微軟公司的Office、Exchange,IBM公司的DBZ,以及Oracle公司的數(shù)據(jù)庫等。
對于以上3種類別的持續(xù)數(shù)據(jù)保護(hù)技術(shù),數(shù)據(jù)塊級和文件級的持續(xù)數(shù)據(jù)保護(hù)技術(shù)是一種通用方法,可以支持多種不同應(yīng)用。而應(yīng)用級的持續(xù)數(shù)據(jù)保護(hù)技術(shù)則只為某種特定應(yīng)用提供連續(xù)數(shù)據(jù)保護(hù)能力,其通常的表現(xiàn)形式是與應(yīng)用程序的一種更為深入的集成。
2 持續(xù)數(shù)據(jù)保護(hù)技術(shù)的應(yīng)用
對于持續(xù)數(shù)據(jù)保護(hù)的應(yīng)用范圍,目前大體可以歸納為3類:
(1)為數(shù)據(jù)中心內(nèi)的文件服務(wù)器/網(wǎng)絡(luò)附屬存儲提供普通的數(shù)據(jù)保護(hù)
在這種應(yīng)用中,持續(xù)數(shù)據(jù)保護(hù)逐漸取代了以前那種夜間的磁盤或磁帶備份任務(wù)。雖然,有些人認(rèn)為持續(xù)數(shù)據(jù)保護(hù)只是為那些關(guān)鍵的數(shù)據(jù)而準(zhǔn)備的,但是我們發(fā)現(xiàn)有些持續(xù)數(shù)據(jù)保護(hù)產(chǎn)品要比那些傳統(tǒng)的備份方法更加易于使用,并且效果也更好。因此完全可以用于普通的文件服務(wù)器的備份。
(2)為遠(yuǎn)程的分支機構(gòu)進(jìn)行集中化的備份
將持續(xù)數(shù)據(jù)保護(hù)用于遠(yuǎn)程分支機構(gòu)備份應(yīng)用的最大好處就是避免了遠(yuǎn)距離轉(zhuǎn)移磁帶介質(zhì)的風(fēng)險。我們使用同總部一樣的復(fù)制技術(shù)將分支機構(gòu)的備份數(shù)據(jù)同步傳輸回來;同時集中化的控制也可以讓異地之間的數(shù)據(jù)安全管理工作變得更加主動、高效。
(3)幫助實現(xiàn)筆記本電腦上的數(shù)據(jù)備份
也許人們曾經(jīng)使用過很多方法來保護(hù)筆記本電腦上的數(shù)據(jù),但都收效甚微。如今,人們可以使用持續(xù)數(shù)據(jù)保護(hù)來將數(shù)據(jù)的變化統(tǒng)統(tǒng)保留在筆記本電腦自帶的硬盤上,然后在連接辦公室網(wǎng)絡(luò)的時候,自動地將它們發(fā)送到遠(yuǎn)端的中心服務(wù)器。不過,從技術(shù)定義上講,這并不能稱為持續(xù)數(shù)據(jù)保護(hù)。因為這類產(chǎn)品只有在筆記本電腦與網(wǎng)絡(luò)連接的時候,才能上傳改變的數(shù)據(jù)。不過,像IBM Tivoli CDP這樣的產(chǎn)品,即使在沒有連接網(wǎng)絡(luò)的情況下,依然可以很好地對數(shù)據(jù)進(jìn)行保護(hù)。
最后一點要說的是CDP并不是對所有企業(yè)都很適合。CDP技術(shù)本身并不難使用,但卻非常昂貴。CDP采用基本的數(shù)據(jù)保護(hù)技術(shù),因此CDP適用于那些對數(shù)據(jù)備份窗口以及RPO忽略的公司,那些處理非常繁忙的網(wǎng)絡(luò)事務(wù)的公司也非常適合。而不做這些事務(wù)的企業(yè)則可以找到更加適合于它們的磁盤備份技術(shù),比如虛擬磁帶庫(VTL)以及快照技術(shù)。
3 結(jié)束語
盡管CDP技術(shù)在數(shù)據(jù)保護(hù)和災(zāi)難恢復(fù)中具有很多特點和優(yōu)勢,但在實際應(yīng)用中并沒有真正達(dá)到普及。一是用戶對數(shù)據(jù)備份的認(rèn)識存在誤區(qū)。比如,一些用戶不清楚快照和備份間的差異,認(rèn)為快照可以代替?zhèn)浞?。實際則不然,快照的目的是為了恢復(fù)數(shù)據(jù),而備份的目的不只是恢復(fù),還有一個更重要的功能是存檔,以滿足法規(guī)遵從方面的要求。如果用戶不能理解這些區(qū)別,在接受CDP時就會有所疑慮。二是CDP產(chǎn)品缺乏國家標(biāo)準(zhǔn)和行業(yè)標(biāo)準(zhǔn),不明確什么是真正的CDP以及CDP到底能做什么。在眾多存儲廠商的產(chǎn)品線中,CDP并不是主流產(chǎn)品,各廠家之間的差異性非常大,有的是硬件,有的是軟件,造成CDP產(chǎn)品魚龍混雜,直接影響了CDP的推廣和應(yīng)用。
我們相信隨著持續(xù)數(shù)據(jù)保護(hù)技術(shù)的應(yīng)用范圍的擴大和人們認(rèn)知的深入,會有越來越多的真持續(xù)數(shù)據(jù)保護(hù)解決方案和產(chǎn)品出現(xiàn)。在實現(xiàn)持續(xù)數(shù)據(jù)保護(hù)的需求上,用戶將會有更多的選擇。持續(xù)數(shù)據(jù)保護(hù)技術(shù)也將會作為在線數(shù)據(jù)的重要保護(hù)手段而獨立開辟一條通道,成為一種新的貼近用戶目標(biāo)的高級數(shù)據(jù)保護(hù)方式。
4 參考文獻(xiàn)
[1] ROCK M, PORESKY P. Shorten Your Backup Window [J]. Storage, 2005, Special Issue on Managing the Information That Drives the Enterprise: 28-34.
[2] DUZY G. Match Snaps to Apps [J]. Storage, 2005, Special Issue on Managing the Information That Drives the Enterprise: 46-52.
[3] CHERVENAK A L, VELLANKI V, KURMAS Z. Protecting File Systems: A Survey of Backup Techniques [C]//Proceedings of the 6th NASA Conference on Mass Storage Systems and Technologies/15th IEEE Symposium on Mass Storage Systems, Mar 23-26,1998, College Park, MD,USA. Los Alamitos: IEEE Computer Society,1998:1-15.
[4] SNIA Data Management [EB/OL]. [2010-03-16]. http://www.snia.org/forums/dmf/programs/data_protect_init/cdp.
[5] 王樹鵬, 云曉春, 郭莉. 連續(xù)數(shù)據(jù)保護(hù)(CDP)技術(shù)的發(fā)展綜述 [J]. 信息技術(shù)快報, 2008, 6(6):24-33.
[6] PIETROFORTE M. Introduction to Continuous Data Protection [EB/OL]. [2010-05-26]. http://4sysops.com/archives/introduction-to-continuous-data-protection.
[7] DAMOULAKIS J. Time to Say Goodbye to Backup? [J]. Storage, 2006, 4(9):64-66.
[8] Symantec Continuous Protection Server [EB/OL]. [2010-03-19]. http://www.symantec.com/.
[9] Business and IT Requirements for Continuous Data Protection [R]. White Paper. Waltham, MA,USA: XOsoft Corporation, 2004.
[10] IBM Tivoli Continuous Data Protection for Files [EB/OL]. [2010-02-06]. http://www.ibm.com/software/tivoli/products/continuous-data-protection.
[11] Enterprise Rewinder: Product Suite for Continuous Data Protection (CDP) [EB/OL]. [2010-02-21]. http://www.xosoft.com/.
劉建毅,北京郵電大學(xué)信息安全中心副教授、博士;主要研究領(lǐng)域為災(zāi)難備份、信息內(nèi)容安全;已主持和參加國家級基金項目10余項,獲1項科研成果獎;已發(fā)表論文40多篇,其中被SCI/EI檢索20余篇。
