加入收藏 設為首頁 聯(lián)系我們 歡迎光臨本網(wǎng)站!
郵箱:support@zcecs.com
地址:北京市西城區(qū)南濱河路27號貴都國際中心A座1111室
數(shù)據(jù)中心運行突發(fā)故障(如:天災不可避免的災難)是無法預測的,計算機里的數(shù)據(jù)就像掃雷游戲一樣,十面埋伏充滿雷區(qū),隨時都有可能Game Over,容災備份就是數(shù)據(jù)安全的最后防線,但是你可以避免由數(shù)據(jù)中心發(fā)生故障而丟失數(shù)據(jù)引發(fā)的數(shù)據(jù)丟失的局面,下面,本文將介紹“容災和備份的區(qū)別”以及一些盡可能減少發(fā)生運行故障失敗機會,并加強企業(yè)的數(shù)據(jù)備份環(huán)境的簡單要點。
什么是容災?
上世紀70年是容災的起源期,80到90年代是容災的快速發(fā)展期,90年代到2000年是容災的膨脹期,從2010年開始互聯(lián)網(wǎng)時代對業(yè)務連續(xù)的要求更高,IT進入了云的時代,容災成為了一種服務。
容災系統(tǒng)是指在相隔較遠的異地,建立兩套或多套功能相同的IT系統(tǒng),互相之間可以進行健康狀態(tài)監(jiān)視和功能切換,當一處系統(tǒng)因意外(如火災、地震等)停止工作時,整個應用系統(tǒng)可以切換到另一處,使得該系統(tǒng)功能可以繼續(xù)正常工作。
容災技術(shù)是系統(tǒng)的高可用性技術(shù)的一個組成部分,容災系統(tǒng)更加強調(diào)處理外界環(huán)境對系統(tǒng)的影響,特別是災難性事件對整個IT節(jié)點的影響,提供節(jié)點級別的系統(tǒng)恢復功能。
容災的分類:
從其對系統(tǒng)的保護程度來分,可以將容災系統(tǒng)分為:數(shù)據(jù)容災和應用容災,數(shù)據(jù)容災就是指建立一個異地的數(shù)據(jù)系統(tǒng),該系統(tǒng)是本地關(guān)鍵應用數(shù)據(jù)的一個實時復制。
應用容災是在數(shù)據(jù)容災的基礎(chǔ)上,在異地建立一套完整的與本地生產(chǎn)系統(tǒng)相當?shù)膫浞輵孟到y(tǒng)(可以是互為備份),在災難情況下,遠程系統(tǒng)迅速接管業(yè)務運行,數(shù)據(jù)容災是抗御災難的保障,而應用容災則是容災系統(tǒng)建設的目標。
容災和備份有什么連系?
容災備份實際上是兩個概念,容災是為了在遭遇災害時能保證信息系統(tǒng)能正常運行,幫助企業(yè)實現(xiàn)業(yè)務連續(xù)性的目標,備份是為了應對災難來臨時造成的數(shù)據(jù)丟失問題。在容災備份一體化產(chǎn)品出現(xiàn)之前,容災系統(tǒng)與備份系統(tǒng)是獨立的。容災備份產(chǎn)品的最終目標是幫助企業(yè)應對人為誤操作、軟件錯誤、病毒入侵等"軟"性災害以及硬件故障、自然災害等“硬”性災害。
容災和備份的區(qū)別
一般意義上,備份指的是數(shù)據(jù)備份或系統(tǒng)備份,容災指的是不在同一機房的數(shù)據(jù)備份或應用系統(tǒng)備份。備份采用備份軟件技術(shù)實現(xiàn),而容災通過復制或鏡像軟件實現(xiàn),兩者的根本區(qū)別在于:
(1)容災主要針對火災、地震等重大自然災害,因此備份中心與主中心間必須保證一定的安全距離;數(shù)據(jù)備份在同一數(shù)據(jù)中心進行。
(2)容災系統(tǒng)不僅保護數(shù)據(jù),更重要的目的在于保證業(yè)務的連續(xù)性;而數(shù)據(jù)備份系統(tǒng)只保護數(shù)據(jù)的安全性。
(3)容災保證數(shù)據(jù)的完整性;備份則只能恢復出備份時間點以前的數(shù)據(jù)。
(4)容災是在線過程;備份是離線過程。
(5)容災系統(tǒng)中,兩地的數(shù)據(jù)是實時一致的;備份的數(shù)據(jù)則具有一定的時效性。
(6)故障情況下,容災系統(tǒng)的切換時間是幾秒鐘至幾分鐘;而備份系統(tǒng)的恢復時間可能幾小時到幾十小時。
容災的分類:
(1)數(shù)據(jù)級
數(shù)據(jù)級容災是最基礎(chǔ)的手段,指通過建立異地容災中心,做數(shù)據(jù)的遠程備份,在災難發(fā)生之后要確保原有的數(shù)據(jù)不會丟失或者遭到破壞,但在數(shù)據(jù)級容災這個級別,發(fā)生災難時應用是會中斷的。可以簡單的把這種容災方式理解成一個遠程的數(shù)據(jù)備份中心,就是建立一個數(shù)據(jù)的備份系統(tǒng)或者一個容災系統(tǒng),比如數(shù)據(jù)庫、文件等等。
優(yōu)點:費用比較低,構(gòu)建實施相對簡單
缺點:數(shù)據(jù)級容災的恢復時間比較長
(2)應用級
應用級容災是在數(shù)據(jù)級容災的基礎(chǔ)之上,在備份站點同樣構(gòu)建一套相同的應用系統(tǒng),通過同步或異步復制技術(shù),這樣可以保證關(guān)鍵應用在允許的時間范圍內(nèi)恢復運行,盡可能減少災難帶來的損失,讓用戶基本感受不到災難的發(fā)生。應用級容災就是建立一個應用的備份系統(tǒng),比如一套OA系統(tǒng)正在運行,在另一個地方建立一套同樣的OA系統(tǒng)。
優(yōu)點:提供的服務是完整、可靠、安全的,確保業(yè)務的連續(xù)性
缺點:費用較高,需要更多軟件的實現(xiàn)
(3)業(yè)務級
業(yè)務級容災是全業(yè)務的災備,除了必要的IT相關(guān)技術(shù),還要求具備全部的基礎(chǔ)設施。
優(yōu)點:保障業(yè)務的連續(xù)性
缺點:費用很高,還需要場所費用的投入,實施難度大。
備份等級:
容災備份是通過在異地建立和維護一個備份存儲系統(tǒng),利用地理上的分離來保證系統(tǒng)和數(shù)據(jù)對災難性事件的抵御能力。根據(jù)容災系統(tǒng)對災難的抵抗程度,可分為數(shù)據(jù)容災和應用容災。數(shù)據(jù)容災是指建立一個異地的數(shù)據(jù)系統(tǒng),該系統(tǒng)是對本地系統(tǒng)關(guān)鍵應用數(shù)據(jù)實時復制。當出現(xiàn)災難時,可由異地系統(tǒng)迅速接替本地系統(tǒng)而保證業(yè)務的連續(xù)性。應用容災比數(shù)據(jù)容災層次更高,即在異地建立一套完整的、與本地數(shù)據(jù)系統(tǒng)相當?shù)膫浞輵孟到y(tǒng)(可以同本地應用系統(tǒng)互為備份,也可與本地應用系統(tǒng)共同工作)。
在災難出現(xiàn)后,遠程應用系統(tǒng)迅速接管或承擔本地應用系統(tǒng)的業(yè)務運行,設計一個容災備份系統(tǒng),需要考慮多方面的因素,如備份/恢復數(shù)據(jù)量大小、應用數(shù)據(jù)中心和備援數(shù)據(jù)中心之間的距離和數(shù)據(jù)傳輸方式、災難發(fā)生時所要求的恢復速度、備援中心的管理及投入資金等,根據(jù)這些因素和不同的應用場合,通?蓪⑷轂膫浞莘譃樗膫等級。
第0級:沒有備援中心
這一級容災備份,實際上沒有災難恢復能力,它只在本地進行數(shù)據(jù)備份,并且被備份的數(shù)據(jù)只在本地保存,沒有送往異地。
第1級:本地磁帶備份,異地保存
在本地將關(guān)鍵數(shù)據(jù)備份,然后送到異地保存。災難發(fā)生后,按預定數(shù)據(jù)恢復程序恢復系統(tǒng)和數(shù)據(jù)。這種方案成本低、易于配置。但當數(shù)據(jù)量增大時,存在存儲介質(zhì)難管理的問題,并且當災難發(fā)生時存在大量數(shù)據(jù)難以及時恢復的問題。為了解決此問題,災難發(fā)生時,先恢復關(guān)鍵數(shù)據(jù),后恢復非關(guān)鍵數(shù)據(jù)。
第2級:熱備份站點備份
在異地建立一個熱備份點,通過網(wǎng)絡進行數(shù)據(jù)備份。也就是通過網(wǎng)絡以同步或異步方式,把主站點的數(shù)據(jù)備份到備份站點,備份站點一般只備份數(shù)據(jù),不承擔業(yè)務。當出現(xiàn)災難時,備份站點接替主站點的業(yè)務,從而維護業(yè)務運行的連續(xù)性。
第3級:活動備援中心
在相隔較遠的地方分別建立兩個數(shù)據(jù)中心,它們都處于工作狀態(tài),并進行相互數(shù)據(jù)備份。當某個數(shù)據(jù)中心發(fā)生災難時,另一個數(shù)據(jù)中心接替其工作任務。這種級別的備份根據(jù)實際要求和投入資金的多少,又可分為兩種:
(1)兩個數(shù)據(jù)中心之間只限于關(guān)鍵數(shù)據(jù)的相互備份;
(2)兩個數(shù)據(jù)中心之間互為鏡像,即零數(shù)據(jù)丟失等。零數(shù)據(jù)丟失是目前要求最高的一種容災備份方式,它要求不管什么災難發(fā)生,系統(tǒng)都能保證數(shù)據(jù)的安全。所以,它需要配置復雜的管理軟件和專用的硬件設備,需要投資相對而言是最大的,但恢復速度也是最快的。
改善備份性能的五大要點
要點1:監(jiān)控程序
在備份過程中,監(jiān)控本身并不會導致發(fā)生故障運行失敗,但其確實可以使得當某一個故障失敗發(fā)生時更難以被發(fā)現(xiàn)。隨著IT世界的范疇變得越來越廣闊,備份系統(tǒng)必須進行改變,以查看和管理多個備份服務器,F(xiàn)在,大多數(shù)系統(tǒng)并不是設計用于同時監(jiān)控多臺服務器的,而如果一個問題出現(xiàn),整個拆解過程會變得相當繁瑣和困難。
解決方案:
我們所需要的是一款具有自動化功能的監(jiān)控系統(tǒng),該系統(tǒng)將能夠匯編數(shù)據(jù),并以圖形方式提供用戶界面,提供對于整個環(huán)境的一個全面的視圖。同時對于個別服務器和客戶端也應該是可視化的。為了進一步簡化操作,該系統(tǒng)還必須能夠監(jiān)控在某一特定的業(yè)務中使用多供應商的備份。
要點2:不要錯過通知警報
雖然對于一般性的溝通問題而言,將電子郵件通知警報發(fā)送到適當?shù)墓芾韱T通常是一個可靠的方式,但情況并不總是保持不變的。隨著時間的推移,服務器,應用程序,備份設備和人員安置情況總是在變化的,因此,經(jīng)常核實并確保警報能夠在第一時間通知到恰當?shù)墓ぷ魅藛T來進行處理是非常有必要的。
解決方案:
實時警報是一款很好的解決方案。這種類型的警告可通過電子郵件、SNMP集成整合和SMS短信將警報發(fā)送給不同的人員,精確定位適當?shù)娜藛T來接收信息,并快速、高效地進行溝通。
要點3:注意命令行操作系統(tǒng)錯誤
雖然管理員可能更傾向于采用命令行界面來完成一項工作,但這很容易出錯!原因是由于在使用該方法時,不同管理者之間的備份缺乏一致性。最佳的做法應該是通過及時更新來加強編纂,但這種情況并不經(jīng)常發(fā)生,致使錯誤發(fā)生屢見不鮮。
解決方案:
一款用戶界面允許GUI操作的備份功能必須添加到IT部門的備份系統(tǒng)。這樣就減少了人為錯誤的機會,提高了當前操作的可重復性。
要點4:對于報告和規(guī)劃重視不足
由于企業(yè)的備份專業(yè)人員能夠?qū)⒅饕性谙到y(tǒng)所發(fā)送的警報報告方面,但務必要記住的是,這些信息只提供了管理備份環(huán)境中的難題的一部分。很多時候,備份管理人員會錯過某些特定部門和程序所發(fā)來的許多其他重要的報告。
當備份服務器開始托管傳輸?shù)木瘓蠛捅O(jiān)視數(shù)據(jù)時,問題很快就會隨之而來。一般情況下,主備份服務器上的數(shù)據(jù)只保存很短的時間,可能導致其不能夠再被訪問,從而使得理解和防止下一次故障失敗的任務變得幾乎不可能。
解決方案:
遵循我所推薦的最佳實踐方案,謹慎的做法是從初級的和分布式備份服務器編譯數(shù)據(jù)到單個數(shù)據(jù)庫,這將有助于保持日常數(shù)據(jù)備份的平穩(wěn)運行。通過這種方式,可以進行數(shù)據(jù)分析,并在您的部門根據(jù)具體需求采用各種報告。
要點5:配置錯誤
雖然IT部門非常精通備份和恢復系統(tǒng),但有時也可能出錯。配置錯誤便是一個例子;這種情況經(jīng)常發(fā)生,因為數(shù)據(jù)和服務器環(huán)境被擴大。下面是一些常見的問題:
恢復日志的規(guī)模大小不準確:這樣的恢復日志可能會導致信息丟失。這種特殊的領(lǐng)域,必須手動擴大并重新啟動,以避免災難的發(fā)生。
從磁盤到磁帶不匹配:當使用小的磁盤池時,可能存在新的數(shù)據(jù)不被接受、推遲備份、并導致錯過了備份窗口的機會。只有一個線程可以從一個磁盤池寫入到磁帶設備,并且如果磁帶不能處理數(shù)據(jù)必須從磁盤被寫入的速度,磁盤池將不能夠備份數(shù)據(jù)。
同時備份的過載:備份系統(tǒng)的最大客戶端數(shù)很容易被超過,更不要說錯過了備份窗口。這個問題可能會在數(shù)據(jù)環(huán)境增長和添加備份客戶端時發(fā)生。
解決方案:
不管錯誤情況時怎樣的,許多IT專業(yè)人士使用的都是更大型的監(jiān)控系統(tǒng),其提供了更全面的看法。這種更全面的視圖提供了對于發(fā)現(xiàn)錯誤更直接的方法,并有助于在一個不斷變化的環(huán)境中確定造成的因素。備份軟件和監(jiān)控系統(tǒng)被一起使用,以便IT部門可以準確評估備份環(huán)境的需求。