您現在的位置是:首頁 > 棋牌

一次說清資料安全與災備

  • 由 英方 發表于 棋牌
  • 2022-03-16
簡介內置於儲存裝置之內的高效能、高彈性、自動化、一體化的資料複製技術是當今最先進的災備技術架構和方案,是資料中心關鍵業務系統的福音

災備裝置是什麼

一次說清資料安全與災備

編者按:

本文為

“千字千金!中國首屆災備行業徵文大賽”

參賽作品,本文作者是一對父女,父親為知名IT廠商客戶服務總監,女兒為在校大學生,從一名乙方技術的角度,介紹了災備演變的歷程,這些內容,不僅涵蓋了災備技術的發展,也有一些相對應的解決策略。以下為文章正文。

有些事是令人憧憬的,雨夜讀書便是一例。窗外雨瀟瀟,燈下書香飄。不求浪漫,只為心閒,為日間忙碌後的那份安適與恬淡。可北京的雨越來越珍貴了,常常一連幾個月不見雨水。南方雨水充沛,可以去江南,上海南京都好。

這日,商旅上海,恰逢雨天。有意早起,在陸家嘴一家咖啡館中獨坐,邊喝咖啡,邊讀新聞,享受滬上雨天的閒暇時光。不久,一位學者氣質的男士進門來,目光偶然對視時,竟然是位熟人。我趕忙起身打招呼,口稱周總。自然的世界很大,人們都想去看看。人間的世界太小,時常不期而遇。

一次說清資料安全與災備

周總如今自己創業,之前是一家大型外資銀行資料中心的總經理,在金融電子資訊領域是位具前瞻眼光的實幹家,職業生涯伴隨著國家金融資訊電子化的發展與技術進步,是資料安全、災備行業的先行者。多年間,他甲方、我乙方,一起經歷過幾次險情,也建立了彼此信任的工作友誼。正巧我在寫一篇資料安全與災備方面的稿子,一番寒暄後我們就在咖啡館裡聊起這個話題。

我先開場的,拋磚引玉。我說:“十幾年前,國家就有標準,對資料中心的災備技術做了規範性指引,記得是《資訊系統災難恢復規範》。規範明確了四種方式:冷備、暖備、熱備和雙活。四種方式分別對應無裝置的臨時搭建、手工切換方式的主備中心、自動切換的主備中心,以及負載均衡方式下的雙活中心。具體選哪種方式取決於業務需要和財務預算。”

周總插話道:“國家標準是資料安全大廈的基石。要認真看,照著做,當然也要與時俱進。”

我接著說:“資料是組織的血液。災備忙什麼?資料是關鍵。”

“資料安全有兩個含義:一是資料本身的安全,二是資料防護安全。”周總打斷我,“資料本身的安全涉及加密、解密、保密、身份認證、資料完整性等技術。資料防護安全涉及磁碟陣列RAID、備份和容災技術。”

我喝了口咖啡,接過話茬:“加密、解密、認證這些理論還是留給數學家和大學教授吧。災備最前沿、最有實際價值的是資料中心。資料中心更側重資料備份和容災實踐。”

周總點頭,望向窗外說:“是的。把成熟技術用好最有現實意義。”

我問道:“您是這方面的專家,見多識廣。可否梳理?”

周總往椅背上靠了靠,目光依然望著窗外,若有所思地說道:“我把過往的資料防護技術架構分成四代。劃代的標準對應著資料儲存裝置的技術發展。”

我說:“那就先從第一代開始談?”

第一代災備

周總說道:“第一代災備方案沒有專用的儲存裝置,資料儲存在主機的磁盤裡,備份到磁帶中。磁帶是資料防護的關鍵載體。人們開玩笑說‘命懸一帶’。”

【第一代災備故事:火災中搶救磁帶的年輕人】

周總大學畢業後在一家國有銀行的省行工作。一天,機房電路短路,引起火情。人們慌忙外逃,唯獨一位年輕人逆著人流往裡跑,衝進機房,抱著一筐磁帶撤出去。事後,這位年輕人因搶救國家財產受到表彰。表彰會上,他說:“一旦機房不幸焚燬,我們可以憑這些磁帶裡的資料恢復業務系統。”

一次說清資料安全與災備

幾年後,這位年輕人因工作出色職務晉升,成為那家銀行全國最年輕的資訊科技處副處長,並主持處裡工作。據說行裡為了讓他主持工作,有意沒調派正處長。

當年的那位年輕人就是現在坐在我面前的周總。這故事我是從別人那裡聽來的。周總告訴我:“表彰會後,行領導說資料丟不起,更不想小周有閃失,資料安全不能以人員不安全為代價,讓我們多買些磁帶,備兩份兒,分放兩棟樓,同時研究新的災備方案。”

第二代災備

我說:“專用儲存裝置的出現用不著您冒生命危險了。”

“儲存個頭比主機還大,即便想搬也沒人能搬動。”周總一笑,“資料防護安全技術發展到第二代,專業儲存裝置不僅把資料的儲存和訪問從主機中獨立出來,而且內部的重要部件都是冗餘設計,可靠性高多了。”

我說:“但不可奢望100%的可用率。您給電視臺準備公告的那件事兒,我印象深刻。”

【第二代災備故事:給電視臺的新聞稿都準備好了】

最初認識周總時,我們兩家公司關係屬於客戶-廠家性質。我在一家IT廠商供職,他當時擔任一家國有銀行某省分行的資訊科技部總經理。他們總行已經完成了業務資料上收,建立了全國集中的資料中心,省分行的前置機支撐省域內營業網點、ATM機和POS機等業務。

一個週日的下午,前置機中的儲存裝置發生了宕機,好在當時營業網點的業務服務時段臨近結束,對網點的影響程度相對小一些,但該行全省範圍內的ATM機、POS機都不能使用了。情況緊急,人員備件同往。我們到達現場時,周總已經等在樓門口,神態鎮定,表情凝重,像是盼等援軍的將軍。鎮定是為軍心穩定,凝重只因戰事緊急。

一次說清資料安全與災備

故障很快查明瞭,儲存裝置中冗餘設計的一對板卡先後失效,中間間隔幾個小時,第二塊板卡失效後設備宕機,資料訪問中斷。更換部件後,裝置硬體很快恢復了,接著是檔案系統、資料庫管理系統完成一致性校驗和修復,最後業務系統恢復了。至此未完。由於異常宕機,多個RAID盤組需要重建(“rebuild”)。重建由人為發起,由儲存後端自動完成,優先順序低於前端I/O訪問,耗時長。在RAID盤組重建過程中,人們心裡不踏實,擔心重建異常突然影響業務系統。除非重建成功完成,否則緊急狀態不敢取消。感覺時間過得太快,網點開門營業的時間正在臨近,重建還在進行……

按照規定,營業網點不能正常提供服務時,銀行需要提前向社會公告,避免因不安情緒引發擠兌或者其它混亂。客戶和廠商雙方人員一直呆在監控室裡,我沒留意周總何時離開的,他回來時手上拿著一頁紙。那是準備發給電臺、電視臺的公告。他要在預設的最後時點發出。黑色的文字,紅色的公章,紙張很輕,心情很重。

在大地迎來黎明的曙光時,我們也迎來了盤組重建完成、一切恢復正常的幸福時刻。公告沒有發出,網點已經營業。我走出大廈,迎著明亮的陽光,沒有興奮地如釋重負。望著院外車水馬龍的街道,我不由自主地舉臂伸腰,消解疲勞。加之稍後開始的根因分析,我連續二十多個小時無眠無食。廠家猶如此,客戶何以堪?

雖說往事如煙,但至今更加認為:有備無患,方為上策。我在紙上寫下兩行字,邊遞邊說:“這是我在省行故障排除後的那天晚上寫下的句子,也是我的嚮往。”

周總看後點點頭,說:“用在資料安全與災備上挺合適。令人嚮往的境界啊!”

第二代災備方案的關鍵是儲存裝置。透過一系列的針對性設計,比如板卡冗餘、RAID冗餘盤組、快取記憶體CACHE的電池、冗餘電源模組,以及專用的儲存作業系統等,儲存的資料可用性是非常高的。在維護達標的情況下,有的廠商還承諾資料100%可用性。但這一代災備方案難以實現完全的業務連續性。上文前置機的故障,既有偶然性,又有必然性。想消除這種必然性,有兩大障礙。一是硬體,有時冗餘部件未及維修雙失效或者某些部件不冗餘;二是微碼(韌體),冗餘部件之間的排程和協調機制失靈。面對這兩座大山,單機方案几乎不可能翻越了,解決的希望寄託在雙機上。

第三代災備

此處請允許我先做個科普。在資料容災領域有兩個重要的指標:恢復點目標RPO (Recovery Point Objective)和恢復時間目標RTO (Recovery Time Objective)。 前者講的是服務恢復後,恢復得來的資料所對應的時間點。一個業務系統往往有很多資料,可用的資料需要具備一致性。也就是說,所有資料都必須是某個時刻的“快照”。否則,資料就可能因為不一致而不可用。但資料的備份和傳輸需要時間,實時資料與備份資料之間有個時間差。這個時間差就是RPO。 如果備份資料是在中斷時刻之前15分鐘的完整備份,RPO就是15分鐘。而RTO講的是企業可以容許服務中斷的時間長度。如果災難發生後30分鐘便需要恢復,RTO就等於30分鐘。

聰明的讀者已經明白,這兩個指標越小越好,最好都為零。確實如此,實際困難在於災備預算多少。預算不只包括搭建災備環境所需要的一次性投入,還包括確保資料同步所需要的網路傳輸費用、人員管理、維護費用等。RPO和RTO越小,預算越大。周總單位當時前置機就只有一臺儲存裝置,一旦發生故障,RTO就失控了,時間長得令人煎熬。

我問周總:“前置機系統故障後,聽說啟動了緊急採購。”

“是的。我之前打報告申請儲存雙機,預算一直沒批。那件事之後,很快就批下來了。當時預算緊張,砍掉了其它專案。”周總道,“吃一塹,長一智。行裡在資料安全及防護的認識方面上了一個臺階,甚至開會彙報的次序都做了調整,行領導要優先聽資料安全方面的內容。”

我問:“後來呢?”

周總:“後來上了儲存雙機方案,加強了故障監控,之後多年沒再出過險情。”

再後來,我們兩人的工作都有變動。我去了另外一家IT廠商,周總去了一家大型外資銀行的資料中心,擔任總經理,手下幾百人。這家銀行的資料防護已是第三代儲存技術。裝置是從我當時供職的那家公司採購的,俗稱“儲存雙機”。還建立了同城災備中心,一旦生產中心的資料不可用,業務系統可以切換到同城災備中心的裝置上繼續執行。

第三代災備的技術先程序度,遠非第二代的單機架構可比。大型銀行客戶或者業務關鍵的其他行業客戶不僅建立了兩中心,還建有異地災備中心,俗稱“三中心”。同一份資料同時有三個備份。萬一發生諸如地震等重大災害,即使同城的兩個中心受損嚴重,但遠在異地的災備中心還有一份資料。可謂高枕無憂了。

絕對的安全是沒有的,只是遇險的機率大小。周總的資料中心“儲存雙機”方案雖然RPO為零,但RTO會達到一個多小時,因為其中涉及伺服器、網路、業務系統等一大堆的切換,檔案系統需要裝載(“mount”)備份卷。這一個多小時內,業務系統不可用。實際執行中,如果不是遇到火災、供電異常或者建築物損毀一類大的事故,而僅僅因為儲存裝置故障就切換到災備中心,這還是很令決策者糾結的。毋容置疑,決策者主觀上還是希望儘可能在無需災備切換的情況下排除險情,這樣對業務系統的影響最小。

【第三代災備故事:報功與報喜】

事有湊巧,周總的資料中心遇到過“儲存雙機”架構中一臺儲存裝置持續告警,一個物理盤櫃中幾十塊磁碟都在報錯,好在業務系統仍可正常執行。工程師們忙了兩天,險情未排除。

公司派我到現場全權指揮並協調國外研發中心的專家支援。周總很謹慎,叮囑我任何進展先向他通報,不要越過他報給他們的中國總部。故障發生第五天時,出現轉機,異常的磁碟僅剩兩塊。籠罩人們心頭多日的霧霾開始散去,疲憊的臉上有了笑容,沉悶的耳畔傳來笑聲。未到奔走相告時,已見喜鵲正飛來。

我分別向周總和我公司總部報告了最新進展。不久之後,被周總叫去談話。本以為是談下一步安排,不成想被劈頭蓋臉地指責了一頓。我一頭霧水,不明就裡。原來,周總認為故障沒有完全消失,原因沒有查明,向其總部彙報時機不成熟。偏偏他們總部的領導獲知了進展情況,反過來向他核實。總部領導的突然過問,令他被動和惱怒,甚至推測我公司存在越級彙報問題,於是詰問我是否“急於報功”。

一次說清資料安全與災備

我猜測有人並無惡意地傳播了訊息。面對盛怒的周總,我不急不緩地說:“先前我已向公司的有關同事強調了您的囑咐,不可以越級報告貴行總部。我相信不會有人故意違反,你我分別查查實情。報功的可能性沒有,因為沒有功勞可報。但人們愁悶了多日,不排除有人急於報喜的可能。”也許誤解消除了,也許不快已過去,此話一出,周總便平靜下來,換了話題。後來事情徹底解決了,業務系統未曾切換。自此之後,與周總的工作友誼加深了,遇有雙方會議,他都指名邀請我參加。

從此事的經過可以知道,業務系統可用率非常重要,時刻耿耿在懷。遇有裝置故障,上上下下都很關注,心情難免緊張,焦慮也屬正常。焦慮緣於系統癱瘓的嚴重後果。知名企業的IT系統宕機事件時常見諸報端。2011年,韓國農協銀行系統癱瘓,服務中斷了三天,資料丟失嚴重。2016年達美航空公司六個小時的宕機造成了一億多美元的成本損失。即使在雲技術時代,依然難以避免。2016年、2019年阿里雲的“I/O不響應”影響大片地域。IT系統的脆弱性令人心悸,業務系統的可用性高度敏感。

正因如此,災備切換時常面臨兩難選擇:切換不切換都擔心。一個多小時的RTO令資料中心的切換決策猶豫不決,不到萬不得已,不願下達切換的指令。癥結在於RTO仍是災備架構的軟肋,要克服就要等第四代災備問世了。

第四代災備

當第四代災備技術問世後,我最先介紹給周總。被稱為“雙活儲存叢集”的第四代技術容忍整臺儲存裝置宕機,業務系統不受宕機影響。跨同城兩資料中心的儲存叢集可以做到儲存裝置級別的“雙活”(active-Active)及負載均衡,通常也配置主機叢集,儲存裝置宕機對業務系統是透明的,RTO接近為零。內置於儲存裝置之內的高效能、高彈性、自動化、一體化的資料複製技術是當今最先進的災備技術架構和方案,是資料中心關鍵業務系統的福音。

工欲善其事,必先利其器。周總長期在資料中心工作,深知先進災備技術對業務系統暨銀行生產安全的重要性。在其積極推動下,他們中心成為第四代災備技術的早期客戶之一。災備演練完全自動化,系統執行基本沒感知。關鍵業務系統受惠於最可靠的災備架構和設施,宕機風險遠去了。

災備對策

外面的雨依然下著,我們的話題繼續聊著。周總說:“自從上了第四代災備,多年來從未有過的踏實。那種感覺棒極了,局外人很難理解。”

我說:“一切就完滿結束了?”

周總:“不會。”

我說:“還有什麼挑戰?”

“有些想法。不是學術,純屬聊天。”周總接著說,“可能遇到的一些風險和艱難包括國際禁運、自然災害、人為破壞、裝置故障、供電故障、網路故障以及誤操作。”

我問道:“有什麼建議?”

周總略一停頓,說道:“這幾類風險成因不同,影響範圍和程度各異,對策也不同……”他說了很多,似乎經過了深思熟慮,不吐不快。摘其大要,列為三條。

第一、對於國際禁運這一類風險是全域性性的,需要政府、行協和企業心無僥倖地做準備。

政府和行協可以建立IT裝置博物館,把淘汰下來的舊裝置儲存好,最好是硬體、軟體、應用程式、使用手冊等配套儲存。定期加電,使之處於隨時可以使用的狀態。可以參考某些國家儲存淘汰的軍事裝備的做法。一些國家把淘汰下來的舊裝備並不丟棄,而是有計劃地儲存起來。一旦新裝備消耗完又得不到及時補充時,舊裝備就可投用,雖不先進,但比沒有要好很多很多。

除了政府和行協,企業層面也要有所作為。制定“利舊”計劃時,預案要假定長期禁運的可能性。據此制定保持既有災備水平的年限、降級災備水平的年限、直至沒有災備的年限等。其實,“利舊”不僅適用於國際禁運,也適用於其它突發事件。據傳聞,美國“911”事件後,有的公司在全球範圍內蒐羅某廠家停產多年的小型機,好壞不限。過去這些年份,我國處於經濟增長高速期、中速期。一旦進入低速期,業務資料量增長降速,IT系統提速擴容的需要下降,更新換代的資金和預算就不會如今天這般的充裕,延長裝置使用期限必將會常態化,我們需要整體謀劃,未雨綢繆。

一次說清資料安全與災備

第二、對於地震、水災等自然災害,或者恐襲等人為破壞這一類風險,異地災備中心最有效;對於裝置故障、供電故障、網路故障一類的風險,要靠同城或異地災備中心;對於誤操作,就要靠資料中心自動化降低隱患,並依靠同城或異地災備中心應對。

現有的第四代災備方案可以較好地應對。關鍵是提前做好預案,臨事不慌。

第三、資料防護、資料安全的管理尤其重要,管理得好可以充分發揮和發掘既有方案的效能和潛能。

管理是技術的倍增器,資料安全的風險管理也不例外。管理的物件主要是人員。資料中心的管理人員和技術人員很專業、很可敬,服務商的技術人員遵經驗、守規範,但長年累月地、多年如一日地不犯錯幾乎是不可能的。“木桶原理”中的短板隨時可能出現,任何一個短板都可能帶來大的麻煩。日常運營中需要避免鬆懈和疏忽,措施需有效,警鐘要長鳴。

我將這些記錄下來,寫成此文,希望能對讀者有所啟發和借鑑。經過三十多年的發展,我國資料安全與災備技術越來越成熟,風險管理越來越規範。一路走來,有困苦有艱難。回頭再看,更多的是敬意和點贊。微信聊天、網上購物、移動支付這些司空見慣的生活新方式,都是各自的資料中心在起關鍵作用。各行各業的資料中心為國家的現代化、為經濟發展、為民生的便利做出了巨大的貢獻。假如沒有這些資料中心,我們的工作方式和生活方式無疑將後退多年。不誇張地說,方方面面皆已電子化、資訊化的現代社會高度依賴不為眾人知的資料中心。資料安全沒有一時不關鍵,資料中心的災備沒有一刻可或缺。

行文至此,我又想起了多年前在省城的那個夜晚寫下的句子。那是我的嚮往、周總的嚮往,也是更多人的嚮往。錄在此處,作為結尾。

屋瓦固,任春雨紛紛,淡定憑欄觀雨景;

窗欞堅,料秋風陣陣,悠然倚樓聽風鈴。

【後記】本文引用的災備故事由真人真事改編而來。人物姓氏用了化名,任何的對號入座都是不合適的。作者選取故障場景作為切入點,是為了藉此點明技術架構的薄弱所在,那也是技術方案更新換代的關鍵所在。實際生產中,裝置故障總會有,但不可誤以為“都是故障”。醫院多見病患,周圍眾皆健康。是同樣道理。

Top