|
磁盤陣列管理維護經驗談 |
隨著企業信息化進程不斷的加快,對業務數據的安全性要求也不斷提高,磁盤陣列(Redundant Array of Inexpensive,簡稱RAID)作為數據存儲的一種主要方式在許多企業中被大量采用。磁盤陣列是一種安全可靠的數據存儲備份方式,但是磁盤陣列系統本身也存在著安全性的問題,也需要對其本身進行管理維護。若管理不到位,系統一旦出問題,很難用手工方式恢復,會給企業帶來不必要的損失。因此根據不同的業務數據量、不同的數據安全性要求,并結合使用的磁盤陣列產品技術支持情況,制定適合的管理維護措施,可以避免系統出錯,保證整個網絡系統中數據的安全。下面就簡單談談在磁盤陣列系統管理維護方面的一點經驗。
及時備份系統配置參數
建立磁盤陣列系統后,要及時記錄磁盤陣列的邏輯配置、物理配置、狀態配置等參數,具體包括使用的每個邏輯盤大小、RAID類型、條帶容量、數據寫入磁盤方式、由哪些物理磁盤組成,每個物理磁盤的通道號、目標序列號、生產廠家、型號、容量、陣列控制器的型號、固件(Firmware)版本,處于后備待機狀態(Hot Spare)還是在線狀態(On Line)等。上述配置參數在磁盤陣列或操作系統崩潰后,在緊急重建陣列、恢復存儲數據的過程中是必不可少的。一般陣列控制器BIOS芯片裝載了陣列配置軟件,管理員以文件形式備份上述參數。
及時檢查運行日志文件
磁盤陣列的日志文件詳細記錄了磁盤陣列內部運行情況,包括發生的每個事件序列號、嚴重級別、相關的服務器IP地址、有關設備的具體位置及事件發生的時間等內容,這些信息對于診斷和排除磁盤陣列故障十分有用。做好日志文件的日常管理工作,往往能起到防患與未然的作用。采用RAID數據冗余技術,即使有一個物理磁盤損壞,也不會影響系統正常運行和數據的I/O,用戶也仍能夠正常訪問服務器,這時故障不易被察覺,但陣列實際上已處于安全臨界狀態,下一步就會面臨著突然宕機和存儲數據隨時丟失的危險,日志文件及時將這一情況記錄在冊,損壞的磁盤記錄為下線(off line),其所在陣列記錄為臨界狀態(critical),通過檢查日志就能夠及時發現陣列運行中存在的這個錯誤和隱患,迅速排除故障,保證陣列始終處于安全運行狀態。
定期檢查數據一致性
數據冗余是磁盤陣列主要技術之一,磁盤陣列通過數據冗余達到容錯目的,但是由于各種原因,難免會遇到冗余數據與主數據塊(Primary Data)不一致的情況,結果造成數據失效甚至宕機等現象。一致性檢查能及時發現和糾正潛在的錯誤數據,保證陣列中數據的完整性。通過對RAID互為鏡像的磁盤數據一致性檢查,或者主數據塊進行重新校驗,將產生的校驗數據與冗余數據比較,都能發現不一致的錯誤數據。一致性檢查一般間隔時間以每周1~2次為宜。
建立熱備用磁盤
熱備用磁盤也是RAID技術的又一項技術,當磁盤陣列中一個正在使用的物理磁盤發生故障后,一個待機的磁盤會立刻上線,代替此故障盤,陣列控制器根據邏輯驅動器上的冗余數據,通過校驗算法把原來存儲在故障盤上的數據重建到熱備用磁盤上。成為熱備用磁盤必須有三個條件:一是有不小于故障盤的容量;二是平時不得存儲任何數據,也就是閑置不用;三是陣列控制器自動重建數據功能有效。在一個陣列中,只能有一個熱備用磁盤。熱備用磁盤增加了一次數據逃生的機會,系統管理員要及時更換發生故障的磁盤,并指定新的熱備用磁盤。
定時備份重要數據
配備了磁盤陣列并不意味著可以高枕無憂了,由于考慮設備投入成本、技術復雜性等因素,不可能同時采用陣列控制器冗余、磁盤冗余、熱備用磁盤、備用電池或雙UPS電源供電等技術,所以,對于重要業務數據一定要備份。在美國“9·11”事件中,正是靠磁帶備份和遠程容災系統挽救了金融界巨頭摩根斯坦利公司,由此可見數據備份工作的重要性。數據備份的介質可以是磁帶、可讀寫光盤,也可以還是磁盤。備份方式可以是通過操作系統本地備份或通過網絡系統遠程備份。
磁盤陣列系統的安全運行是離不開系統、科學的安全管理,尤其在由于經濟條件限制的企業中,由于配置的冗余設備很少、技術不完善的情況下,更需要通過加強安全管理,來彌補其硬件安全性方面存在的不足。