知識庫
最近用戶反饋服務器的raid5硬盤下線,最早一塊硬盤離線,管理員沒發現,直到另一塊硬盤掉線導致系統癱瘓才發現故障。聯系官方客服,對方建議將其中一塊硬盤強制上線,但同時指出操作有風險。管理員將某盤強制上線后,發現操作系統啟動異常,于是關掉服務器,聯系互聯數據運維尋求幫助。
自帶raid5硬盤服務器:http://www.bxgb88.com/dedicated/hk.html
一、服務器raid5硬盤下線故障分析:
RAID5僅支持一塊硬盤掉線的冗余保護,當兩塊硬盤先后離線后,RAID5無法通過運算提供完整數據塊,RAID5便會下線。控制器為了穩定起見,只要有硬盤下線,便不會自動上線,這樣不通過人為干預,RAID會進入癱瘓狀態。通常情況下,因RAID控制器的敏感性,掉線的硬盤多數不會有嚴重的物理問題。
因為一般情況下硬盤都是完好的(掉線是因為信號受阻,電源波動或控制器BUG等隨機原因),所以數據恢復的可能性較高。強制上線具有較大的風險,如果上線錯誤,會導致控制器自動做出一些不可逆操作,如果再進入操作系統,因文件系統不一致,會啟動修復,繼而導致全部硬盤數據不一致,本案例即是屬于此類問題。
服務器數據恢復過程:
首先對服務器中所有硬盤進行完整備份,在備份過程中發現多塊硬盤已經存在壞道但沒有下線,原因是raid沒有讀到硬盤壞道。備份完成后分析原服務器的raid組成結構然后虛擬出raid環境對raid結構畸形驗證,把服務器后期破壞的結構進行人工修正,將修正后的數據導出到一臺中間存儲上臨時存放。數據恢復的最后一步使用完好的硬盤在服務器上搭建新的raid5磁盤陣列,將恢復出的數據遷移到新raid中即可。檢驗恢復出來的數據一切正常,數據成功恢復。
二、服務器raid5硬盤數據恢復過程:
1、關閉服務器,將故障硬盤標好序號。互聯數據運維工程師備份所有硬盤,在備份后發現有多塊硬盤已經存在壞道,只是RAID沒有讀到,暫時沒有下線。
2、分析服務器內的riad磁盤陣列結構,獲取raid相關信息如raid級別、條帶大小、條帶方向、塊大小、硬盤盤序、數據校驗方式等。構建虛擬RAID環境。
3、驗證解析的文件系統和文件,確定數據無誤后讓用戶親自對數據進行驗證。確認本次數據恢復結果完整,正確。修正部分后期破壞的結構后將數據導出到另一中間存儲。檢測虛擬結構是否正確,如不正確,重復過程。
4、確定數據無誤后回遷數據。如果仍然使用原盤,需確定已完全對原盤做過備份,重建RAID,再做回遷。回遷操作系統時,可以使用linux livecd或win pe(通常不支持)等進行,也可以在故障服務器上用另外硬盤安裝一個回遷用的操作系統,再進行扇區級別的回遷。
歷時2天完成數據恢復。從上千萬文件中抽樣檢測,絕大多數沒有問題。在服務器數據恢復工作中,raid5兩塊硬盤離線的情況十分常見,由于raid5磁盤陣列支持一塊硬盤離線時的榮譽保護,一旦多塊硬盤處于離線狀態,服務器便處于癱瘓狀態,且不會自動上線。由于raid控制器具有一定的面感性,多數硬盤掉線緊緊是因為電源波動、控制器bug等隨機原因導致,所以掉線盤可能沒有嚴重的物理故障。
三、服務器raid5硬盤數據恢復結論:
一旦raid5磁盤陣列出現多塊硬盤離線、服務器癱瘓的情況切記不要盲目進行強制上線操作,如果有足夠的備用空間,可將源硬盤全部鏡像。有兩種方法(WINDOWS2003或DOS下,其他操作系統有風險):
1、可用相同或大于源盤容量的硬盤做為目標盤,將源盤全部扇區方式CLONE到目標盤。將所有盤做同樣操作。
2、可將每塊源盤完全以扇區方式輸出文件到某大容量存儲空間(如大容量硬盤、NAS、SAN、DAS等)
先排除是不是分區表的問題導致D盤丟失,如不是的話,最好不要自行操作了,服務器數據一般都是比較重要的,謹慎操作。關機,取下硬盤,對應的磁盤進行編號。通過底層數據結構進行分析,盤順序、塊大小、校驗方式、數據走向,重組驗證數據,有沒有早離線的盤。
服務器的raid5硬盤下線的解決方案就這些,如有問題的話需要把offline的那塊盤加入進行分析(有硬件故障先處理硬件故障后進行鏡像)服務器數據恢復都是按照raid等級和盤塊數 故障損壞情況收費的。后續沒做其他操作的話,基本上可以完整恢復出來。數據重要的話謹慎操作,最好找當地的數據恢復公司吧。