一旦出现RAID(磁盘阵列)数据灾难,对于企业来讲可能会丢失关键的信息。在RAID出现故障的时候,为了最大程度地保护数据,只有及时修复故障才能保证冗余的存在,而对于丢失的数据,数据修复是比较理想的手段。
RAID技术经过不断的发展,现在已经具有比较成熟的技术体系,发展了从 RAID 0到7的八种基本级别,还有一些基本RAID级别的组合形式,如RAID 10(RAID 0与RAID 1的组合),RAID 50(RAID 0与RAID 5的组合)等,成为存储的基本要素,是从服务器的内部存储到外部独立存储系统整个存储领域的核心支柱之一。
并不可靠的RAID
使用RAID的目的就是利用磁盘空间的冗余实现数据容错,当磁盘出现故障的时候能够确保数据的安全。
然而,RAID并不是一劳永逸的方法,有时也会出错。如果处理不当,有时会丢失大量的关键数据。
比如,现在最常用的RAID5,在一块硬盘发生故障后,RAID组从“Online”变为“Degraded”方式,I/O读写不受影响,直到故障盘恢复。但是,如果“Degraded”状态下,又有第二块盘故障,整个RAID组的数据将丢失。
RAID 0代表了所有RAID级别中最高的存储性能,但它不提供数据冗余,可靠性最差,一旦损坏,数据将无法得到恢复。
其次比如突然断电、重新配置RAID阵列,都可能造成RAID磁盘阵列卡信息的丢失,用户的错误操作都会导致数据的丢失。
一旦出现RAID数据灾难,对于企业来讲可能会丢失关键的信息,是比较严重的数据灾难。
在RAID出现故障的时候,为了最大程度地保护数据,只有及时修复故障才能保证冗余的存在,而对于丢失的数据,数据修复是比较理想的手段。
第二次数据破坏
在数据修复市场,相当多的公司或个人只是“一台PC一张桌,一套软件一个人”,如同江湖“游医”。这些不规范、完全没有数据恢复资质的数据恢复公司,往往还是对数据进行二次破坏的幕后“黑手”。
RAID是大部分企业所采用的数据备份技术,但是,RAID一旦出现故障,也会对数据造成一定的破坏。一些IT工程师会尝试自行对RAID进行修复,结果可能因为工程师的自行修复行为,对RAID数据造成二次破坏,使得数据最终无法再恢复。
比如,某个制造企业的RAID出现了问题,并向DRS(国家信息中心数据恢复中心)发出了求救电话。但是,当DRS的专业数据恢复工程师赶到现场后,却发现用户在遇到问题之后先求助于服务器工程师,而且已经执行了强行加载操作,此时所有的数据全部丢失。
经过DRS专家的努力,最终只找回了部分数据,其它的数据由于二次破坏而无法进行恢复。“凭借现有的技术,这类反复强行加载并多次写操作之后的数据,无论是什么样的数据恢复高手,也难以恢复全部的数据。” DRS主任叶红说。
为RAID动手术
谈到RAID修复,叶红说:“RAID数据修复看起来是硬件故障,实际上是一个比较复杂的软件操作过程。我们对RAID0、RAID1、RAID5以及组合型的RAID系列磁盘阵列数据恢复具有丰富的实践经验,如果出现故障以后,用户不自行尝试一些操作,我们就有能力恢复出故障阵列的数据。”
目前,由于一些用户对RAID问题的严重性认识不足,一旦出了故障,就会寻找集成商尝试解决问题,但是,由于服务工程师的经验和技术重在硬件方面,对于RAID的数据修复认识不充分,结果往往会适得其反。
以普通RAID5恢复为例,当硬盘损坏超过容错能力时,必须将损坏硬盘的镜像完全提取才能进行最终的恢复。而如果频繁对硬盘上电,很容易造成磁头进一步疲劳损伤,甚至划伤盘片。
不久前,国内一家知名企业就发生了RAID故障,该公司的一台服务器,由于错误操作被格式化,数据顷刻之间便消失了。该服务器采用的是RAID 5的工作方式,由5块146G的硬盘组成的阵列。
国家信息中心数据修复中心的数据修复专家,在符合数据修复标准的洁净间里分别对每块硬盘进行镜像,避免造成二次破坏。通过对RAID信息的诊断和分析,发现是由软件故障引起的误操作,最终,用了两天的时间,就帮客户找回了丢失的数据。
神奇的RAID7
RAID 7是一个整体的系统,有自己的操作系统,有自己的处理器,有自己的总线,而不是通过简单的插卡就可以实现的。按照RAID 7设计者的说法,这种阵列将比其他RAID等级提高150~600%写入时的I/O性能,这个说法也引起业界一系列的争议。
随意之中的二次破坏
大部分的企业对数据恢复理解还不够深入,因此,在数据出现错误的时候,往往在第一时间由企业的IT人员尝试自行修复,或者随便找一家所谓的数据恢复小作坊对数据进行恢复。殊不知,这些行为都可能为数据带来二次破坏,甚至造成永远无法恢复的后果。
根据国家信息中心数据恢复中心(DRS)结合实际磁盘阵列的修复经验,给出了常见的磁盘阵列错误:
磁盘阵列出错
磁盘阵列出错的具体原因有阵列卡损坏、阵列卡电池电力耗尽、槽口控制芯片损坏等。这类情况的数据恢复率相当高,但也有失败的案例。比如,板载的控制程序出错,发生大规模混乱的数据读写(误Rebuild等操作)是相当危险的。当发生阵列卡损坏时,随意更换新的阵列卡极易造成磁盘ID号紊乱。
系统故障
当发生系统故障甚至是系统崩溃时,一些用系统自带功能创建的磁盘阵列或者用第三方软件组建的磁盘阵列会发生数据丢失。此时,阵列日志和相关记录是相当重要的,如果您有详细的系统日志甚至是阵列组合信息备份,修复的成功率就会大大提高。
磁盘故障
虽然有的磁盘阵列容许1至2块硬盘故障而数据不丢失。然而由于管理不善和服务器相对稳定的特性对管理者造成麻痹,发生超出允许数量坏硬盘的事故屡屡发生(Raid5损坏两块硬盘)。一旦RAID阵列出现故障,硬件服务商只能给客户重新初始化或者重建,这样客户数据就会无法挽回。
(责任编辑:崔平)