EMC VNX系列存储服务器VNX5000 阵列崩溃raid三块盘离掉线数据恢
本文摘要:【前期故障表现】 泉州某生产型企业,EMC VNX 5100存储中,RAID5阵列故障导致存储瘫痪,10块硬盘有3块硬盘离线,其中前4块硬盘是EMC系统,系统区域正常,前期有两块盘先掉线,4号盘热备盘顶上后,8号盘又损坏掉线,EMC控制平台里面显示,disk5,disk6,disk8状

【前期故障表现】

  泉州某生产型企业,EMC VNX 5100存储中,RAID5阵列故障导致存储瘫痪,10块硬盘有3块硬盘离线,其中前4块硬盘是EMC系统,系统区域正常,前期有两块盘先掉线,4号盘热备盘顶上后,8号盘又损坏掉线,EMC控制平台里面显示,disk5,disk6,disk8状态为removed ,同时显示硬盘亮黄灯,阵列损坏,LUN显示每个分区为FAUlTED,里面保存着重要的财务SQL2005数据库丢失。

UPS电源AB组模块也报警,亮黄灯,IBM服务器应用无法加载此EMC存储上的数据库,所以数据无法访问,

 

客户经厦门某著名IT培训中心的宁老师介绍,联系上了北京技佳瑞康科技有限公司厦门分公司的罗工上门恢复

 

1、->EMC存储数据恢复过程

此台EMC VNX5100硬盘 600G 10K 005049249此款硬盘也通常应用在VNX5200  5300 5400 5500等存储上,

EMC VNX系列存储使用的是520字节长度的硬盘,常规阵列卡及备份软件WINHEX无法备份,只有在PC3000 SAS上可以操作,之前其它是把520字节转换成512格式后镜像,然后这个镜相对组合RAID阵列,然后,EMC智能存储的RAID结构非常特殊,和普通RAID5完全不同。一般的文件系统和软件是无法解析的,手工分析文件及阵列也不现实,目前软件针对EMC还没有一个完美的解决方案。

2、->阵列Raid5成员硬盘检测过程

先对每一个硬盘做好物理顺序编号,由于硬盘离线亮黄灯,硬盘工程师首先对raid阵列中的亮黄灯的明显硬盘硬盘先进行检测,发现6号坏道大量坏道,5号盘坏道不是很多,8盘盘坏掉20个以下,后面对其它成员硬盘进行物理检测(包括掉线盘和正常磁盘)除4号热备盘和7号去年刚替换的盘全好外,所有磁盘或多或少都有物理故障

 

3、->raid阵列成员盘数据备份】

由于硬盘或多或少都有问题,为了对数据进行保护,做到只读不写,罗工决定按照数据恢复流程开始对所有成员磁盘进行备份,源磁盘的扇区大小为520字节,因此还需要使用特殊工具PC3000 SAS或是我们公司自己研发的软件进行镜相备份,520-520镜相

 

4、->【根据坏的盘顺序重构RAID组结构】

一般存储或阵列是对盘进行镜像完成后将在镜像文件底层raid信息进行分析,得出raid的数据块大小和条带分布规律,阵列结构后重组原raid组,此磁盘阵列中8号盘最先掉线,好盘镜相后上线,不再报错,5号盘倒数第二次掉线,但由于6号盘早已掉线,4号热备顶上,只能先重建6号盘,再腾出4号热盘后,再重新5号盘。6和5中都是前半年前的数据,只能用空白盘去同步,只到接上6号故障盘后,数据开始同步,4号热备盘Equalizing均衡还原6号盘,

再Rebuilding4号,热备盘顶上5号盘,

接上5号好盘,再Equalizing均衡还原5号。

Rebuilding过程中LUN的状态

 

 

5、->【Lun信息故障还原】

 

 

ZFS文件系统比较复杂,目前对EMC的ZFS还没有完整的解决方法,只能在设备上完成恢复

LUN恢复成功后,状态由FAULTED变为READY

 

6->数据恢复结果验证

北京技佳瑞康科技有限公司厦门分公司的罗工和客户方一起努力,历时4天,数据100%恢复成功,客户方工程师对所有数据和SQL2005数据库进行现场验证,数据恢复完美验证。

总结:EMC的存储虽然稳定,但也是要经常机房巡检,数据还是要有备份,有备无患!很多时候物理层恢复了,但是存储的状态还是不行或是硬盘状态不对,类似于我去年恢复的VNX5400上面挂载了几台磁盘柜,就需要厂家二线工程师,甚至是厂家三线工程师的技术支持恢复完成。

 

北京技佳瑞康科技发展有限公司成立长2012年,国家保密局涉密数据恢复资质单位,总部位于北京,在上海、深圳、厦门、南京等地设有分公司http://www.databack.com.cn ,联想集团数据恢复供应商,2017-2019北京市政务信息安全应急保障单位,北京市诚信创建企业,中国石油IBM 渣打银行数据恢复服务商!