IBM-DS4700存储故障案例分析.docx

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

IBMDS4700存储故障案例分析

?

?

原创:河南凯姆敦克计算机有限公司???????高端服务部

故障现象

近日接到客户电话,其重要业务系统的ORACLE数据库无法启动,经查发现为IBMDS4700存储故障,因故障现象比较复杂,向我公司求助。我公司在接到故障报修后迅速响应,携带公司现有备件(两块600G硬盘)赶往现场。

进场后登陆IBMDSSM管理控制台,查看故障告警如下图所示:

故障指示对应的故障硬盘和LogicalDrive如下表所示:

同时查看硬盘状态如下图表所示:

SLOT

硬盘大小和硬盘状态

Driveinslot1

EmptyOffline

Driveinslot2

600GHotSpareInUseImpendingDriveFailure-MDAR

Driveinslot3

600GOnline

Driveinslot4

600GOnline

Driveinslot5

600GOnline

Driveinslot6

600GOnline

Driveinslot7

600GOffline

Driveinslot8

300GOnline

Driveinslot9

300GOnline

Driveinslot10

300GOnlineBypassedDrive

Driveinslot11

300GOnline2

Driveinslot12

300GOnline

Driveinslot13

300GOnline

Driveinslot14

300GOnline

Driveinslot15

300GOnlineHotSpare

Driveinslot16

Empty

查看Array和LogicalDrive信息如下图所示:

故障分析

经仔细查看存储故障日志和告警信息,查阅维护指南和故障手册,分析得出以下结论:

1、针对Array0LogicalDrive1,原本由Slot3–8的硬盘组成,由于SLot7硬盘故障,由热备盘Slot2顶替后数据同步完成,但是由于Slot2存在impendingdrivefailure(意味着硬盘目前可以正常使用,但已经出现损坏并在将来的未知时间出现故障),后续将其更换。

2、针对Array1,原本由Slot9–14的硬盘组成,由于Slot10硬盘出现BypassedDrive故障,导致Array1出现PartiallyCompleteArray故障,但是在Sot15的热备盘没有顶替slot10这点很奇怪,由于关于Array0Slot2的故障和重建日志过多导致关于Array1的日志已经被清理,无法发掘更加有用的信息。

3、针对Array0_1,此卷组大小为0MB,状态为Contingent–Prepareingforimport,相当奇怪,经查发现,这种情况一般发生在硬盘故障时更换的硬盘不是全新硬盘,而且未经重新格式化,硬盘上存在原有的Array信息,虽重新加入到现有的Array中,但原有的Array信息被保留到存储配置中。经与用户沟通,暂时以恢复业务为主,不对此做处理。

故障处理

1、在故障处理之前,要对存储的配置做完全备份,保存DS4000系统的Profile或AllSupportData,Profile里面记录了所有Array的配置信息和主机Mapping的信息,在关键时刻对于客户的数据恢复有着非常重要的作用。Profile备份步骤:StorageSubsystem-View-Profile-All-Saveas保存配置。SupportData备份步骤:Advanced-Troubleshooting-SupportData-Collect,弹出窗口Browse...选择路径输入命名保存

2、针对Array0的故障,需替换Slot2的故障硬盘,在做操作之前,需将Slot2的硬盘标记为坏盘,先选中Slot2中的硬盘选择Advanced-Recovery-FailDrive将其标记即可,然后选中Slot2中的硬盘右键选择ReplaceDrive更换硬盘,拔出硬盘等待30秒更换上新硬盘即可。

针对Array1的故障,在处理时发现其将Slot2的硬盘作为卷组的热备盘对待,由于Slot2的热备盘已经被Array0占用,所以Array1出现了PartiallyCompleteArray故障。处理时,首先取消Slot2的热备状态,然后将Slot15取消热备。完成后,选择Array1

文档评论(0)

姚启明 + 关注
实名认证
内容提供者

80后

1亿VIP精品文档

相关文档