当SDS集群的硬盘意外下线之后

2019年10月 · XSKY

信息化现状

2019年5月的某工作日。万方数据运维主管李工和往常一样,提早一个小时来到了办公室。他习惯性地在新的一天工作开始前,Check一遍系统运行情况。

服务器CPU负荷正常,网络连接正常,机房散热没问题…一切迹象都显示良好。

“咦,这台刚上线没几天的服务器,有几块硬盘怎么下线了?图片来源网络

图片来源网络

当打开XSKY XEDP存储管理界面时,系统第一时间发出了硬盘掉线的告警。他赶紧登陆服务器硬件管理界面,再次核查发现果然是硬盘出现问题。

在联系了硬件厂家工程师来排查后,发现不仅是硬盘,就连内存,CPU都存在质量的隐患,服务器厂家要求这些部件需要全部更换,但是更换硬件需要几天的等待周期。

李工心想,要不要赶紧联系XSKY的售后工程师来同步配合硬件更换,但对前端业务的观察后,发现部分坏盘虽然已经下线,但前端业务还正常。

“这不正是一个大好机会,来检验XSKY产品是否如销售时说的那么易维护?

注:配图与本文无关

说干就干,随后李工在XEDP的操作界面启动了业务优先的QoS,降低硬盘重平衡的速率,以保证不会对前端业务进行冲击,同时对前端业务做了监控,一旦有异常就启动XSKY售后的应急预案。

在接下来等待硬件备件的几天时间里,李工心里也有点打鼓。但意外的是,前端业务一切正常,并没有出现任何一起来自客户或者业务部门的投诉,原来前端业务仍然在正常运行。

服务器修复后重新启动,他连忙登陆存储管理界面,发现等待硬件备件期间的数据读写一切都正常,并没出现丢数据的情况。

随着这台设备的顺利“归队”,继续利用QoS功能减少数据重平衡对前端业务的冲击。而对于前端业务部门来说,整个过程并没有到察觉到后台已经更换了一台存储节点…

七千万个文件

北京万方数据股份有限公司(简称“万方数据”)是国内较早以信息服务为核心的股份制高新技术企业,是在互联网领域,集信息资源产品、信息增值服务和信息处理方案为一体的综合信息服务商。目前,万方数据知识服务平台整合了数亿条全球优质知识资源,包括8千余种中文期刊,世界各国出版的4万余种重要学术期刊,6百多万条学术信息,1亿多条专利信息,2百多万条标准信息…

据不完全统计,客户迄今文件数量达到约7千万个,大部分是几MB不等的小文件。并且,每天还在新增约10GB的文件数据。

过去,这些数据主要存储在直连式存储阵列中,随着业务的持续运行,现有存储在性能,扩容,数据安全等方面逐渐难以满足需求:

  • 现有系统千万级小文件的存储性能不足,影响用户体验;

  • 系统扩容不便,难以满足不断增长的数据存储需求;

  • 数据是客户的核心资产,需要通过副本等方式增加数据冗余,保证数据安全;

  • 需要为未来的数据挖掘和分析等更多创新业务,提供更加敏捷化的基础设施就绪。

软件定义之道

客户决定采用软件定义存储(SDS)来解决上述问题。5台通用服务器上部署XSKY XEDP产品,每台设备裸容量80TB三副本数据冗余保护,通过万兆网络进行连接。

利用XEDP提供的块存储预留为内部业务使用,对象S3则主要支撑客户的核心生产文件数据存储。在经过数个月的现场测试之后已全部转入生产,目前存储的数据约68TB

在之前的作业中,万方数据运维主管李工正是利用了XSKY XEDP完备的告警功能,及时发现了集群中存在故障离线的硬盘。此时基于三副本的数据保护,保证了单点故障系统并不会因此丢失数据。

而当集群硬件异常时,或者进行硬件更换维护时,硬盘离线超时设置功能使得存储集群进入 Recovery状态,将失效硬件上的数据重新分布在其他节点,业务无中断。

此时,XSKY提供的Recovery QoS功能,通过制定策略,数据恢复带宽得到有效限制,保障了业务性能下降幅度不超过15%

横向扩展架构以及小文件归并等功能,则保证了客户可方便的添加磁盘和节点,实现性能和容量的线性增长,提高小文件存储的性能。

客户获得以下收益:

  • 数据高可用,三副本模式下数据持久度达到7个9;

  • 突破单点故障和性能瓶颈,数据0丢失,业务无中断;

  • 与之前存储方案相较,小文件存储场景性能提升100%;

  • 弹性扩展,存储性能和容量线性增长;

  • 全图形化界面,运维简便,运维效率提升200%;

  • 构建了面向未来的现代化基础架构。

XSKY产品的自动化和智能化运维设计,令人印象深刻,我们甚至在没有知会原厂的情况下,自己就能够独立应对可能出现的意外情况。在出现单点故障时,业务无中断,数据0丢失,这给了我们极大信心来支撑未来的业务扩张。

——李国辉(万方数据运维主管)