「星故事」运维工程师小张的日记

2021年02月 · XSKY

我是一名来自XSKY的运维工程师小张。

d96edc0e4a5e1239d00ac63129361bce.jpg


图片来源于网络


应公司市场部同学的邀请,我今天用日记的方式来向大家讲述我工作中忙碌又普通的一天。


202012X日,晴,某金融客户变更日。


8:30 客户变更室 巡检


刚到门口,就看到部门的新人小浩已经在门口朝我挥手了。


师傅,早呀!


简单向他交代几句,我们就开始进行日常巡检。


巡检的内容包括:从界面查看并处理告警、检查集群是否健康、存储池与硬盘的负载与时延、SSD缓存盘的负载和寿命等。


经历过公司的专业培训,这个过程对我来说并不复杂,但近20个集群,全部处理完也用了不少时间,当然还包括回答小浩同

学的各种问题。


1030分左右,开始沟通甲方和相关同事,确认当晚的变更事项,整理好变更单,申请堡垒机权限,为晚上的工作做好准备。


之后我开始处理邮件,操作手册规定所有变更类操作需要邮件报备部门领导与二线进行检查确认,而我的工作就是确保每个操作步骤都符合规定,不能出现纰漏。


12:30 餐厅 突发事件


全部处理完已经到了午休时间,和大家边吃边聊工作,顺便提问检查小浩上午的实践学习情况,但其实他提的问题比我还多。


f9fb83a44a13bceebd6d2049a6eaa1ea.jpg


张神,咱们负责的这个大客户都用咱们什么产品呀?主要承载上层哪些业务…”


虽然不知道为什么我就变成了张神,不过给他讲一讲还是有必要的。


咱们现在的工作就是保障客户的存储集群正常运行,发现并处理问题,优化存储性能。客户目前使用了我们的EBS块存储和EOS对象存储两种产品,有近20个集群,300多台物理节点,上面承载很多金融业务,工作量不小,更需要打起精神。


正聊着,我的手机突然响了,是其它项目的客户。


八成是来活儿了。我边说边示意大家赶紧吃完。


果不其然,客户的存储集群出现了两个坏盘,不影响使用,可语气很焦急,希望尽快处理。


不必担心,XSKY存储属于软件定义的分布式存储,按集群架构,宕掉两个节点也不会丢失数据。有备用盘,我们可以随时更换。


挂上电话,我转头对小浩说:回去仔细看更换硬盘的文档,下午带你操作一次。


15:00 办公室 远程服务


变更操作刚得到总部的确认,中午联系的客户已迫不及待地打来电话,新硬盘就位,现在就可以更换。


我再次和小浩确认了操作步骤:


1、定位故障硬盘在服务器上的槽位


2、拔出故障硬盘,插入新硬盘


3、图形界面勾选新硬盘点击【重建】


更换两块硬盘、远端机房硬件工程师的联动操作,20分钟完成。客户惊讶于过程竟然如此简单。


是的,全过程业务无感知,就像打印机换墨盒,属于常规操作…”


挂上电话,我开始交代小浩:明天联系一次客户,更换硬盘后数据会做重平衡,确认重平衡完成、集群健康,任务才算完。


小浩一边点头一边做着记录,咱们的产品也太方便了吧,点点鼠标就搞定了!


研发的同事付出了很多努力。当然,咱们的反馈也很有用,对于产品优化来说,咱们就是眼睛,要注意发现问题,沟通用户、搜集信息并及时反馈,绝不只是解决完问题就完了。


16:00 办公室 整理文档


小浩整理自己的工作笔记,我偷看了一眼,写的很认真,不过他为什么在自己的本子上边写边涂鸦


算了,只要能记清楚,方式不重要。

209fb3838b85fc80cc74956c16829dd1.jpg


公司是有知识库和学习文档的,但每个人的知识面和过程中的感悟是不同的,就像听同一堂课,学生们的笔记也不尽相同,但只要勤于总结、积累,就能把它变成自己的经验。


看完他,我也打开实施报告、工单忙了起来。


18:00 大厅 休息时间


晚上还有数据迁移的硬仗,我提议大家一会儿出去吃饭。


张神,咱们忙了一天了,我是真不想走远路了!小浩说道。


另一个同事调侃:小浩,现在不活动一下,晚上可要盯一夜呢,你见过坐久了,人锈在椅子上吗?


他说的没错,这是运维工作最难熬的部分,每周都有几天加班到凌晨三、四点。运维的工作几乎没有什么高光时刻,我们要把用心放在每时每刻,确保用户存储的正常运行,重要但也平凡。


20:00 变更室 通宵


数据迁移开始了。


这是一场云管、计算、存储、最终用户四方联动配合的重大变更,由云管协调,最终用户远端配合,计算端10个终端同时并发迁移脚本,存储端时刻监控后台日志与迁移进度。


每迁移完一个应用,云管负责通知最终用户进行验证,如果存储端发现问题,则要及时与计算端进行确认并迅速处理。紧绷的精神状态一直持续近6个小时,直到凌晨2点多钟,迁移脚本全部跑完了,用户端业务全部验证没有问题,此时对于最终用户、云管、计算来说,迁移已经结束了,但负责存储的我们还不能离开。


因为此时数据还在后台持续迁移,因为并发数比较高,有些卷还在迁移排队等待中。我们要在数据全部迁移完成后对每一个卷进行校验检查,确保迁移过程没有任何问题。


凌晨4点左右,完成全部工作。


我活动活动胳膊,起身拍拍小浩问:困吗?


刚才迁移过程,我超级紧张,一点都没觉得困。小浩眼睛瞪得很大,不过眼白上已经有了不少血丝。


这就是我们的日常工作状态,没事做才会困,当重要的责任落在自己肩上,就只会更加认真专注。


下班了,回家。


04:00(次日) 归途


回家的路上不算太冷清,早餐铺门口蒸包子的笼屉已经冒起白雾,送奶工、快递员已经开始奔波,还有一辆洒水车缓缓开过。


8c685e6e5013ab9f734275bc0674309f.jpg


图片来源于网络


这就是一个运维工程师的凌晨4点。


做运维很忙、很累,但同样也有相当的收获,接触圈内最牛的专家、学习行业最新的技术、解决问题时成就感满满的幸福一刻,以及把知识与经验传承的使命感。


XSKY技术服务部里,就有我的引路人,指导我从初出茅庐到独当一面,现在我要在很多个今天中让小浩也能快速成长起来。


每一次客户的感谢、每一次技能的提升、每一次问题的解决,这就是我热爱这份工作的原因。


这就是我的故事。