中小型企业中如何做一个合格的 IT 运维工程师
发布时间:2023-05-11 阅读: 分享

运维行业 IT 工程师分类 


1、办公网MIS工程师

2、机房IDC支持工程师

3、系统工程师

4、应用运维工作师

5、网络工程师

6、安全工程师

7、DB工程师

8、大数据工程师

9、SRE工程师

10、运维开发工程师

11、虚拟化工程师(KVM、Docker、k8s、Openstack等)

12、机房弱电工程师等等


运维工程师职责


运维工程师的职责,就是领导安排你的任务,能够按时完成,不能给领导找麻烦,并且领导还会要求你负责的服务要保证4个9或者5个9,那么这里服务的提供商指的是谁?其实就是我们运维同学、没有其他人,就是在我们提供的服务与用户(RD、QA、或者外部用户等)之间定义的一种双方认可的协定,一旦协定达成、目标确认后直接挂勾你的KPI,当然有些工种,不太适合使用SLA来定义,但大部分运维工作都适用SLA,为了完成KPI,你就会主动的提升服务可用性、稳定性、为部门减少成本、提高工作效率,今天简单介绍下运维工程师的行为准则。

1年 = 365天 = 8760小时
99.9 = 8760 * 0.1% = 8.76小时
99.99 = 8760 * 0.01% = 52.6分钟
99.999 = 8760 * 0.001% = 5.26分钟


这里说明一下,一定不要再没有数据支撑的情况下,向领导承诺4个9或者5个9,切忌!!要用数据说话,说过就要做到。


稳定性


1、敬畏之心


(1)操作之前能备份的,一定要备份,不要省略,往往它能快速救你一命;

(2)线上操作必须得到授权,并在测试环境验证过,或者有多数人共同决策后操作,别自做主张;

(3)能用工具操作的事情,别手动上去敲所谓高大上的命令,能提前写成脚本操作的、不要手动操作;

(4)对线上有影响的操作,需要评估流量低峰时间段、错开流量高峰(前提得到授权、脚本准备、回退步骤、验证脚本等等);

(5)未加基础报警前,请不要上线,一定要报警先用业务上线;

(6)做为运维工程师对报警系统的敬畏之心,早上的例行巡检,对历史故障归纳总结等;


线上事故基本上都源于以上几条,大部分故障都源于未经授权、未在测试环境验证、RD所谓的免测、运维人员的自信、报警无人关注等导致人为事故;


2、故障


(1)故障发生,优先恢复业务,而不是在哪里定位问题;

(2)对棘手故障需要有故障升级通道,由 Leader 协调一切可利用资源;

(3)运维工程师按流程操作导致的故障,不记录该员工KPI考核中,记录在Leader KPI考核中,推进流程整改;

(4)没有按流程操作、导致线上重大故障的,记录在该工程师与 Leader KPI 考核中,共同对故障负责;


故障不可怕、怕相同故障多次发生,不以发生故障为耻、而为发生相同故障为耻;


3、故障casestudy


(1)故障发生渠道、发现时间点、参与人、故障定位过程、解决过程、故障根因分析,是否需要形成应急预案;

(2)故障是临时解决,还是永久解决、现有环境中是否有类似隐患;

(3)临时解决的需要给出整改计划,整改计划中需要设置跟进人员(PMO)、验收人员(Leader);


很多公司的casestudy都流于形式,并没有切实执行落地,所以需要增加 Leader 验收,下次再有类似故障,Leader全责。


4、变更


(1)配置代码必须遵循蓝绿发布原则,测试环境确认无问题后,再上线;

(2)备份的重要性、回滚机制的建立;

(3)操作步骤命令或者工具化、而不是模棱两可的文字描述;

(4)QA 自动化测试用例、变更失败后的回滚机制等;


故障的发生70%以上是变更造成的,对变更要有敬畏之心。


5、轮值


(1)运维人员在轮值期间、一定要保证7*24小时待命和报警的随时响应,电脑和网络随时可用,缺一不可;

(2)值班期间做好故障处理、日常工作进度记录,故障用于后续分析,工作进度用于把未处理完成的事务交接给下一周期值班人跟进;

(3)当值过程中出现棘手故障,不能简单交接下一值班人,需要根据实际情况确认是否有当值人员处理完后,再下班;

(4)需要把轮值期间发现的故障问题,定期组织轮值人员进行学习。


没有参与过轮值的运维工程师,是另人羡慕的。


6、业务交接


(1)没有完整交接文档的业务不要接手,接手之后没有完全弄明白前,不要说交接完成;

(2)业务接手后,需要根据实际情况进行故障演练,确保有可能的故障点;

(3)尤其是离职人员的业务交接,更需要认真负责、签字,一旦签字,你要承担起所有责任,KPI 中需要有明确关于业务交接的奖惩措施;


部分公司业务交接基本流于形式,没有认真履行职责。


安全意识


安全是运维工作开展的前提和必要条件,有同行描述这是一种唇亡齿寒的关系,实为贴切。安全上出了问题,造成的影响以及后续的修复工作都将有运维来承担,公司到了一定规模都会将安全和运维划分为两个独立团队,这样做事更专注,也容易做好。


1、切忌安全无小事原则,任何一个安全小事,都有可能造成不可挽回的局面;

2、运维工程师应该主动配合安全部门整改、配合完成各种策略、虽然有的时候感觉这种策略会造成一些不必要的时间,如果站在安全的角度,其实是很有必要的。


效率和成本意识


1、有效率优化意识,琐事不可避免,但要尽可能减少琐事,对重复性、手工性的操作能够工具化的,必须开发一些自动化工具;

2、由手动操作到脚本工具、到平台工具、到产品,这样即能提高效率、降低成本;

3、节约资源也是减少成本的重要体现,虽然决定不了产品营收多少,但可以通过资源整合、弹性伸缩、服务混合部署、架构优化、无流量服务主动下线等手段将有限资源最大化利用,节省基础设施资源成本,同时,通过效率的提升也可以优化人力资源成本。


13905190502 南京市玄武区洪武北路188号长发数码大厦11楼E座
友情链接
百度 网络安全和信息化委员会 FreeBuf网络安全行业门户

分享:
Copyright © 2020-2022 南京明科网络科技有限公司 版权所有  苏ICP备2021002458号-1
技术支持:飞酷网络