运维行业 IT 工程师分类
1、办公网MIS工程师
2、机房IDC支持工程师
3、系统工程师
4、应用运维工作师
5、网络工程师
6、安全工程师
7、DB工程师
8、大数据工程师
9、SRE工程师
10、运维开发工程师
11、虚拟化工程师(KVM、Docker、k8s、Openstack等)
12、机房弱电工程师等等
运维工程师职责
运维工程师的职责,就是领导安排你的任务,能够按时完成,不能给领导找麻烦,并且领导还会要求你负责的服务要保证4个9或者5个9,那么这里服务的提供商指的是谁?其实就是我们运维同学、没有其他人,就是在我们提供的服务与用户(RD、QA、或者外部用户等)之间定义的一种双方认可的协定,一旦协定达成、目标确认后直接挂勾你的KPI,当然有些工种,不太适合使用SLA来定义,但大部分运维工作都适用SLA,为了完成KPI,你就会主动的提升服务可用性、稳定性、为部门减少成本、提高工作效率,今天简单介绍下运维工程师的行为准则。
1年 = 365天 = 8760小时
99.9 = 8760 * 0.1% = 8.76小时
99.99 = 8760 * 0.01% = 52.6分钟
99.999 = 8760 * 0.001% = 5.26分钟
这里说明一下,一定不要再没有数据支撑的情况下,向领导承诺4个9或者5个9,切忌!!要用数据说话,说过就要做到。
稳定性
1、敬畏之心
(1)操作之前能备份的,一定要备份,不要省略,往往它能快速救你一命;
(2)线上操作必须得到授权,并在测试环境验证过,或者有多数人共同决策后操作,别自做主张;
(3)能用工具操作的事情,别手动上去敲所谓高大上的命令,能提前写成脚本操作的、不要手动操作;
(4)对线上有影响的操作,需要评估流量低峰时间段、错开流量高峰(前提得到授权、脚本准备、回退步骤、验证脚本等等);
(5)未加基础报警前,请不要上线,一定要报警先用业务上线;
(6)做为运维工程师对报警系统的敬畏之心,早上的例行巡检,对历史故障归纳总结等;
线上事故基本上都源于以上几条,大部分故障都源于未经授权、未在测试环境验证、RD所谓的免测、运维人员的自信、报警无人关注等导致人为事故;
2、故障
(1)故障发生,优先恢复业务,而不是在哪里定位问题;
(2)对棘手故障需要有故障升级通道,由 Leader 协调一切可利用资源;
(3)运维工程师按流程操作导致的故障,不记录该员工KPI考核中,记录在Leader KPI考核中,推进流程整改;
(4)没有按流程操作、导致线上重大故障的,记录在该工程师与 Leader KPI 考核中,共同对故障负责;
故障不可怕、怕相同故障多次发生,不以发生故障为耻、而为发生相同故障为耻;
3、故障casestudy
(1)故障发生渠道、发现时间点、参与人、故障定位过程、解决过程、故障根因分析,是否需要形成应急预案;
(2)故障是临时解决,还是永久解决、现有环境中是否有类似隐患;
(3)临时解决的需要给出整改计划,整改计划中需要设置跟进人员(PMO)、验收人员(Leader);
很多公司的casestudy都流于形式,并没有切实执行落地,所以需要增加 Leader 验收,下次再有类似故障,Leader全责。
4、变更
(1)配置代码必须遵循蓝绿发布原则,测试环境确认无问题后,再上线;
(2)备份的重要性、回滚机制的建立;
(3)操作步骤命令或者工具化、而不是模棱两可的文字描述;
(4)QA 自动化测试用例、变更失败后的回滚机制等;
故障的发生70%以上是变更造成的,对变更要有敬畏之心。
5、轮值
(1)运维人员在轮值期间、一定要保证7*24小时待命和报警的随时响应,电脑和网络随时可用,缺一不可;
(2)值班期间做好故障处理、日常工作进度记录,故障用于后续分析,工作进度用于把未处理完成的事务交接给下一周期值班人跟进;
(3)当值过程中出现棘手故障,不能简单交接下一值班人,需要根据实际情况确认是否有当值人员处理完后,再下班;
(4)需要把轮值期间发现的故障问题,定期组织轮值人员进行学习。
没有参与过轮值的运维工程师,是另人羡慕的。
6、业务交接
(1)没有完整交接文档的业务不要接手,接手之后没有完全弄明白前,不要说交接完成;
(2)业务接手后,需要根据实际情况进行故障演练,确保有可能的故障点;
(3)尤其是离职人员的业务交接,更需要认真负责、签字,一旦签字,你要承担起所有责任,KPI 中需要有明确关于业务交接的奖惩措施;
部分公司业务交接基本流于形式,没有认真履行职责。
安全意识
安全是运维工作开展的前提和必要条件,有同行描述这是一种唇亡齿寒的关系,实为贴切。安全上出了问题,造成的影响以及后续的修复工作都将有运维来承担,公司到了一定规模都会将安全和运维划分为两个独立团队,这样做事更专注,也容易做好。
1、切忌安全无小事原则,任何一个安全小事,都有可能造成不可挽回的局面;
2、运维工程师应该主动配合安全部门整改、配合完成各种策略、虽然有的时候感觉这种策略会造成一些不必要的时间,如果站在安全的角度,其实是很有必要的。
效率和成本意识
1、有效率优化意识,琐事不可避免,但要尽可能减少琐事,对重复性、手工性的操作能够工具化的,必须开发一些自动化工具;
2、由手动操作到脚本工具、到平台工具、到产品,这样即能提高效率、降低成本;
3、节约资源也是减少成本的重要体现,虽然决定不了产品营收多少,但可以通过资源整合、弹性伸缩、服务混合部署、架构优化、无流量服务主动下线等手段将有限资源最大化利用,节省基础设施资源成本,同时,通过效率的提升也可以优化人力资源成本。