知乎上看到一个问题“我朋友是运维,他说运维一天24小时必须在线,不能请假,周六周日有时还加班。运维这么恐怖吗?” 以下为各位大牛的回答:
来自知乎的好友”Harry Zhu“的回答:
微软的解决方案:
1)在
西八区(西雅图)
部署一个团队,解决全世界各个项目在各个IDC的的各种问题,下班点儿一到,人就都消失了;
2)在
UTC时区(英国或者爱尔兰)
部署一个团队,解决全世界各个项目在各个IDC的各种问题,下班点儿一到,人就都消失了;
3)在
东八区(上海)
部署一个团队,解决全世界各个项目在各个IDC的的各种问题,下班点儿一到,人就都消失了;
你们公司:
1)半夜三点经理K完歌给你发条消息,看看服务有没有问题;
2)你睡着了没回,又收到消息:
工作态度不端正
,要学会做事先做人;
3)你还没有看到,电话来了,要开除你;
4)你赶紧爬起来,检查了一下,没事呀?回复一切正常。经理睡着了……
微软的 7x24 ,是三个时区的三个团队的8+8+8,一个时区上八小时,下班了,另外一个时区接上八小时,又下班了,第三个时区又接上八小时了。
链接:https://www.zhihu.com/question/327993027/answer/3034748995
来自知乎的好友”李明阳“的回答:
7x24是运维这个职业的要求,小公司能有什么关键业务,用不上这个的。
大公司会有很大的运维团队,大家排班
,所以单个人的工作量不会很大的。
我们公司的运维团队是全球的,大家只需要在自己的时区保证早八晚五即可。
唯一的缺点就是有
串休
,大约每个月会有两周的周末有一天上班,串休到下周的第一个工作日。
为了方便大家交接,运维系统都非常完善,基本上就在系统里操作就行了,都不用直接联系。
链接:https://www.zhihu.com/question/327993027/answer/3035561740
你朋友应该说的是7*24 oncall,这个是有要求的。
但是不能算恐怖。
为啥?
-
有主备 backup 运维,可以相互顶下
-
有值班制度,一个月有一个星期不用值班
-
服务 SLA 要求,业务容灾能力有保障(挂了几个节点都不算啥事)
-
团队文化,做更多“计划内的事”,不推荐一直做“救火英雄”
以我来说,下班后和周末还是有时间带娃。
需要上线的时间就两个场景:
但按一个月来说,不会超过3小时。
链接:https://www.zhihu.com/question/327993027/answer/3046738654
来自知乎的好友”大海的欣“的回答:
运维确实是一个24小时都在线
,确实需要随时处理线上故障的岗位。
对于公司处于初期,资源有限的情况下,对运维不够重视或者投入不足的时候,
是会出现这种情况。
即使出现这种情况下,说明运维工作还有很大的提升的空间。
改善这种情况主要从两方面入手。
首先是技术方面。
运维工作有很多开源成熟的方法论
,可以提升运维的工作效率
。同时成熟的开源技术可以解决一般公司80%的技术层面问题。
比如说网站访问量过高的问题,可以用高可用技术解决。数据回源造成数据库比例高,通过提高hit解决。前后端分离解决动静分离。中台解决API治理。等等问题,从技术入手,通过社区调研,大部分问题可以得到缓解甚至解决。
然而面对管理时,可能就不那么简单了,
虽然SLA中有关于人员方面的要求和配备
。还是需要具体问题具体分析,不能搞一刀切。
比如
值班
问题,
至少是standby状态
,避免出现紧急情况没人响应。升级机制,避免问题被卡住,因为没有上升渠道,导致故障不能解决。备忘录机制的完善,避免出现问题无人问津的现象。
对于运维来说,无论是一个人,还是单独的小组或者部门,前期投入比较大,只要规则和模式跑通了,可以自行运转。慢慢的做好后期完善和梳理工作,应该不太需要太多的精力。
链接:https://www.zhihu.com/question/327993027/answer/3085899257
来自知乎好友”灰橙“的回答:
我就是运维,不需要。不过我小公司,就100多台阿里云服务器,现在云服务器都是高可用的,做好各种自动化脚本和监控,极少有事,周末也正常休息。
有什么突发事件有很多通知渠道,首先接入了短信通知,然后接入了钉钉报警,我没看到经理也会打电话通知我,如果是过了晚上12点处理事情,视情况第二天可以迟几个小时上班或者调休半天,不过一年也没几次,一般出情况都是一些项目组做市场推广没通知运维,导致负载超标,反映之后规范就行了。
链接:https://www.zhihu.com/question/327993027/answer/3036778395
来自知乎好友”普通人罢了“的回答:
上班
:白天正常上班,部分公司每周有固定时间(常见于晚上,少数在晚上12点之后)做变更。
值班
:一般每天都有值班人员,在非工作时间用于处理紧急事件!无论是值班还是非值班人员,都需要手机处于24小时开机状态!
-
周一到周五,朝九晚六正常上班,周末双休,偶尔加班。
-
-
每天都有值班人员,当出现严重告警时,监控中心会电话通知当天值班人员处理。当值班人员不方便,或者处理不了,会让其它同事协助处理下。夜里处理问题后,到达指定时间后,第二天可以休息半天或者一天。
-
要求每个人家里的电脑能上网,保证能处理紧急问题。要求手机24小时处于待机状态,能接到电话。
链接:https://www.zhihu.com/question/327993027/answer/709365768
相关内容转载自知乎网友评论,不代表本号观点。
多项首批评估结果揭晓!2023年12月15日,中国信通院 DevOps、AIOps 系列标准最新评估结果重磅发布!
本批次相关标准共完成11类评估、1类评审,共计24家企业45个项目/模块。其中,
银河证券股份有限公司参评的
“GLEBA 定价引擎项目”
、
“ESB 接口管理平台项目”
和
“数字化员工工作平台项目”
顺利通过信通院《
研发运营一体化( DevOps )能力成熟度模型》
持续交付标准 3 级评估,
代表银河证券的相关能力达到国内领先水平
。
截至目前,共有 104 家各行业名企 336 个项目参与 DevOps 能力成熟度模型评估,包括六大国有银行、股份制银行、城商行、农商行、交易所、证券、基金、保险、信托、通信和互联网等行业的众多头部企业。
“高效运维”公众号诚邀广大技术人员投稿
投稿邮箱:[email protected],或添加联系人微信:greatops1118。