专栏名称: 运维帮
互联网技术分享平台,分享的力量。帮主一直坚信技术可以改变世界,从毕业到现在干了15年运维,有许多话要和你说。
目录
相关文章推荐
InfoQ架构头条  ·  DeepSeek爆降AI成本,但算力资源可能 ... ·  3 天前  
51好读  ›  专栏  ›  运维帮

寻找运维界柯南,光凭这些故障现象,你能一眼看穿真相吗?

运维帮  · 公众号  · 运维  · 2020-04-01 18:00

正文

作为运维人,工作中总会遇到各种各样的故障需要处理。而每一次运维排障都像柯南破案,需要透过表象层层抽丝剥茧,才能一步步接近问题根源。


我们从保险案例排障中挑选了几个难度较高的分享给大家,你的工作中遇到过类似情况吗?故障原因是否与我们遇到的一样呢?




01

某保险一次大型营销活动中,出现中间件宕机。管理人员尝试重启进行恢复,但中间件重启后再次宕机。运维人员排查发现,中间件本身一切正常。经过几个轮回的排查,发现最终原因竟然是:



点击下方空白处获得答案

网络慢导致大量用户重复提交



02

保险公司某系统平时一切运行正常,但与某大型支付平台合作进行营销活动时,却发现从合作平台端发出的部分用户请求无响应,数据中心反馈没有收到相关请求。你觉得是哪个环节出了问题呢?



点击下方空白处获得答案

安全设备认为发生攻击拦截了部分请求



03

某公司的支付系统过去一直都很正常,某日大约有半天时间,交易成功率明显降低,经对问题交易类型进行分类,逐步排查后,发现是因为某地区过来的所有支付请求都失败了。这是什么原因导致的呢?



点击下方空白处获得答案

运营商广告注入导致 请求完整性被破坏


04

某日上午,某保险公司核心服务器出现宕机,经排查发现是网厅触发核心系统高并发访问所致。应用部通过日志和某APM工具看到,从应用服务器发出一笔请求,经F5,到核心服务器端接受的请求变成了2-5笔。这些多出来的请求是从哪里发出的?







请到「今天看啥」查看全文