本文主要讲述了运维人员在工作中可能遇到的各种意外事件,包括删除表、SQL错误、数据不一致、系统宕机、财务系统错误等。这些事件对用户体验、公司声誉和收入可能产生重大影响,因此运维人员需要具备良好的定位和解决问题的能力,以及日常预防性维护和系统优化的意识。
运维人员需要快速定位和解决问题,日常注重预防性维护和系统优化,因为故障可能对用户体验、公司声誉和收入产生重大影响。
文章分享了多个实际工作中的意外事件案例,包括数据库表删除、SQL错误、数据不一致、系统宕机、财务系统错误等,这些案例提醒运维人员需要细心、严谨,以避免类似问题的发生。
文章呼吁读者从这些案例中吸取教训,保持严谨的态度,注重质量控制和审核机制,以避免类似问题的再次发生。
来源:www.zhihu.com/question/349719609/
作为一名运维,难免会遇到各种意想不到的事件。每一次故障都可能对用户体验、公司声誉甚至收入产生重大影响。因此,运维人员不仅需要具备快速定位和解决问题的能力,还需要在日常工作中注重预防性维护和系统优化。
以下内容来自网络搜集,仅供参考。
17年在某大厂做某省电信的项目,晚上升级的时候需要删一张临时表,删错了把操作人员的信息表删了,然后 MySQL 没有回滚操作,数据库也没做备份处理。连夜跟经理讨论方案,建一个最高权限账号,让所有地市操作员重新申请账号。
还好删除的不是大表,如果是设备或客户表啥的,估计整个省所有光猫路由器需要重新注册连到系统,造成的影响不可估量 。此事过后,所有省份做了数据库每天备份的操作。
刚毕业的时候,写删除的 SQL 语句忘记写 WHERE了,当用户运行这个功能的时候,相关的所有数据都会被删除。
当时是个小公司,没测试人员,程序全靠程序猿自己测,这个功能虽然操作的是关键业务数据,但功能本身属于不太常用的,所以开发时期我也没有太注意。
去客户那上线试运行,客户是县城的电力公司,这个功能对电力公司的抄表数据进行清理,当时还是人工挨家挨户抄表,一个县城几万户电表,这个功能运行后,几万户正常的抄表数据全被删除掉了。。。
不可能叫客户重新去抄表,也不敢给公司老板说,我的部门经理连夜赶过来,逐个分析 SQL Sever 的 log 记录,花了两天一夜终于把数据全恢复了。
客户还不知道这个事,看我们这么辛苦,还给公司表扬了我们。
19年某省界站项目上线演示给省top2看的时候,我部署错了包导致大屏数据不一致,公司领导脸直接绿了,好在最后圆回来了,状态一直持续到演示结束都没回滚 hhh
在我的职业生涯中,曾遇到过一些令人震惊的事情,在此仅做吐槽,还望各位见谅。
案例一、发生在某前厂的一个做某类大数据的部门。当时我担任后端开发工作,顺便负责编写统计 SQL。有一次,我意外发现负责 Hadoop 的同事在擅自修改数据(原因是某服务导致t-1数据没有被采集回来),这让我大为震惊。我私下与他沟通,强调不能这么做,必须找出问题的根源所在。虽然采集数据的服务不归我管,但经过排查,确定是由 Kafka 造成的问题。然而,这位同事就是不改,依旧我行我素。后来,我又多次发现他偷改数据。在我离职后,该服务终于挂掉,宕机长达一个月之久。主架构师都被请来了,却也没能修复好这个问题。至于后续具体是如何处理的,我也没有去打听。
案例二、则是在涉及金钱的系统中听到的小道消息。据说某前厂的某部门,有一个程序员把金钱的尾数搞错了。这个看似小小的失误,却导致了几百万的损失。在涉及金钱的系统中,任何一个小错误都可能引发巨大的后果。程序员本应保持高度的严谨和专业精神,对每一行代码都要仔细审查,确保系统的准确性和稳定性。但这个错误的发生,让人不禁反思在开发过程中的质量控制和审核机制是否足够严格。希望大家都能从这些案例中吸取教训,在工作中保持严谨的态度,避免类似的问题再次发生。
交换机的可以强答么?不过不算奇葩,只能算惨烈。
1、CPU 占用率莫名其妙巨高,重启后能好一点,后和厂家折腾许久是奇偶校验故障,原因可能是,宇宙射线……呃……换一台
2、交换机双电,坏了一个,过保了,赶上过年。年后第一时间采购了一个新的,拿着新的站到交换机前准备开始更换的时候,另一个挂了。
官方站点:www.linuxprobe.com
Linux命令大全:www.linuxcool.com
刘遄老师QQ:5604215
Linux技术交流群:2636170
(新群,火热加群中……)
想要学习Linux系统的读者可以点击"阅读原文"按钮来了解书籍《Linux就该这么学》,同时也非常适合专业的运维人员阅读,成为辅助您工作的高价值工具书!