专栏名称: Linux就该这么学
专注于Linux运维技术培训,让您学习的每节课都有所收获,订阅本号后可每天获得最新Linux运维行业资讯、最实用的Linux免费教程以及独家Linux考证资料,三十多万技术小伙伴的选择,Linux就该这么学!
目录
相关文章推荐
Linux就该这么学  ·  成为运维人后,也没人告诉我这些奇葩故障不按教 ... ·  2 天前  
Linux就该这么学  ·  全新班型,更安心,更省钱,4999 ... ·  3 天前  
Linux就该这么学  ·  为什么 GNOME OS 是 Linux ... ·  4 天前  
Linux就该这么学  ·  因 Bug 被用户薅走 28 ... ·  5 天前  
Linux就该这么学  ·  仅迷你机大小!NVIDIA ... ·  1 周前  
51好读  ›  专栏  ›  Linux就该这么学

成为运维人后,也没人告诉我这些奇葩故障不按教科书来啊?

Linux就该这么学  · 公众号  · linux  · 2025-01-18 08:02

主要观点总结

本文主要讲述了运维人员在工作中可能遇到的各种意外事件,包括删除表、SQL错误、数据不一致、系统宕机、财务系统错误等。这些事件对用户体验、公司声誉和收入可能产生重大影响,因此运维人员需要具备良好的定位和解决问题的能力,以及日常预防性维护和系统优化的意识。

关键观点总结

关键观点1: 运维工作的挑战和重要性

运维人员需要快速定位和解决问题,日常注重预防性维护和系统优化,因为故障可能对用户体验、公司声誉和收入产生重大影响。

关键观点2: 实际工作中的意外事件案例

文章分享了多个实际工作中的意外事件案例,包括数据库表删除、SQL错误、数据不一致、系统宕机、财务系统错误等,这些案例提醒运维人员需要细心、严谨,以避免类似问题的发生。

关键观点3: 从案例中吸取教训

文章呼吁读者从这些案例中吸取教训,保持严谨的态度,注重质量控制和审核机制,以避免类似问题的再次发生。


正文

来源:www.zhihu.com/question/349719609/

作为一名运维,难免会遇到各种意想不到的事件。每一次故障都可能对用户体验、公司声誉甚至收入产生重大影响。因此,运维人员不仅需要具备快速定位和解决问题的能力,还需要在日常工作中注重预防性维护和系统优化。

以下内容来自网络搜集,仅供参考。

1、知乎好友:yages

17年在某大厂做某省电信的项目,晚上升级的时候需要删一张临时表,删错了把操作人员的信息表删了,然后 MySQL 没有回滚操作,数据库也没做备份处理。连夜跟经理讨论方案,建一个最高权限账号,让所有地市操作员重新申请账号。

还好删除的不是大表,如果是设备或客户表啥的,估计整个省所有光猫路由器需要重新注册连到系统,造成的影响不可估量 。此事过后,所有省份做了数据库每天备份的操作。

2、知乎好友:唐唐超人

刚毕业的时候,写删除的 SQL 语句忘记写 WHERE了,当用户运行这个功能的时候,相关的所有数据都会被删除。

当时是个小公司,没测试人员,程序全靠程序猿自己测,这个功能虽然操作的是关键业务数据,但功能本身属于不太常用的,所以开发时期我也没有太注意。

去客户那上线试运行,客户是县城的电力公司,这个功能对电力公司的抄表数据进行清理,当时还是人工挨家挨户抄表,一个县城几万户电表,这个功能运行后,几万户正常的抄表数据全被删除掉了。。。

不可能叫客户重新去抄表,也不敢给公司老板说,我的部门经理连夜赶过来,逐个分析 SQL Sever 的 log 记录,花了两天一夜终于把数据全恢复了。

客户还不知道这个事,看我们这么辛苦,还给公司表扬了我们。

3、知乎好友:Amireux

19年某省界站项目上线演示给省top2看的时候,我部署错了包导致大屏数据不一致,公司领导脸直接绿了,好在最后圆回来了,状态一直持续到演示结束都没回滚 hhh

4、知乎好友:翊毛毛

在我的职业生涯中,曾遇到过一些令人震惊的事情,在此仅做吐槽,还望各位见谅。

案例一、发生在某前厂的一个做某类大数据的部门。当时我担任后端开发工作,顺便负责编写统计 SQL。有一次,我意外发现负责 Hadoop 的同事在擅自修改数据(原因是某服务导致t-1数据没有被采集回来),这让我大为震惊。我私下与他沟通,强调不能这么做,必须找出问题的根源所在。虽然采集数据的服务不归我管,但经过排查,确定是由 Kafka 造成的问题。然而,这位同事就是不改,依旧我行我素。后来,我又多次发现他偷改数据。在我离职后,该服务终于挂掉,宕机长达一个月之久。主架构师都被请来了,却也没能修复好这个问题。至于后续具体是如何处理的,我也没有去打听。

案例二、则是在涉及金钱的系统中听到的小道消息。据说某前厂的某部门,有一个程序员把金钱的尾数搞错了。这个看似小小的失误,却导致了几百万的损失。在涉及金钱的系统中,任何一个小错误都可能引发巨大的后果。程序员本应保持高度的严谨和专业精神,对每一行代码都要仔细审查,确保系统的准确性和稳定性。但这个错误的发生,让人不禁反思在开发过程中的质量控制和审核机制是否足够严格。希望大家都能从这些案例中吸取教训,在工作中保持严谨的态度,避免类似的问题再次发生。

5、知乎好友:fancyrabbit

交换机的可以强答么?不过不算奇葩,只能算惨烈。

1、CPU 占用率莫名其妙巨高,重启后能好一点,后和厂家折腾许久是奇偶校验故障,原因可能是,宇宙射线……呃……换一台

2、交换机双电,坏了一个,过保了,赶上过年。年后第一时间采购了一个新的,拿着新的站到交换机前准备开始更换的时候,另一个挂了。

6、知乎好友:小石头

游戏公司,让所有用户回档一天,幸好是个小公司。

6、知乎好友:adofei

两个服务器的网卡物理地址一样。。。

END

官方站点:www.linuxprobe.com

Linux命令大全:www.linuxcool.com

刘遄老师QQ:5604215

Linux技术交流群:2636170

(新群,火热加群中……)

想要学习Linux系统的读者可以点击"阅读原文"按钮来了解书籍《Linux就该这么学》,同时也非常适合专业的运维人员阅读,成为辅助您工作的高价值工具书!