专栏名称: 伯乐在线
关注职业资讯;学习各类职业感悟、心得和经验分享,扩大职业视野;体会求职、工作和创业的历程 - 就在JobBole.com 伯乐在线
目录
相关文章推荐
51好读  ›  专栏  ›  伯乐在线

系统管理员的 18 个基本准则

伯乐在线  · 公众号  · 程序员  · 2017-08-26 17:30

正文

(点击 上方公众号 ,可快速关注)


编译:伯乐在线 - Venn_宇

如有好文章 投稿,请点击 → 这里了解详情


靠规则而活


不是仅仅只要知道怎么建立维护服务器和理解系统命令是怎么工作的就可以让你成为一个好的系统管理员——甚至也也不是知道当系统宕掉时怎么去修复,怎么去监控系能,怎么去管理备份或者怎么可以写出漂亮的脚本。而是除此之外还要为自己制定一套能让系统良好运行以及让你用户高兴的规则。


可能其中很多你已经听过无数次,也可能有些是你遇到问题时吸取的经验教训。这些规则在过去几十年的系统管理中都已经证明了它们的价值并且能够帮助我们在脑子发热时冷静下来。


禁止做任何不能回滚的操作



除了一些最简单的修改,你应该备有回滚方案。当你进行改动时想好了回滚方案吗?有很多办法可以在修改的途径中留下技术上的“面包屑”,这能够让你随时回到你开始的原点。备份你需要编辑的文件,可能是你记不住的一些复杂的配置文件。记录下你遇到的问题。在进行生产环境之前先在测试环境下测试,在你继续之前确保所有的修改都是合理的。


提前计划好需要改动的地方,最好能够采取同行评审的方式。另外一双眼睛可能可以看到你没有考虑到的问题。


避免在周五做任何改动



不要在你将要不在的几天之前做任何修改。确保在不需要干预的情况下这些修改也可以在系统上正常运行。


弄清楚根本原因



去挖掘你所碰到问题的根本原因。当怀疑的时候,用“五个为什么”原则。我的服务器宕了,为什么?是因为内存不够。为什么不够?因为其中一个进程“疯了”。为什么“疯了”?因为它进入到循环中。为什么进入?因为配置文件中有错误。为什么有错误?因为我在周五晚上离开之前修改了文件,但是忘了测试确保所有一切都可以正常工作。


实践灾备方案


实践灾备方案在必要的时候能够顺手使用。如果你不实践,有两种可能会发生。第一,你没有信心你的方案是否有用,第二,你可能会不确定你所要采取的措施。比如说,你需要迁移数据库到一个远程站点。你是否知道你要运行的命令?准备好数据备份了吗?还是需要去创建备份?你是否知道迁移文件需要多久?你是否会准备好远程启动数据库?你是否有一套测试来检验其能够很好地运行?


不要去依赖没有完整测试过的脚本


这很容易犯错的。即使你已经写了几十年的脚本也要去测试,特别是可能别人在某天会运行这些脚本。带参数测试和不带参数测试。模拟其他人可能会犯的错误。总之,必须要测试脚本。


三次以上的重复和复杂的操作,必须自动化



在别名、函数和脚本中使用你最熟练的命令并且赋予它们有意义的命名。将那些复杂的过程写进到脚本中,你就无需每次都要去想那些必要的步骤和复杂的命令。这样你会在费时费力的工作中节省很多的时间和精力,并且在需要其他人为你工作时,让你有更多的轻松时间。


伯乐在线推荐阅读: 《超过 90 秒的任务不自动化,你好意思说自己是黑客?》


为你的工作建立文档



用文档记录下你的日常工作。你做的事里面有哪些对别人来说不好理解?可能你要跑个脚本在日志文件中查找磁盘吃紧或者数据中心湿度太高的警告。


往脚本中添加注释。你可能会觉得你用的那些命令很显而易见,但是当你隔了一两年没用再回去用的时候就不会那么显而易见了。不要为了简洁而牺牲了可读性。别人可能会要读你的代码。完整地写下你所做的一切,别人能够在你决定跳槽时候很好地接手你的工作。


重视你犯的错误


用你自己的方式去理解错误是避免再犯的唯一方法。重视你所做错的并且注意那些多次犯错的类型


可能是你忘了修改默认密码从而密码过期导致启动的服务宕了;可能你没有去验证备份是否可用;也可能是当其他人离开公司时你忘了封锁他们的账号。不管什么问题,需要注意记录你的疏忽并且找到一种可靠的方式来提醒自己容易忘记的事。







请到「今天看啥」查看全文