专栏名称: 心声社区
跟随心声,自在沟通!欢迎下载心声移动app,http://xinsheng.huawei.com/cn/m/download
目录
相关文章推荐
51好读  ›  专栏  ›  心声社区

增加万分之9的可靠性背后,他们付出了怎样的努力?

心声社区  · 公众号  ·  · 2017-10-09 19:39

正文

请到「今天看啥」查看全文



心跳慕尼

2017年1月27日凌晨,中国农历大年三十,家家户户团聚迎接新年的时刻,我踏下从德国返京的飞机。


两天前,SSH demo项目顺利通过客户的测试,我打开手机看着蹦出来的各种消息,心绪也被拉回了过去的这120天。我所在的团队就像一支先遣队,并肩打下了德国电信(以下称为DT) R2路由器技术创新项目的第一战,这是我永远难忘的回忆。

机会当前,迅速出击


时间拨回2015年7月,华为收到DT研究R2路由器的邀请,DT希望华为能够提供超高可靠性、超高性能可扩展性的核心路由器,如果成功,将会被应用到DT的未来网络——TeraStream。我们明白,正是因为之前我司成功研制的DT R1路由器在所有厂商中技术排名第一,才有了这次代表着客户对我们的信任和期待的邀请,而抓住这个全球顶尖运营商提供的机会,意味着我们能够更好更快地打开欧洲市场。

但是世界上没有易于攀登的高峰,TeraStream采用极简网络架构,DT R2路由器处于网络核心位置,是网络的流量高地,客户要求容量从2019年到2026年,年均扩容达到50%,这就好像一条山间小溪,要在7年间成为一条大江,谈何容易。而且R2设备承载的数据流量级别很高,一旦故障,影响范围极大,设备的可靠性需要从99.999%达到99.9999%。别看只是小数点后多加了一个“9”,但增加的这万分之九的可靠性就像运动员的百米赛跑成绩一样,一位世界顶级田径选手每0.01秒的提高,背后都是成百上千个日夜的汗水与努力。


与客户交流


事实上,客户在邀请华为加入之前,已经邀请合作伙伴对TeraStream R2路由器的高可靠性等技术做了长期的分析和研究,虽已取得一些成果,但仍有不少技术难题未解决,存在相当大的技术不确定性。我们作为介入较晚的“新人”,一方面从大量学术论文以及开源项目资料分析中,梳理相关的技术脉络和技术源头,一方面拜访了十多个业界知名专家和教授,同时在公司内部组织多个部门专家齐聚讨论,最终得出一个重要结论——这些高可靠性、高性能扩展能力都是当前软件架构不支持的,要解决这个难题,整个软件架构都需要进行跨越式地演进,但客户之前并没有意识这个综合问题的复杂性,一直在单点研究高可靠性问题。带着这样的洞察,我们和客户进行了多次沟通交流,最后提出了“网络软件系统”的软件架构,提供比当前架构方案更高的可靠性和性能扩展能力。

2016年9月,客户认可了华为的设计方案,并且,为了考证“网络软件系统”在可靠性方面的一些关键技术点的可行性,要求华为在2017年的1月针对SSH(Secure Shell,安全外壳,提供安全信息保障和认证功能,以保护网络不受攻击)业务进行原型验证,同时检验华为的工程原型研发能力。也就是说——华为能否在120天内通过SSH业务的高容错测试,是直接影响后续能否参与DT R2项目的重要关键点!

破解“五官”难题


通往顶峰的路都是崎岖的,我们最先需要破的题是一项关键技术挑战:让SSH 5个平面同时活跃运行,对外体现一个TCP(传输控制协议)连接。这有点像春晚经典小品《五官争功》,要让“五官”同时运行还得对外体现为一个和谐的整体,五个器官不但要各自忠于职守,还不能互相打架,得保证整体功能,这对性能和可靠性提出了非常高的双重挑战。

为了解决这个问题,网络操作系统部DU迅速协调专家参与项目紧急开发,组建了精英团队,7级专家熊怡、6级专家郭峰成为我们的带头人,项目组还安排了3个四级技术骨干,带领大家进行设计和开发。为了解决这个难题,我们迅速投入分析,也与公司其它部门的专家进行交流,项目组快速做出一套初步方案,但该方案无法同时满足高可靠性和高性能的双重需求,如何能达成这个目标,项目组经过内部多次研讨又进行外部咨询,都没有找到合适的答案。

架构的压力主要落在了熊怡身上,平时我们都戏称他为“熊老大”。熊老大有个习惯,每天饭后会戴着耳机绕北研环保园快步走,锻炼身体并发散思维。一天,熊老大锻炼归来,把大家叫到一起,有些激动地说:“咱们现在用的设计思路可以满足高可靠性,但是必然会带来大量的数据冗余,就像一辆重型皮卡,不灵活,我们要把这辆重型大卡变成小皮卡,这样就能大大改善多数据副本同步数据带来的实时性能影响。”几个年轻员工听到这,几乎跳起来,我们终于找到了破解难题的钥匙。接下来我们就紧锣密鼓地开始具体技术细节的对齐,确定了这套基于数据业务流本身特征的轻载的多平面数据同步方案,清晰的项目进度表挂在了墙头和每个人的心头。

撸起袖子加油干


说干就干,我们立马着手搭建测试环境。因为这个项目时间点不在预期内,测试物料基本没有现成的,于是我们这八九个人开始各显神通借设备——相识已久的老朋友,刚刚结识的新伙伴,请人家一起吃个饭,饭后“顺便”借一个机器回来,就这样,不到三天,我们就从开发部和其它的技术项目借齐了调测环境所需的设备。

实验室管理人员工作排满,需要一周之后才能搭建环境。为了赶进度,项目成员不管是老员工还是新员工,撸起袖子搬设备、拉网线、拧螺丝。有天为了安装服务器硬盘,我一直在设备间里奋战,结果刚拧完最后一颗螺丝,听到大门哐的一声关闭,我被锁在设备间了。临近下班时间点,设备间里噪声高、温度高,在设备间待一晚上可不妙,我赶快给管理员打电话,结果怎么也打不通(后来管理员抱歉地告诉我,她去其它机房作业了,噪声太大,听不到手机响),又打电话给我们的TSE 刘兵社求救:“兵社啊,我被锁在二楼设备间了,快来救我。”事后,感觉自己有点像成龙功夫片里的大侠,为了夺取宝藏,必须得有一段“赴汤蹈火”的经历。

准备工作就绪,接下来还得撸起袖子加油干干,时间紧迫,大家基本上以公司为家,从七级技术专家到新入职的小兵,为了一个共同的目标,废寝忘食工作。为了给大家补充营养,项目SE负责给大家定“豪华”外卖,到了饭点,SE就下楼当盒饭搬运工,有时买多了,熊老大也帮着一块提上来,南京的项目经理秦川还经常寄南京特产来当加班食品,每完成一个大的阶段点,郭峰就会带着大家下个馆子。在这样无数次大大小小的聚餐中,我们彼此间的信任和配合越来越强,大家也觉得自己不单单是在完成一项任务,更是为了共同的目标和事业。


每个人都是“总”负责


方向确定了,项目迅速推进,经过两个月的设计和开发,进入到最为挑战的联调阶段,秦川组织大家分析联调计划,划出项目作战地图上,标记了任务、完成时间以及责任人,大家都紧张地投入到战斗中。

每个项目成员都把自己当做将军,无论新老员工都积极提出工作思路、问题解决办法。在开发过程中出现问题快速响应,小问题自己做主,大问题项目组讨论修改,每一个人的最终目标都是保证这个项目测试成功,不仅对自己负责的模块质量负责,发现问题还会帮助别人改代码,为了争分夺秒,一旦发现问题,就是自己的问题。

有时候,项目成员又从将军转变为士兵——绝不吝惜自己的能量,哪里需要就补充到哪里,毫不犹豫。比如我们的老员工赵然晓,是协议栈子系统的架构师,参与本项目的同时,还要兼顾主线版本的很多工作,每天到得最早,奋战到最晚,但他总能快速地处理问题,高质量交付代码。老员工们的敬业精神和专业素养激励着整个项目组,新员工在面临业务不熟练,掉到“坑”里时也就能迅速爬起来。

有了这种将军与士兵并行的“总负责”意识的保障,项目得以快速推进。这120天,我们把一天当作两天来用,成员之间互相都被彼此的专业、敬业的职业素养所感染,无论什么时候,碰到了技术难题,总会有兄弟来帮你一起解决,熊老大和峰哥(郭峰)也一直与项目组坚守在一起,及时和大家分析问题和讨论方案。虽然工作强度比平时要大,但是那种充满干劲、共克难关的激情却异常高涨。


兄弟同心,其利断金


项目开发期间,我们与DT客户Rainer S(网络架构师)进行了一次技术交流,和客户切磋我们的方案、规格及测试例,客户从技术角度上同意我们的方案,但还是坚持严谨的态度,在既有测试设计上增加了多个故障场景的测试。

2017年1月22日凌晨2点,中国农历腊月二十五,我们搭上飞往德国慕尼黑的航班。当地时间22日早上下了飞机,没有来得及倒时差,紧急进行测试环境调试,一直干到第二天凌晨4点。困的时候反复倾听微信中孩子的语音,“爸爸,加油哦,要赶回来过春节。”为了家人的期盼,为了奋战4个月的兄弟姐妹们艰辛付出,在接下来的两天中,我们进行了多次测试模拟和演练,以保证测试万无一失。

1月25日,中国农历腊月二十八,慕尼黑欧研IP实验室迎来了最终的考验,这对我们来讲就像一次未知的“百米跨栏”测试:首先是5平面的多点故障保护能力,客户到设备间亲自进行各种多点故障操作,除了起初说的在一个故障时发生时不能中断服务,客户还加了“2个内连通道、3个外连通道同时故障”、“双节点同时下电”等堪称严苛的考验。听到这些发散的测试,我心里有点窃喜,因为我们在国内也进行过测试,但真正看到客户测试时我也抑制不住地紧张,万一出点什么意外,项目就game over了。

此时国内,家里人也在紧张地和我们同步结果,“单故障发生,服务未中断”、“双节点同时下电,等待测试结果中……服务未中断!”最终结果表明控制面做到non-stop。再到网格软件可靠性技术:各网络独立故障保护,故障域隔离。为了确信软件的能力,客户进行了不少发散测试和突击测试,测试都顺利通过。隔着手机屏幕和万水千山,我都能想象到家里的兄弟们此时的欢呼。

最终客户对这次测试及交流评价很高,认为我们展现出了大量高难度的架构建设和原型开发能力,高质量地证明了R2软件的可靠性。


新征程,我们来了


完成和客户的测试后,我率先给国内项目组发出了微信红包,紧张的心情一下子释放了,接着就是狂欢般的红包雨。下飞机时已是27日,除夕夜,首都机场处处洋溢着新年的喜气,第一条蹦出来的信息就是90后小彬:“作为项目组最年轻的新人,和大家度过的这120天虽然非常辛苦,但是我学到的比过去一年还多,下次有这样的‘苦’项目,我还要来,还有感谢东哥发的大红包!”随后,一条条消息不停地从屏幕中弹出,这些应该是我收到的最好的新年祝福了。

感谢一起奋战4个月的兄弟姐妹,感谢我们这个紧密团结在一起的小小先遣队,SSH测试成功只是我们项目的一小步,新的征程,我们来了!



本文转自《华为人》,转载请注明作者及出处。


心声社区是华为的罗马广场

长按二维码关注心声微信公众号






请到「今天看啥」查看全文