双11的物流高峰已经结束,在兰博看来,双11既是节日,也是极限挑战。
11月11日零点刚过,佛山芦苞镇的黄先生下单了提前放入购物车的美的榨汁机,6分51秒,商品完成打包从仓库发出,13分19秒由菜鸟联盟成员EMS送达。
在很多人看来,这笔订单就像一场排演好的戏,但菜鸟“策划”这场戏靠的并不是编剧,而是一群一度紧张得要命的技术宅。
紧张来自他们面前的数据大屏,双11零点刚过十几分钟,他们发现了一个大问题:交易订单量竟比物流单量多出5000万单。
兰博回忆说,面对这个让人瞠目的差距,他猜测有两个可能:一是大屏数据有问题,二是解耦系统有问题。
所谓解耦,类似春运时在火车站广场临时设置围栏,让乘车人员在广场候乘,然后按照车站容量和发送旅客能力,匀速放乘客进入车站,避免站内拥挤,维持候车秩序。
菜鸟的架构师李夏驰(花名:杜琨)告诉记者,此前,菜鸟的物流系统直接对接电商交易系统,消费者下单,立即就生成物流订单。面对双11的流量洪峰,系统无法承受,只能依靠增加服务器来承接订单。
在菜鸟技术团队负责人李强(花名:在宽)看来,物流是鼠标+水泥的行业,资源是固定的,不可能一下子增加货车数量,找那么多快递员。所以订单即时生成,只是在系统内造成队列堆积和延时,白白浪费IT资源,成本很高。
为了应对双11的流量洪峰,今年菜鸟首度尝试了物流订单与电商交易解耦。
首先,菜鸟根据系统能力拉取订单,再按快递企业运力下发。杜琨表示,解耦之后,未来无论电商产生多大的流量,物流系统都可以稳如泰山。
但是,从一股脑被动接受电商订单,到根据物流能力和优先级别主动拉取,“最怕的就是拉单出问题,发生丢单。”兰博说。
如果真的丢单5000万,双11的物流可能就直接崩溃了。
技术团队最焦头烂额的时候,菜鸟 CTO 王文彬(花名:菲青)也来到了作战室,指挥排查问题,作战室所有人立即分头联系相关负责人。
最终,大家发现天猫与菜鸟统计口径有差异:天猫数据包括子订单,而菜鸟只统计主订单,5000万的丢单只是虚惊一场。
虚惊过后也没有轻松,兰博说,对电商而言,零点是决定生死的一刻,只要过了前10分钟,电商的技术团队就已经可以庆功了,但菜鸟技术团队必须跟踪物流全程的问题。
菜鸟双11的备战早就开始。7月,菜鸟的很多技术人员就进入了无休状态,通过一系列的数据计算、消费者画像、预售计划等方式,帮助商家做精准的提前入库方案。
在最后准备期,菜鸟需要每周做两遍全链路的压力测试,一周通宵两次,兰博甚至累到腿软爬不上楼。兰博说,就在双11之前两天,当他还在抢修系统的时候,“整个人都有窒息的感觉”。
双11前夜开始,菜鸟技术团队就在大楼里分布式作战,300值班人员中有100人在5楼作战室,所有技术问题,必须5分钟发现,10分钟定位,30分钟止血。
在最紧张的时刻,没人有功夫去下单抢购商品。兰博无奈苦笑:“那天整个人都紧绷着,放购物车的都没时间下单,群里发了几万的红包,也没时间抢。”