专栏名称: 高效运维
高效运维公众号由萧田国及朋友们维护,经常发布各种广为传播的优秀原创技术文章,关注运维转型,陪伴您的运维职业生涯,一起愉快滴发展。
目录
相关文章推荐
运维  ·  Kubernetes ... ·  6 天前  
InfoQ架构头条  ·  对 OpenAI 故障的思考|如何让 ... ·  1 周前  
51好读  ›  专栏  ›  高效运维

腾讯QQ日请求12亿的运营平台到底有多diao(三声)?

高效运维  · 公众号  · 运维  · 2017-05-10 07:11

正文

您可识别下方二维码收听昨晚的直播内容,解放您的双眼:


作者简介:

徐汉彬
腾讯 SNG增值产品部高级工程师

QQ会员体系合作线技术团队负责人。曾就职于阿里巴巴、小满科技。QQ会员活动运营平台的初始开发,在五年的时间里,将该平台从日请求百万级升至十亿量级(日请求4-12亿),成为腾讯流量支撑规模最大的Web系统之一,负责该平台的架构设计和研发建设,在Web系统架构方面拥有比较丰富的实践和积累。

前言

作者目前在SNG增值产品部工作,主要负责QQ会员会员特权和AMS系统的相关工作。作者之前有AMS系统相关的文章《日请求从百万到八亿的技术历程》

本文的内容主要分为三个部分:

第一个是业务系统链路的梳理和流量评估;

第二是关于AMS系统高可用架构设计实践;

第三是QQ春节红包当天实践经验和总结;

1、业务系统链路的梳理和流量评估

1.1 什么是运营活动

AMS是一个活动运营平台,什么是活动?

活动就上图体现的四个页面,这些都叫活动。这时候可能有同学说,“楼主,我读书多你不用骗我,这上面东西很简单,这里会不会一点技术含量都没有?”

是的,如果本文的东西只是这上面几个页面的话,肯定是没有什么技术含量。但是如果将他们放到比较大的流量规模下,15万每秒,就会变成具有挑战的问题

1.2 AMS系统介绍

简单介绍一下 AMS,其实是QQ会员的活动运营平台,这个平台的日请求量大概是4到12亿,背后涉及的存储和服务超过了120个,高峰期的请求量是15万每秒。

这个系统也支撑了腾讯公司相关的业务,我们连续两年参加了QQ春节红包的活动。在今年除夕夜晚上,你可能正在跟家里人吃着饭看着电视,而这时候我则在公司值班,一直值班到大年初一的凌晨三四点,所以做这个系统也不那么容易。

1.3 QQ春节红包活动面临的挑战

关于这个活动会面临哪些挑战呢?主要有三个方面的挑战。

  • 第一,流量规模到底有多大?我们怎么预估?流量是10万20万还是多少?怎么预估流量规模,这是个难题。

  • 第二,假设你把流量规模已经预估出来,对于一个比较复杂的系统,里面有存在大量的系统与系统之间的调用,整个会有很复杂的系统架构链,这个架构链哪怕你评估出流量规模,但是要想对架构链进行合适的扩容也是难点,有时候我们会无从下手。

  • 第三,哪怕前面两个问题都解决了,我怎样保证活动的当天不出问题呢?今天的分享就围绕着这三个问题为核心一步一步展开,也跟大家做一个探讨。

1.4 业务系统的架构梳理

第一个问题是关于如何评估流量链路的问题,第一步就需要把我们的系统架构给画出来,我现在画的是简化图,先将用户跟每个子系统的关系,但这是业务层面的,具体到 server 和存储。

上面这个图主要分为两个部分,一部分是请求领取页面,后面是比较复杂的动态系统。画出这个东西是为了下面一步,就是以具体功能的节点,把用户涉及的所有链路一个一个梳理并且画出来。

比如以查询游戏角色的信息相关的东西为链路,用户首先是领到一个红包,点击领取红包到领取页,在页面可能会是点击一个按钮,然后发送请求,请求先到我们的 STGW(也就是反向代理),然后到 WEB server,再到 Cmem,再到 IDIP 以及背后的庞大的链路。

通过这种方式可以把每个功能点进行拆解和梳理,当我们得到这个图以后,如果只扩容 web server,不扩容后面的每个链路每个环节,扩容是不成立的。

1.5 业务功能链路拆解

有一个观点是只要有钱购买足够的机器,可以把对机器的方式对接下来,但是这个观点是不准确的。如果不能把每个架构做充分梳理和扩容的话,涉及到状态有关的服务是无法进行扩容的。

1.6 活动流量规模预估

怎么评估系统在那天的真实流量规模呢?

第一点就是推广量,你的流量怎么来,有些流量是我给 web 上广告,有些是通过 APP 流量数,这里可以得到数量,就是流量来源,然后拿到每个环节的转化率,一百个人看到这个广告,有多少人会点?

假设是20%,每个环节的转化率怎么来?一个是经验,你以前在这边上流量广告的转换率是多少。如果没有各个环节转化率的数据可以通过演习,你的活动当天可能是超大规模的,但是你可以先一部分灰度,把流量先转出来。

一百个用户有二十个人会点击领取页面,领取页面一个页面涉及到了单UV的概念,一个用户到页面可能会发起三四个静态资源请求,同时还会发出三到四个的动态相关资源的请求,这里面就要把产生的行为形成一个倍数,再把评估出来的容量估值为3倍。

以一个例子来展示:假设有一个用户领到的游戏红包是一百个人每秒的,但是这一百人当中只有60人点击进来,点击页面的人又只有30个人是真的会去点领取按钮,就用链路算出了UV值,到这个位置是需要做转换的,因为单UV的总数,可能是四个请求,假设是四个,那应该是120每秒,这120每秒意味着背后所有链路必须都能支撑120每秒,所以整个后面的环节都应该是120每秒。

通过前面的几个从推广曝光的数量,最后推算出预估值的 QBS 压力是多少。根据多年的扩容公式,估值为3倍是比较合理的,我们需要把几个对应的环节180乘以3倍也就是360的扩容。

1.7 AMS系统扩容评估

同样的方式,我们在流量层面也进行了相关扩容方面的探测和预估,但在真实场景中梳理业务需要多少流量呢?

需要9.6万每秒,差不多是10万每秒。连数字都知道了,不就是把每个环节扩容到10万每秒,问题就解决了?听起来是这样,但是大家都知道,理想是美好的,现实往往残酷,真的每个系统都能扩容到10万每秒吗?

我们遇到了一些难题,发现在整个链路中,像 web server,很轻松可以到14万每秒,但是有些地方是没办法的,包含第三方不可控的,假设我跟外部公司有通讯结合,或者跨了部门或跨了BG,有些系统就是难以扩容的,这时候我们在扩容上就遇到了难题。

比如像银行发账或者对账的接口,你说今天搞活动要扩容20倍,这个是不大科学的。我们就会遇到数量评估出来了,扩容却遇到问题,那怎么办呢?

那就是第二个话题,既然预估了数目又没法扩容,就涉及到高可用架构设计实践。

2、AMS高可用架构设计实践

2.1 基于春节红包活动链路的架构改造

怎么从架构层面解决问题,从直观的思路一般是分为三个方面。

  • 第一是异步化
    如果遇到了真的没法扩容的接口或者外公司不可控的,对方也不可能配合你来扩容的接口,只能是异步化,就是我的生产端可以快速生产,但是通过生产的方式使得接口支持10万每秒,但是消费那边就用异步接口让它慢慢消费。

  • 第二是缓存模式
    就是所谓的空间换时间,今年就遇到查这个用户是不是王者荣耀的用户,那边是来不及做好几万每秒的查询支持,那怎么办?说出来比较笨,就是把一两个亿的王者荣耀的名单打到内存缓存里,这样有用户来,我判断就不再走游戏接口,而是查我们的系统。

  • 第三是服务降级
    适应于对你的主逻辑不相影响的模块,比如实时上报,反正这种任务不是重要的,是不是可以放弃呢?或者是逻辑上进行的放弃。没有办法进行10万每秒的链路我们进行了改变,我们进行扩容,有些没法支持又非必要的进行跳过。整个链路从原来的方式拆成两条,上面的链路是可以做到支撑10万每秒,下面是不行的,但是通过这种方式使得链路能够继续往前走。我是从可用性的架构方面来解决有些环节和东西没办法扩容的问题。

2.2 扩容评估的主要要素

接下来就遇到扩容评估的相关要素,这些要素不只是上面几个点,你要细分的话有好几个细的点,但是主要评估的点是链路的 QPS,还有一些存储,包括磁盘大小、内存大小是否足够,以及带宽,带宽问题静态文件和动态的请求都是需要合适计算一下的。

这里面另外一点就是静态资源怎么解决,其实一个用户在进入页面,静态请求量是很大的,如果进入到一个页面,同时拉起好几个图片,它的拉取是很大的,虽然UV是两三万QPS,但是往往要乘以七八个甚至更多的倍数。

所以这种情况下这种流量,哪怕你用的是部署CDN,就是地理式存储,这种对服务都是有压力的,尤其是对带宽,有些带宽可能由于不足而导致请求响应更加缓慢。

那我们怎么解决?解决方案是用离线包的机制,我们会先把静态资源都准备好,当你的手机 QQ 在 WIFI 情况下会主动提前把春节红包要用到的图片给提前拉下来,放到你的内置浏览器。

等到真正参加活动的时候,静态文件几乎都是用你本地的,相当于你根本没有发起网络请求。也有一小部分用户从来没有在 WIFI 情况下触发拉取逻辑,但是这种用户是少数,所以绝大部分都是通过本地拉取的方式。

2.3 高可用架构建设的关键要点

现在每个环节的流量知道怎么做了,也把扩容完成了,但是完成扩容只是理论上没有问题,要想真正保证他们没有问题,还需要关注挺多点,这里面有几个要点。

  • 过载保护
    第一个要点是过载保护,不管流量到了真实的那天究竟有多大,有一个是保证系统不能挂掉,挂掉就是最大的失误,我可以容忍拒绝一部分请求,但是不能容忍系统无法提供服务。

  • 柔性可用
    第二是柔性可用,更多是跟业务侧紧密联系的,我在这个活动有一个逻辑,判断他是新用户,给他一个好一点的奖励包,老用户给普通礼包,这种逻辑在里面就可以做柔性可用,假设这个接口挂了,判断不出了,干脆全部把他当新用户用,这里面要包括业务和产品来做,把出问题的接口兼容起来。

  • 容灾建设
    还有容灾建设,分为两个部分,一部分是业务主干逻辑上的容灾,另一部分是指天灾人祸式的容灾,在部署层面的就是轻重问题,把轻重做隔离。

  • 监控体系 && 数据对账
    最后两点是最容易被忽略的,就是监控体系和数据对账。

2.4 过载保护

首先是过载保护,每个环节层层建立控制开关和流量控制。

  • 推广层
    第一个是推广层,如果系统出问题了,本来是8万每秒的广告就卡掉一半,实在不行就停了,让系统有喘息时间。这个开关往往到了真的没办法的情况下,才是建议用的。

  • 前端层
    第二个流量保护是有意识的将用户请求延长,本来你一点击就请求后台server,点击以后我给它随机等待两秒的时间,或者两分之内不能请求,这种功能对于错峰是很有帮助的,如果不进行用户等待时间,尖峰是很尖的。

  • CGI层
    还有一层是CGI层的保护,当他处理不过来可以过滤一部分请求,第二是可以做流量控制,保护后端接口。

  • 后端服务层
    后端外部第三方的接口QPS就是一千每秒,给两千的话肯定就压跨了,你不如做一个控制。

所以这相当于是层层开关,全部准备就绪,活动当天随时随地开启使用。这一句的结论是部分不可用,至少比彻底不可用强

2.5 轻重分离

关于轻重分离,核心点就像发货请求,也就是核心请求,不希望被任何其他集群所影响到。轻重的对比在具体业务场景里面。

比如查询用户的XX信息,这东西是比较轻的,哪怕查询失败或者有误了,查询页面或者重试一下,对用户是不会造成损失的,这种请求是要用专项资源保证的。

这是粗略的架构图,但是我们的部署是这样的,进行拆开,不会影响到背后发货的流程。

2.6 柔性可用

柔性可用关键是随时随地准备放弃一些非关键的路径,比如说上报或者不重要的操作,当然还包括一些业务层面的。在这方面的实现一般有两个方面的方法。

  • 第一种是设置一个超短耗时时间,比如平时只要五六毫秒就可以完成请求,这时候我设置二十毫秒,哪怕你连接不上或者发包失败,我最多只能你20毫秒,这是我们常用的方式,对于非关键路径不挂是好事,继续为我们提供服务,挂掉了就忽略它。

  • 第二种做法是 UDP,日志用得比较多,包括QQ钱包的卡也是走这个,UDP 更直白,我把包扔给你,也不等你的回包,这个包你挂掉了我也不管,通过这些做柔性开关,使得逻辑能够按照业务预期继续往下走。我们正常先查白名单,然后经过结果做业务逻辑,如果挂了直接跳过,这是我们的操作。

2.7 容灾建设:关键路径容灾

容灾的建设分为两块

  • 日常灾备
    我刚才提到异步消息队列的服务,要加很多的假设,每个核心服务挂了怎么办,如果挂掉如何有另外的机制保障呢?如果挂掉的话,我们的做法是本地磁盘,把队列以本地磁盘的方式写下来,后面可以通过这个磁盘日志补发。

    日志本身是很重要的,日志是要冗余,因为它也可能会挂,所以我们冗余了三个服务,一个磁盘 server 的服务,一个 kafka,还有公司自研的罗盘数据中心,任何一份数据出问题,可以拿这三个过来做核对。

    消息队列常规模式是存在内存里面的,如果服务突然间被扩掉了,内存就会丢掉,所以我们的做法是每个请求很早就落地到磁盘里,确保挂掉了重启以后继续往下走。

  • 天灾型灾备
    另外的容灾建设就是天灾型,什么机房突然停电,网络故障,更多的是通过跟运维同学的紧密配合,进行相关的部署,这些部署是跨地方部署,跨网关部署,通过这些避免偶发事件影响服务。

    前面也讲到了很多的预案,这些都要做成一键开关,如果大家参与过活动,真到那天真的没办法好好写代码,改代码,往往当天是非常紧张,很多事情做的,所以你的所有预案不能只停留在把它写出来,大概怎么操作。而是要全部变成一键开关,某个地方一致性,非常简便的变成手册,遇到A情况就是A预案,B情况就B预案,每个情况点一个按钮集成简单操作就开起来,只有这样大家才有反应时间。

2.8 监控与对账

首先监控是多维度的,比如说前端的返回码的成功率,流量的波动、礼包的发货量,分成不同的维度去监控整体数量,包括消息队列的堆积情况,每个环节的消耗情况,都要按不同维度监控起来,因为往往一个流量达到从来没有遇过的流量时,可能就不正常了,一到这个流量可能就看不见了,如果只有一个监控维度,它挂了就不知道处于什么状态。

我们用什么预案,这还涉及到决策,要基于当前有充分数据,有当前系统有充分了解情况下才能做出正确的决策,如果没有足够多的监控数据来辅助做预案启动还是不启动的话,相当于抓瞎,那是非常危险的。

所以监控是比较多同学容易忽略的,怎么样让数据汇总在一起,容易的看,根据数据做预案决策。另外就是自动对账和补发脚本,尽可能早的源头记录相关数据,在最终到账的再记录,因为这中间经历了很多链路,是否有个链路考虑不全,导致部分用户就发失败了。

要知道我们的系统平时流量下很正常,但是极端的时候可能有意想不到的场景,甚至连日志都来不及打出来,这时候对账就很重要了,甚至包括一些很极端的你的信用出现重大问题的,一些关键模块挂掉了,影响了五六分钟,这五六分钟的数据仍然可以通过对账脚本进行补发,所以对账也是非常重要的一环,他们相对来说也是容易被大家所忽略的一环。

2.9 运维体系支撑平台-织云系统

前面讲了很多管理、扩容、部署,这些东西都是依托在SNG由运维同学提供的强大系统,我们通过很多的工具,通过运维的指示体系,运维同学提供了在标准化、智能化非常高的平台,这个平台下能够使得我前面所讲的部署,什么跨机房、快速部署、扩容的流程得以快速和迅速实施,并且在实施过程中使得系统能够很顺利的跑下来,这是那天做这些活动的基础。

3、QQ春节红包活动的实战经验和总结

3.1实战状况

业务链路架构梳理完了,我们还改了很多东西,使得架构理论上扩容到可以支撑的量级,这里有个问题。活动当天到底有没有出问题呢?认为我的系统出问题的举手,看来大家对我的系统还是非常没有信心的。我前面做了这么多工作,你们就这样对我吗?当然有出问题,怎么可能不出问题?不出问题还是不正常的。

我们出了几个问题,第一个是流量超预期,原本评估是9.6万每秒,是为了省机器,扩容到14万每秒,但是均值达到12.6万每秒,峰值达到20万每秒,机器撑不住了。

实时上报 server 挂掉了,存储服务带宽跑满了,消息队列堆积非常严重,最高时候堆积达到了1200万,1200万请求进去以后,发货特别慢,问题很多。真的到了那天晚上不出问题是不正常的,你找一个大型活动不出问题的案例给我分享一下,我也想好好学习。

系统的状况是怎么样的呢?首先 web server 是高负载了,其中一个存储的服务带宽跑满了,导致请求都出不来,实时上报挂掉了,数据堆积非常严重,大家说我们慌不慌?这系统简直面目全非了,觉得我慌的同学还挺少。其实并不慌,因为我们准备了十几二十个预案,本来就是应对如果出现A问题就用A预案,出现B问题就用B预案。

3.2 QQ春节除夕红包:启动预案

刚才指出的问题在不在预案里面呢?基本都在。

  • 第一个,流量级别达到20万每秒,这时候就把非关键的请求取样,不让它上报,没有什么关联信息,通过这种方式把流量还降了回去。

  • 第二个,实时server挂了,这个东西也对用户来参加活动的流程没有影响,这个地方我们也是被说得比较惨,就是产品看不到真实的发货数据,比如10分钟发了多少礼包,本来是通过实时server来看的,所以对产品的意见比较大。

  • 第三个,是Cmem带宽跑满问题,这个问题真没法考虑,连预案都没做,运维同学早就把万兆网卡准备好了,我一直想着肯定有开发同学评估不到位,立马预案上了就换掉了。

  • 第四个,是消息堆积严重问题,虽然严重,但是我们早就考虑到万一堆积到不可想象的数量,我们支持了长期保存的方案,还故意扩了一些磁盘特别大的机器,得以不停的写,甚至可以在里面保留几天都没问题,对整体的业务效果是没有大影响的。

  • 第五个,是我们确实发现在链路里补货失败的,这个请求已经进来,应该给他发货,但是某个链路里又丢掉了,你不知道哪里丢掉的。最后我们通过对账补账把他们给补了。

通过前面的总结,我们的预案,准备的这十几二十个预案,我们抱着这样一个心态,如果这些预案一个都用不上,我们是很开心的,说明你的系统完全符合你的预期在线上跑了。

大家不要觉得这些预案很浪费时间,虽然真的很浪费时间,你总是假设我这个server挂了,假设存储挂了,每当加一个假设就要做一个预案,这个预案还需要耗费一定的工作,运维同学也是很辛苦,开发同学也很辛苦,但是这十几二十个预案真的出问题的时候,真的是救命的。

虽然我们希望这些预案一个都用不上,但是往往用上一两个都是救命的,如果我没有预案,遇到前面四个问题的话,我就真要被开除了。

3.3 QQ春节红包活动的反思

总结一下这些问题:

首先流量超预期,是少估算了QQ钱包的流量;

其次是业务集群隔离和分业务预估也做得不够好,游戏这边不受到影响,QQ钱包高负载,影响的范围不是红包集群了,整个都受到影响;

然后到扩容这边,虽然我自己常常讲三倍扩容原则,我们是9.6万的预估值,理论上要扩到30万每秒是比较安全的,但是我们为了省机器,最后只扩容到14.6万每秒的量级;

最后发现超预期了,所以就出现高负载场景。

所以有些原则该遵守的大家还是要遵守,也是我自己抱侥幸心理,这点我需要检讨。

另外就是实时 server 挂了,涉及到监控和产品业务数据,也是当时比较好提前考虑和纳入进来的。

最后是带宽,被跑满了,这也是我们梳理不到位,我关注一些静态资源,假设平时是两万每秒的系统,看看对应的存储大概的带宽情况,再用层级算一下预估量就有大概值,这个问题如果有做详细的梳理是可以梳理出来的,本来是可以做得更好的。

最下面这个图是其中外网的入网流量量级,5.1G每秒,这对静态的图片量级并不大,但是这不是图片,是前面前端的普通HTTP包头,没有任何图片,这样的请求达到5.1G,也从侧面反映出我们当天的峰值还是比较高的。

3.4 大流量活动的高可用建设经验总结

本文围绕了三个主题进行了分享,现在做个总结。

首先是怎么建设高可用的系统,在大流量的场景下,第一点是需要对系统架构进行梳理,首先你能够把整个系统架构以图的形式画出来,画得越细越好,每个环节每个子系统都画到,基于这样一个架构图进行功能点的链路梳理,一个领取功能涉及哪几个环节,有没有重叠的,全部都计算出来。

因为任何流量压力都有来源,要么是上广告,这个广告的曝光是多少每秒,再加上你历史得到的、演习得到的数字进行汇总和计算,这样就可以得出流量的压力。

还有 APP 可以算当天登录每秒的峰值,大家觉得 APP 可能难算曝光,APP 可以按登录人数算,最高人数比如是五千每秒,那就按五千UB来算,按这个值折算成你的广告曝光带来的流量。

所以通过这种方式当把流量预估出来以后,对架构进行扩容评估,但是扩容评估中肯定会遇到跟状态相关或者第三方不可控的系统,这些系统也没办法直接完成平行扩容,就需要对它进行合适的改造,根据前面共同探讨的几个原则改造,改造完了以后就可以根据可用性的几个原则,对它进行增强,过载保护等等六个原则进行增强。

最后一点非常重要,就是梳理你的紧急预案,可能你会得到好几个紧急预案,进行梳理,做好表格,做好开关,让当天晚上值班的同学把表格读熟,出现什么问题就用什么预案。当我们做完以后,这个系统就可以真正去参加大流量的流量服务了。

近期好文:

《一个关于Paxos算法的故事》

《8种常被忽视的SQL错误用法》

《腾讯1300场NBA直播背后的技术力量》

《5分钟让你了解 ZooKeeper 的原理》

《聊聊日志这件小事情》

《Docker跳反了,运维们还会继续用它吗?》

点击“阅读原文”,享受 GOPS·北京站 特价优惠