👉
目录
1 生于 B
端:先让自己满意
2 长于 C 端:跨越边界
3 提升安全/可用性
4
提升性能/效率:
实用第一
5 提升可观测性:深度是被逼出来的
6 总结:以躺平的心态完成不躺平
在流量增长、功能扩展的背景下,叠加性能优化的内在要求,把一个协议转换发展为业务网关,过程有多曲折?选型又有哪些考虑?为什么放弃了 JSAPI (客户端方案)、HTTPSSO(后台方案),最后选择了 Node(前端)方案?
本文亮点提炼:
每日请求量从几千到上亿
小程序和 H5 都能使用腾讯开源 tRPC 接口
单核 QPS 从 2K 提升至 2W
请求成功率从 99.985% 提升至 99.997%
性能:支持 WebSocket
本文通过介绍整个历程中遇到的关键问题和解决办法,提供网关建设中的一些可复用经验。长文干货,建议先点赞收藏,慢慢品阅!
(从左到右的量级为累计)
如果一句话形容这一路:拼命维持服务稳定,小心谨慎增加功能。
1.1 背景
传统调用 RPC 接口的流程可以概括为三个经典步骤:
而且,如果接口协议发生变更,就必须不断重复这三个步骤。
1.2 分析
调用 RPC 接口相比于调用 HTTP 接口更加繁琐,根本原因在于 proto 文件的存在。那么,我们是否有办法摆脱依赖于 proto 文件呢?
为了回答这个问题,让我们先来仔细分析 tRPC 协议的结构和组成:
在 tRPC 协议中,消息由帧头和包头组成,类似于 HTTP 头部,包含了请求的基本信息,如请求类型、协议版本和包大小等。而包头则是一段可变长度的二进制数据,同样使用 proto 进行定义和序列化。我们来看一下它的结构:
message RequestProtocol {
uint32 version = 1;
uint32 call_type = 2;
uint32 request_id = 3;
uint32 timeout = 4;
bytes caller = 5;
bytes callee = 6;
bytes func = 7;
uint32 message_type = 8;
map<string, bytes> trans_info = 9;
uint32 content_type = 10;
uint32 content_encoding = 11;
}
1.3 思路和实现
-
只需对 HTTP 的路径进行一致性约定,即可按照固定规则提取出 RequestProtocol 中的 callee 和 func;例如,频道使用的约定如下:
-
HTTP 头中的其他信息可以根据业务场景映射到 trans_info 中;
-
-
包头的 proto 固定,我们使用这个固定的 proto 把上面的数据序列化为二进制。
关键的一步是 tRPC Body,我们不再依赖业务接口的 Proto,而是直接使用 JSON.stringify 来序列化 HTTP 的 Body(如果是 GET 请求,则获取 URL 中的查询参数)。
至此,tRPC Header + tRPC Body 就构成了完整的请求包,可以进行发送。
1.4 效果
后台部署即可调用,与 HTTP 调用一样简单。至此,我们终于能够轻松地消费 tRPC 接口了。
2.1 背景:小程序接入
小程序 和 H5 能这样使用后台的 tRPC 接口吗?
初步看来,只需调整鉴权方式,将内网的智能网关鉴权切换到外网的 ptlogin 即可。
然而,实际情况并非如此简单,因为我们忽略了一个关键的请求链路:JSAPI(通过 APP 发送请求)。
为了让开发小程序和 H5 的团队能够顺利调用 tRPC 接口,必须弄清楚:
APP 的请求是如何到达业务 Server 的。
只有在理解了这个过程之后,才能确保最终发包时的结构是一致的。
2.2 方案
这个问题有点像:从浏览器输入 URL 到显示页面发生了什么。
-
标准服务场景:直接与后台 Server 进行通信。;
-
经过 OIDB 代理的服务场景:借助 OIDB 代理和后台 Server 通信。
-
经过 SSO 代理的服务场景:借助 SSO 代理和后台 Server 通信。
-
请求元信息转换按照 QQ 频道后台 tRPC Server 的默认约定进行。(这里略过,不同业务有不同约定)
-
-
2.3 成果:难路是捷径
-
第一次和这么多团队打交道:客户端、跨平台、基础平台、互联、业务后台。
-
两周打了最多的电话,麻烦了十几位大佬请教代码逻辑、开权限。
-
-
参照 QQ NT 和 SSO,实现了第一版协议转换,可以从 JSAPI 无缝切到 HTTP,向更灵活的服务调用模式迈出关键一步;
-
此外,对 QQ 频道的服务架构和网络链路有了整体框架,很快在下次问题定位中派上了大用场;
小程序/H5 接入后,相较于 JSAPI,开发和联调不再依赖 QQ 客户端,大大提高了效率:
3.1 安全:遭遇黑产(背景)
-
-
频道邀请链接和一个无鉴权的分享接口(对应协议转换服务)调用飙升;
-
-
这时惯常的 Debug 模式不再适用,必须直切要害:
依赖之前的经验,判定最可能的原因,然后直奔主题。
-
短链码服务高负载,但是进程没挂,而且扩容没有让失败率略微下降!
-
-
某个服务链接数有限制,或者耗尽,而且最有可能是 MySQL。
立即在日志中以 connection pool 为关键字检索,猜测得到了证实。
扩大 connection pool、缩容 pod 后,需要尽快找到流量上涨的原因,若网关和下面几个服务负载持续上升,可能会随时引发服务不可用的风险。
在排除了运营活动和压力测试的可能性后,我们通过分析流量特征(如 IP、UA 等信息)迅速识别出了黑产攻击的存在。随即,安全团队介入处理,成功保障了业务服务的稳定运行。
-
针对无鉴权的接口,一定要配置安全策略,对 IP、UA 等进行更严格的限频;
-
特别关注 k8s 二次扩容特性,的二次扩容特性,虽然它是一种紧急保命策略,但也可能引发其他问题(比如这里):
此次事件也促使我们重新关注安全问题,对服务的整体安全状况进行了深入的排查与反思:
3.2 可用性:请求超时
背景
作为 QQ 频道的核心入口,发现页小程序对性能的要求极为苛刻,绝不能容忍任何形式的超时现象。
问题分析
明确了这点,问题定位就
可以有条不紊的展开了: 只要捞出一个具体 case 扒到底,bug 就能揪出。
问题节点
过程比预期的曲折,同时排查到两个节点有问题,包括一开始压根没怀疑的节点:stgw(公司级统一接入)。
STGW L5 缓存更新问题
在新增或更新 STGW 路由至 L5(旧公司级域名服务)后,出现了以下具体问题:
bug 原因
L5 作为名字服务,采用的是 C/S 架构。 问题在于客户端(client)缓存出现异常,导致新增或更新操作后,客户端缓存未能及时刷新。
解决办法
-
-
通过业务网关进行管理:由于业务服务(如缩扩容、迁移等)经常变动,而网关相对稳定,因此,将业务服务配置在一个稳定的网关之后是最佳解决方案。
教训
-
基于指标的告警固然重要,基于日志的告警也不能少(敏感度更高);
-
正是由于这个问题,,催生了 STGW 后建设业务网关的想法;
3.3 可用性:发布自检
背景
就像吞噬细胞一样,虽然消灭了外部的病毒和细菌,但里面却成了垃圾场。各种各样的兼容、组包成了服务稳定性的隐患。
方案
如何在配套工具没有跟上的情况下,保证服务稳定? 工具缺位,人工来补。
我以发布为例,分享下 人也是可以作为程序执行器的 。
把一次发布作为考察对象,按照一套固定的思考/行动步骤,来最大程度降低发布问题。
-
step 1: review 发布变更准备完整的代码 diff,供二次检查;
-
repeated:枚举变更点(变更点包括:配置、数据库表结构、接口、依赖服务)变更内容;
-
当前变更的依赖项(依赖的其他变更项,比如配置、数据库变更等);
-
-
-
step 2: 确定发布步骤根据变更及变更的依赖项确定发布次序。
-
step 3: 确定更新策略手动分批发布:微小修改(包括配置变更)
-
step 4: 发布过程亲眼看到第一个 pod 重建;
效果
依靠规范发布流程和小心谨慎,未出现一次因发布导致不可用。
性能优化是一个持续不断的课题,因为需求会变化、功能不断增加。
4.1 性能:改造 TSW/NGW
背景
一次排查接口调用报错,意外发现让我震惊的事实:后台 RPC 接口报错的响应在 50ms 内就返回了,为啥前端却200多 ms 才收到!
问题分析
为了使性能评估结果具有
实际意义,我们需要一份能够完全镜像真实环境的性能报告。
模拟轻负载状况下
(对应正式环境的 NGW/TSW 负载冗余),仅仅比较平均耗时一项。
import { sleep, check } from "pts";
import HTTP from "pts/HTTP";
export const options = {};
export default function main() {
let response;
response = HTTP.get("HTTPs://xx.com/apisix/");
check("status equals 200", () => response.statusCode.toString() === "200");
}
import { sleep, check } from "pts";
import HTTP from "pts/HTTP";
export const options = {};
export default function main() {
let response;
response = HTTP.get("HTTPs://xx.com/tsw/");
check("status equals 200", () => response.statusCode.toString() === "200");
}
APISIX 相对 TSW/NGW 仅平均耗时就提升近
10 倍
。
TSW 和现有测试流程、工具紧密结合,所以改造过程分两步:
-
使用 APISIX 平稳替换 NGW 和 TSW 的功能;
-
-
APISIX 无缝承接 NGW/TSW 的路由/灰度/染色功能 ;
-
单核 QPS 从 2K 提升至 2W,显著降低了 CPU 和内存的资源消耗;
-
根据最近 7 天的 STGW 监控数据,请求成功率从 99.985% 提升至 99.997%;(整体平均耗时略有下降,但不具备可比较性,因为后端负载有不重叠部分)。
4.2 性能:支持 WebSocket
背景
WS 在时延上表现十分优秀(降~95%)。 如果能从 msf 切到 WS 通道,会带来性能显著提升。
实现方案
着重展开下 WS 方案中的三个关键点。实现细节、针对游戏场景的优化(比如初始下行量大)等计划另开文章来写。
协议选择
WebSocket 本质上是一个传输层协议,在实际应用中还需处理心跳、重连、降级等机制,因此我们需要一个基于 WebSocket 的应用层协议。这与我们不直接使用 TCP 协议进行通信,而是选择基于 HTTP 或私有 RPC 协议通信的原因相似。
通过对比开源及团队内私有协议,选择了
socketio
。原因主要有:
-
socketio 已经在公司内其他业务的生产环境中经受了百万级消息每秒的考验;
-
SDK (封装协议交互)是一个容易忽视的成本。SDK 需要支持三种运行环境:
所以 SDK 需要具备扩展机制,能衔接运行环境的差异 API。(私有协议的 SDK 难扩展)
低成本接入
如何让现有的 tRPC server(一问一答式),在不改造的情况下,也能享用实时通信的便利?低成本接入主要解决这个问题。
-
WS server 只做 “接线员” 角色:把 client 和 server 的 socket 连起来,就算完事了;
-
WS server 做 “邮局” 的角色:业务 server 不用管 client 的存在,只要告诉 WS server 消息发给谁就可以了,WS server 保证最大可能送达;
|
|
|
|
|
业务 server 无需改造,即可具备实时下行能力
|
|
业务 server 需要具备链接管理能力,各自保证消息可靠送达等
|
WS server 功能复杂,是整个系统消息吞吐的瓶颈
|
这里借鉴了 SSO 的实现,采用第二个方案,使业务服务器可以以最低成本接入。
消息可靠送达
如何保证消息一定被 client 收到? 其实无法 100% 保证这点,只能承诺尽最大可能送达。
其中最容易被想到策略:消息确认,也是 tcp 协议使用的。
在选择方案 2 实现 WS server 后,其实还面临这些的情景:
-
业务 server 指定向某个用户推消息,但是用户不在线(没有活跃 socket)怎么办?
-
WS server 同时采用三个策略提高消息送达的可能性:
-
-
消息确认:client 接收每个消息需要回复 ack 命令字,否则进入补发机制;
-
成果
-
适配三端(H5/QQ 小程序/cocos) 的 SDK;
-
-
-
世界子频道接入后,游戏地图更新更流畅。HTTP 切 WS 后,高频轮询从用户侧下放到 WS server 执行,减少网络数据交换,减少低端机发热。
4.3 效率:文档沉淀
背景
企微检索了下,仅几个高频错误码解决办法(131,12,4001等)就解释了几十次:
把常见的问题和 step by step 教程整理成文档。通过对这些文档进行向量化处理,可以借助大模型做成问答机器人,提供更快的问题解答和错误诊断。
有了文档,除了节约自己的时间,还能让周围的小伙伴更快解决问题。
就像代码模块化,
文档化后的经验,才是能产生复利的资产
。
4.3 效率:工具建设
背景
-
发布过程,比如检查配置、灰度比例设置、配置更新等都需要手动进行。
误区
工具建设很容易陷入:
追求一步到位、“完美”,进而过度设计。
例如,在业务网关改造初期,我考虑引入 Terraform 以实现全自动化操作,包括:
粗略估算后的建设成本打醒了我:一开始的目标不是
效率提升
吗? 这和我几年前把 jQuery + Handlebars 替换为更 fancy 的 Angular(性能反而略微下降)没有本质区别。
业务中追求的是实用,白猫黑猫,抓到老鼠就是好猫。
切记拼命优化的指标在具体业务场景根本不关心。具体到工具建设,只要开发使用体验好,节省了重复劳动,就是好工具。
方案
在当前的开发流程中,CI、机器人和 Git 已经被广泛应用,开发团队对它们非常熟悉。。熟悉就是好用,有办法不引入新的工具完成自动化,减少重复工作吗?
-
新网关也接入企微机器人设置染色/转发,和 tsw 一样的方式;
测试中设置转发(切环境)是十分高频的操作,机器人大大提高了效率。
-
重要配置(白名单、oidb 命令字等),使用 git 管理,采用代码一样的 review 进行变更;
-
配合 ci,配置变更 -> 审批 -> 生效,完全自动化。
-
cli 负责代码生成:以命令行的形式,自动生成符合网关约定的调用 SDK、接口出入参数类型、Mock 规则等;
效果
引入企微频道机器人后,设置染色的时间从之前的平均 3 分钟缩短到 10 秒,而且不再依赖于 PC 浏览器。
白名单/oidb的变更 -> 审批 -> 生效,从原来的平均 2h,缩短到 20min。
大多数棘手 bug 都有一个特点:本地无法复现、测试环境无法复现、正式环境偶现!
5.1 背景
-
pskey invalid 比例上升,略微下降后再上升;
-
服务整体平均耗时,类似于网页的首次可交互时间,是衡量应用可用性的黄金标准。
只要平均耗时增加,就是“发烧了”,需要立即根据其他指标(cpu/memory/disk...)、日志找病根。
5.2 问题分析
应用日志上报的错误信息——如“pksey 无效
”
或“tRPC 调用超时
”
——在正常情况下也会偶尔出现,但这次它们的频率异常增高。问题在于,这些错误信息太常见了,无法直接指向问题的根源。那么,我们应该如何进一步探索呢?
正当我们感到进退两难时,容器的文件日志为我们提供了新的线索:
(
北极星是服务发现和治理中心,现已开源 https://polarismesh.cn/
)
依靠对名字服务粗浅的理解:naming server 负责解析其他服务的名字到ip/port,唯独自己不能有名字,需要硬编码 ip。
猜测:这些 ip 是硬编码的 naming server ip,报错日志显示在对不同 server 进行链接重试。
猜想、验证
polaris 版本有变动,而新版本修改了 server ip —— 这是首先想到的最可能原因。
版本确实升级了(0.3.x -> 0.4.x),经过 diff 两个版本相关源码后,发现 server ip 没有任何更改。
否认了 server ip 变更的猜想后,必须调整 Debug 思路:
-
继续向上排查 server ip 的调用代码;
-
寻求北极星助手帮助;
寻求协助
两个版本之间的变动十分多。为了更快解决问题,决定立即寻求相关开发团队的帮助:
可能并不是应用代码存在问题,也稍微放心了点。
但是,运行一段时间后,重建的pod 再次出现了上面的报错。放下的心再次悬起来:立即登录 pod,对报错的 ip telnet 测试,网络连通没问题,所以
还是应用代码的问题!
非常手段
时间紧迫,无奈只能走钢丝:对线上环境开启实时调试。
太久没这样搞过,一边隔离 pod,一边手忙脚乱查自定义调试端口的写法(生产环境对可访问端口有严格限制):
(...略掉大量无借鉴意义的试验细节)
最终在 memory 的快照中发现了端倪:
按 retained size 倒序后,出现了 PolarisGRPCClient。