作者:朱炜栋、元毅、子白
公司介绍
Cloud Native
Rokid 创立于 2014 年,是一家专注于 人机交互技术 的产品平台公司,2018 年即被评为国家高新技术企业。Rokid 作为行业的探索者、领跑者,目前致力于 AR 眼镜等软硬件产品的研发及以 YodaOS 操作系统为载体的生态构建。公司通过语音识别、自然语言处理、计算机视觉、光学显示、芯片平台、硬件设计等多领域研究,将前沿的 Al 和 AR 技术与行业应用相结合,为不同垂直领域的客户提供全栈式解决方案,有效提升用户体验、助力企业增效、赋能公共安全,其 Al、AR 产品已在全球八十余个国家和地区投入使用。
业务场景
Cloud Native
Rokid 在数字文化领域,围绕展陈导览解决方案,主要形成了三维建图,场景创作,场景体验三个业务模块,每个模块都有不同的后台平台支撑。
三维建图: 制作展陈导览的第一步是取景,通过设备获取场地的真实布景,然后通过算法处理,进行三维建模,之后可以经过创作器进行下一步的内容创作。
场景创作: 在三维建模生成的视频流上创作,通过 Web3D 渲染引擎,将创作内容与场景紧密结合,结合硬件设备,在 AR 设备使用时,形成一体化的体验效果。
场景体验: AR 设备在使用时,根据定位服务,锚定在场景中的位置,根据位置的不同会显示不同的空间内容,达到扩展现实场景的效果。
未雨绸缪,磨刀不误砍柴工
Cloud Native
初期的策略构想中,我们曾探讨过购置专用 GPU 机型以及采用 Kubernetes 社区原生的 Horizontal Pod Autoscaler 方案。然而,实践是检验真理的唯一标准,基于业务实际运行效果的反馈,我们意识到单一方案并不能满足所有需求。深信“工欲善其事,必先利其器”的理念,在历经数次实战探索及联合调试的过程中,Rokid 携手阿里云共同砥砺前行,最终在阿里云强大基础设施的支持下,打磨出一套更为高效、成熟且适应市场需求的实施方案。
基于 GPU 按需使用如何做
如何快速发布迭代应用
在 K8s 中如果要做基于流量的蓝绿发布,首先需要创建对应的 K8s Service 与 Deployment,如果需要弹性,则还需要配置 HPA,然后在流量灰度发布时,要创建新的版本,最后通过 Ingress 设置对应的流量比例,最终实现流量灰度发布的功能。显然,在 K8s 要做基于流量的蓝绿发布,需要管理多种资源,并且随着版本的迭代,管理起来会更加复杂。
弹性滞后
我们知道应用往往很难做到秒级启动,也使得基于 HPA 扩容存在较大的滞后性,带来真实业务的稳定性风险。如何减少弹性滞后带来的业务影响,是需要我们要解决的问题。
GPU 资源不足的问题
云上 GPU 资源有限,如何保证常态下 GPU 资源供给,以及在突发业务场景下,及时扩容出 GPU 资源。
标准化
解决方案
Cloud Native
从资源按需使用、GPU 供给、稳定性以及标准化等方面的考虑,我们选择了阿里云 ACK + Knative 的解决方案,保证弹性供给兼顾成本最优,整体方案如下:
云原生 Serverless 框架 Knative
Knative 是一款基于 Kubernetes 的开源 Serverless 应用编排框架,其目标是制定云原生、跨平台的 Serverless 应用编排标准。其提供了基于请求数、并发等指标的自动弹性能力,并且通过多版本管理机制,可以方便的做到基于流量的灰度发布、快速回滚的功能。
ACK 智能弹性(AHPA)
ECS、ECI混部
但从弹性供给来看,ECI 并不能完全保证资源的供给,结合我们常态下业务使用情况,当前采取混合部署模式,兼顾成本及稳定性两方面的业务目标。如图所示,常态业务下我们使用 ECS 资源,在突发业务流量下,通过 ECI 提供按需使用资源。
自定义弹性资源优先级调度
由于采用了 ECS 及 ECI 两种部署模式,在资源的调度策略上,我们期望应用扩容和缩容行为都是确定性的。那么,部署的服务优先调度顺序理论上依次为:ECS、弹性实例 ECI。同时在服务缩容时优先删除 ECI 上的 Pod,释放 ECI 的节点资源,然后删除 ECS 上的 Pod。这里我们采用了自定义弹性资源优先级调度策略:ResourcePolicy。
对于不同类型的节点需通过打上不同节点标签实现,然后创建 ResourcePolicy 自定义节点池调度顺序。参考文档:自定义弹性资源优先级调度 [ 2] ;那么结合 Knative 使用的话只需要在 selector 指定相应的 Knative Service 名称即可。 ResourcePolicy 配置示例如下:
apiVersion: scheduling.alibabacloud.com/v1alpha1
kind: ResourcePolicy
metadata:
name: xxx
namespace: prod
spec:
selector:
serving.knative.dev/service: worker-go ## 此处指定Knative Service 名称即可
strategy: prefer
units:
- resource: ecs
max: 2
nodeSelector:
key: value
- resource: eci
业务价值
Cloud Native
本次合作实践,犹如 Rokid 与阿里云携手共舞,在赋能业务创新的同时,也有力推动了阿里云产品的深度优化。展望未来,身处 AR 技术引领的宏大计算新时代,Rokid 深信,以阿里云 Knative 结合 ECI 为代表的技术解决方案将在持续演进与迭代的过程中,不仅将为众多云计算使用者带来实质性收益,更将以卓越的架构设计和体验革新,逐渐渗透到更多前沿产品之中,构筑起强大而灵动的云上基础设施,进而惠及广大用户群体,共同见证并塑造云计算发展的新篇章。