专栏名称: InfoQ架构头条
InfoQ运维领域垂直号。常规运维、亦或是崛起的DevOps,探讨如何IT交付实现价值。努力为技术人呈现有实践意义的内容~
目录
相关文章推荐
InfoQ架构头条  ·  从架构角度认识AI:为架构师解读机器学习与生 ... ·  1 周前  
51好读  ›  专栏  ›  InfoQ架构头条

证券行业的国产化云平台建设之路

InfoQ架构头条  · 公众号  · 运维  · 2024-08-14 15:00

正文

在《金融科技发展规划(2022—2025 年)》和《证券期货业科技发展“十四五”规划》指引下,券商积极推进数字化转型,云原生作为新型基础设施,架构升级势在必行。

券商系统架构复杂,包括外购和自研,异构化程度高,对稳定性又要求极高,因此云原生架构升级是一个系统工程。国内证券公司一路走来,经历虚拟机、Docker 和 Kubernetes 容器化多个阶段,逐步迭代,一直以自主可控为标准,且实现了云原生基础设施的构建,以自研 DevOps 平台 + 容器云为自研系统和外购系统提供云原生架构支撑底座,并建设了相应的监控体系。

云原生架构建设是技术战略投入,随着平台能力不断完善,必将深化科技赋能,加速企业数字化转型进程。金融科技团队需秉承“行稳致远,进而有为”的信念,为实现“数字中国”贡献力量。

在 8 月 16-17 日上海 FCon 金融科技会议上,我们邀请到了国内多家证券企业的技术专家来介绍证券国产化云平台建设历程,欢迎大家来了解国内证券企业的技术积累。

云平台建设的技术栈选择

证券企业在引入创新技术时,秉承实用主义原则,持续关注前沿技术,但在技术跨越鸿沟相对成熟之后再根据实际需求引入。这种策略确保了技术引入的稳定性和有效性。云计算技术的发展已经非常成熟,包括云原生,这样在选型上我们更从容,可以采用主流的技术架构。

其次是证券企业在基础技术上稳扎稳打,云平台建设是一个分阶段实施的过程。从构建轻量级私有云,到外购私有云服务,再到应用 Docker 容器技术和 Kubernetes 技术,每个阶段都基于前一阶段的验证和效果进行推进。

之所以选择云原生架构,是充分考虑了自身需求、技术成熟度和实用性等因素,满足数字化转型需求。云原生架构能够提供更好的可扩展性、灵活性和可靠性,提升系统稳定性、部署效率、资源利用率以及应用可观测性,并推动技术创新,提升企业的竞争力。

同时,在云平台中采用国产化技术建设,也是公司的整体战略考量, 证券企业在云平台里采用了多种品牌的服务器,其中包括国产 CPU 和 OS,适度的技术多样性对于架构的扩展有切实意义。国产软硬件经过多年积累已经有了长足的发展,是证券企业技术选型的重要方向。以国内某证券企业为例,他们在云原生架构实施过程中经历了两大主要阶段,首先是私有云建设,其次是云原生建设。

私有云阶段, 基于 KVM 构建了轻量级私有云,这个阶段主要是为了验证私有云的稳定性和降低成本的效果。随后决策外购私有云服务,采用成熟的商业产品。

云原生阶段, 从 2021 年开始尝试应用 Docker 容器技术,进行自研应用容器化改造,探索云原生架构升级路径,这方面需要应用的容器化改造,以及 CI/CD 流程。到了 2022 年自建云原生架构体系,基于 Kubernetes 技术自建容器云平台,并支持一云多芯,完善 DevOps 平台。其云原生基础设施在 2023 年已基本完善,成功将 30% 的自研应用迁移到了容器云上。

未来,除资源密集型、计算密集型或者对响应时间及单机稳定性有极高要求的应用外,这家证券企业计划在 2025 年将所有自研应用迁移至云端,并迁移部分外购应用,迁移以容器为第一选项,以虚拟机为第二选项。

架构升级过程中的主要挑战

首先是人才,证券企业一方面招聘了具有相关经验的人才,另一方面也从内部发掘了专业能力强,能够快速掌握云原生技术的同事,快速组建了一支强有力的团队。

其次是目标和方案,尤其是方案的全面性,企业结合信通院的“云原生能力成熟度模型”,结合证券企业自身实际情况,对 4 大能力域 12 个过程域 46 个过程项进行了梳理对标,设定了建设路线图。

然后是技术攻关,其中有大量细致的工作,基础设施“稳”字当头,需要严格的测试、验证,提供可选方案,确保平稳过渡。出现问题要有应急预案,应急预案要演练。

最后是推广,提升技术团队对云原生技术的掌握能力,加强部门间的协作与沟通。通过项目方式跨部门协作,确保架构升级工作的顺利进行。

在云原生架构下要想确保系统的高稳定性,特别是在面对高并发和复杂业务需求时,证券企业也有自己的解决办法。

首先云原生架构本身具备极强的自恢复能力,结合微服务设计在复杂业务高可用方面表现突出。其次是日志和监控,我们对日志中心、监控系统进行了全面升级,结合智能告警,可以帮助运维人员及时发现问题,确保系统的稳定运行。

再次是自动化流水线,企业实现了应用的自动化部署和更新,以及资源的一键扩缩容。这减少了人为错误,提高了部署效率,确保了能够快速响应,处理线上问题。最后是应急和灾备,技术部门有应急预案,定期进行演练,还有灾备机制,在发生系统故障或灾难时,能够迅速恢复系统正常运行,减少业务中断时间。

自研 DevOps 平台

传统开发运维模式的弊端有很多,例如传统模式下,开发、测试、运维团队之间往往存在沟通和协作的壁垒,导致项目交付周期长、效率低。再比如自动化程度低,依赖人工操作和手动部署,不能以系统流程实现标准化,容易出错且难以应对高并发和复杂业务需求。而且一体化不足,难以进行良好的数字化管理,对工程效能度量提供支持。

DevOps 的主要方向包括技术栈整合与流程标准化,各系统使用不同的技术栈和工具链,需要统一整合到 DevOps 平台中,包括前后端、移动端等等。标准化开发、测试和部署流程,确保不同团队和项目之间的协同效率。

在资源管理方面:在云原生架构下有效管理和优化计算资源和存储资源,是自研 DevOps 平台需要解决的重要问题。同时,对于网络权限的管理,在金融行业非常重要。尤其在应用升级过程中,网络权限开通和探测功能作用特别明显。

DevOps 平台的主要功能包括以下几个方面

  1. 持续集成与持续部署(CI/CD):

    1. 提供高性能、强管控的流水线服务,支持自动化构建、测试和部署,尤其是支持双规部署,便于升级过渡。

    2. 通过可视化界面和丰富的插件,实现代码检查、自动化测试、安全扫描等功能的集成。

  2. 制品管理:

    1. 提供企业级制品管理服务,支持软件制品的安全扫描、统一管理和同步分发。

    2. 确保制品的合规性和可追溯性,保障研发的可信合规。

  3. 敏捷协同:

    1. 提供企业级项目管理和规模化团队协同服务,拉通产品、项目、开发、测试、运维的统一协作。

    2. 支持敏捷开发方法论,提高团队的响应速度和交付质量。

  4. 安全与合规性保障:

    1. 集成安全扫描、依赖管理等能力,确保系统的安全性和合规性。

    2. 提供权限控制、操作日志等安全措施,保障操作的安全合规。

  5. 一体化运维:

    1. 提供监控配置管理和日志查看能力。

    2. 提供终端登录能力,便于处理线上问题。

  6. 可扩展性与定制化:

    1. 具备良好的可扩展性和定制化能力,满足不同项目和团队的需求。

    2. 支持第三方外部系统的集成和插件扩展,打造企业研发生态。

自研 DevOps 平台给证券企业的业务和技术团队带来了具体的收益,一方面是标准化、安全合规,另一方面是提效,研发过程、部署、线上问题处理,效率明显提升,单纯看部署流程提效 75%。

如何构建监控体系

构建监控体系是一个复杂的系统工程,包括监控类型、监控对象、指标体系、智能告警、监控工具。简单说,证券企业基于开源和商业产品,经过多年建设,形成了全面的监控体系,覆盖了系统监控、应用监控和业务监控等类型,以主机、云、流量、应用、链路、网络、日志、数据等为对象,构建了符合行业标准的可观测指标,并结合 CMDB 和组织结构设定标准化模板或者自定义告警策略进行智能告警,支持语音、短信、IM 消息多种触达方式。对于云原生的监控,则是在体系上的一次扩展升级。

技术是一直在发展的,未来几年,证券行业在技术上的投入和尝试也还未知,不过随着云原生架构的深化应用,进一步提高基础架构能力,以支持更多的应用上云,比如做到动态调度、多活。其次是人工智能,随着大模型在行业里的应用探索,未来会有更多的场景落地。

在云平台建设过程中,
证券企业与生态厂商合作

在云平台建设过程中,证券企业与生态厂商的合作是深入且多维度的,这种合作模式不仅促进了技术的快速发展,还优化了资源配置,提升了整体竞争力。

合作共建:比如厂商根据需求提供更适合、更安全的云原生操作系统,这种合作方式确保了云平台的稳定性和高效性。

产品合作:引入商业或者开源的产品和解决方案,比如私有云、Kubernetes、监控系统,效能数据采集组件,进一步丰富和完善自身的云平台建设。

技术优势互补:与生态厂商的合作,可以实现技术优势互补,共同推动技术创新和进步。生态厂商拥有深厚的技术积累和经验,能够为证券企业提供强有力的技术支持。

资源优化配置:通过与生态厂商的合作,证券企业可以更加合理地配置资源,避免重复建设和浪费。

提升竞争力:借助生态厂商的力量,证券企业可以更快地响应市场变化和客户需求,提升自身的竞争力。

今日好文推荐

从排产到库存,智能算法在供应链优化中的应用与实践

探索 IT 架构治理之道:微众银行的实践与思考

阿里云可观测智能化探索——从智能告警到利用LLM实现自然语言转PromQL

大模型在融合通信产品中的应用实践

活动推荐:

在 8 月 18-19 日即将举行的 AICon 全球人工智能开发与应用大会上,60 多位来自字节跳动、华为、阿里巴巴、微软亚洲研究院、智源研究院、上海人工智能实验室、蔚来汽车、小红书、零一万物等顶尖企业与研究机构的资深专家将汇聚一堂,带来 AI 和大型模型在各种落地场景下的应用案例和最佳实践分享,帮助与会者提升技术视野、获得有价值的实践指导。大会火热报名中,详情点击【阅读原文】链接了解或联系票务经理 13269078023 咨询。