导读
MLOps 已历经较长的发展历程,信通院早在 2020 年就已开始 MLOps 相关研究。从去年开始,很多企业转向大模型的研究和落地,MLOps 也面临转型,之前主要是面向机器学习模型的 Ops 运营体系,现在则需要考虑大模型以及大小模型协同的 Ops 运营体系。本文将分享信通院近两年来对MLOps 的一些理解和洞察。
1.
大模型进入规模化应用的关键期
2.
LMOps 是模型落地核心工程化要素
3.
未来趋势与展望
分享嘉宾|
秦思思
中国信息通信研究院
高级主管
编辑整理|
陈沃晨
内容校对|李瑶
出品社区|
DataFun
大模型进入规模化应用的关键期
当前,大模型已经步入落地的关键时期。去年还是群“模”乱舞的年代,出现了很多基础模型以及行业大模型。而今年则更加深入到行业,各行各业都在考虑如何利用大模型赋能业务,实施企业的智能化转型。明年一定会有更多的规模化应用落地。
1.
范式变迁:大模型加速人工智能技术迈向“大一统”
大模型与传统的机器学习模型和深度学习模型存在显著差异,其核心特性主要体现为以下几点:
-
首先是规模可扩展性强。正如这两年整个行业广泛认可的“Scaling Law”规模法则所表明的那样,通过提升大模型的参数规模、计算量和训练数据,能够带来模型性能的持续提升。而传统模型的规模增大却不能带来模型性能的提升,所以这是大模型很重要的一个特点。
-
第二是多任务适应性强。比如一个模型能够同时支持多种任务或者多模态,甚至可以实现跨模态。传统的 AI 模型,一个问题要有一个机器学习模型、算法去解决,而现在的大模型就相当于大脑,一个大模型就可以解决很多维度的问题。
-
第三是能力可塑性强。我们可以通过模型微调、思维链提示等方式进一步实现模型能力的增强,而一般传统的模型难以通过训练拓展其能力。
基于这三点特征,不断涌现出越来越多行业大模型落地的场景,比如 ChatBot,最典型的就是 ChatGPT,它的出现为整个行业带来了革新。同时,自动驾驶、气象、机器人、生物、化学,以及多模态视频生成等领域也有很多的落地和实践。
2.
应用架构:基基于大模型的工程落地架构逐渐清晰
大模型落地需要有一套相关的方法论或工程化体系。围绕大模型的落地,衍生出了包括算力服务、平台工具模型调用、模型应用开发这样多层的服务生态。这里的模型服务框架,即业内备受关注的模型即服务(MaaS,Model as a Service)体系。这套体系就是支撑大模型工程化落地的底座。它可以在基础设施之上提供大模型开发、调优、部署的平台,同时可以提供各种基础模型、行业模型、商用模型,还可以基于开源模型的服务之上进行各种应用开发,比如基于 Agent 或者 RAG 相关框架去做大模型应用以及 AI 原生应用的开发。这样四层的服务生态,可以为大模型落地提供良好的工程框架。
3.
开发和应用工具:各类工具链不断完善,助推技术加速扩散
在最下面的大模型开发层,目前已经有很多云厂商提供了标准化的套件服务,覆盖了模型生产和调优的全生命周期,这一层大模型开发平台的主要工作就是为了更好地造出我们想要的专属模型。
第二层是大模型应用开发,有很多大模型部署工具,还有应用开发的工具链,目标是提供良好的应用开发平台,帮助企业更好地构建 Agent 或者 RAG 知识库等场景应用,让企业可以更好地使用模型。
再往上是 Agent 框架,以及 RAG 的一些技术能力,帮助我们更好地使用大模型,将其能力更扩大化地去应用,以提升模型的推理能力。
4.
大模型应用热情高涨,赋能新型工业化前景广阔
无论从企业视角还是从消费者视角来看,目前大模型的应用都非常火爆,并且前景广阔。从企业来讲,从企业的软件研发设计,到企业产品的生产制造,再到企业经营管理、营销服务等等,都可以看到很好的大模型落地的场景。从消费者市场上来讲,大模型的主要目标是提升工作效率,目前办公类、对话类大模型产品的比例已超过 50%,可见消费者市场上大模型应用也是广受欢迎。同时我们也可以看到,类似于 ChatGPT 的一些 ChatBot 应用形式,如文心一言、通义千问、Kimi 等 ChatBot 应用的调用量也非常大。无论企业还是消费者,对大模型应用都热情高涨。
5.
大模型应用规模化落地仍存在诸多挑战
在实际应用过程中,要达到规模化落地目前还面临着很多挑战。当前大模型适用的场景更多是创意生成、对话交互、知识管理或者是数字内容生成等,在一些对科技要求比较高的场景、对模型幻觉不可容忍的场景、对动态性要求非常高需要离线训练的场景,还有需要实时海量数据的场景,大模型规模化落地仍存在困难。大模型工程化落地不仅面临技术挑战,还有应用的挑战。我们希望在不远的未来能够更好地解决这些问题,提升大模型运营的能力,包括强化监控、维护和更新策略,确保模型能够在不断变化的环境中保持高效和稳定的性能,降低整个模型系统运行的成本,从而助力大模型规模化落地。
6.
四大支柱构筑大模型工程化体系应对挑战
从方法论的视角审视,我们认为应从技术工具、数据治理、运营管理以及应用开发这四个层面着手,解决当前面临的一些问题:
-
技术工具层面:
我们亟需更为卓越的大模型平台作为支撑,以助力我们更为顺畅地开展模型的开发、微调、部署以及应用运维工作。
-
数据治理层面:
需要更为优质的数据治理工具或平台,协助我们将现存数据妥善地收集、清洗与管理,进而构筑成大模型所需的高品质数据集。毕竟“Garbage in, garbage out”这一原则依旧极具适用性,模型的推理结果与模型训练时所用数据的质量紧密相连,故而数据治理在这一过程中起着至关重要的作用。
-
运营管理层面(LMOps):
借由运营管理,我们能够更为有效地连接开发团队、部署团队、运营团队以及风险管理团队,构建涵盖大模型研发、部署、运维的完整流程,促使整个流程愈发自动化与标准化,使大模型的生产、微调过程更为高效且呈现流水线化特征。
-
应用开发层面:
鉴于大模型具有一定的局限性,仅拥有一个大模型难以切实解决问题,我们需要凭借大模型生成相关的应用,或者将其与现有业务系统相融合,方可充分释放模型的能力,将大模型的价值全面应用至业务体系之中。因此当下颇为热门的 Agent 智能体技术得到了广泛的应用。我们坚信,在未来的智能体领域,将会涌现出更多、更优且更为成熟的落地应用。
我们应从上述四个层面出发,为大模型公众化体系的落地提供支撑,实现大模型的高质量、大规模以及高效率的开发与应用落地。
LMOps
是模型落地核心工程化要素
第二部分将介绍目前大模型落地的一些核心工程化要素。
1.
工程化方法推动人工智能可信和规模化发展成为产业共识
通过工程化的手段促使人工智能实现可信且规模化的发展,此乃整个产业的共同认知。这种工程化的理念能够融入人工智能体系,助推人工智能在诸多实际场景中实现规模化、可靠且稳定的应用。实际上,早在 20 世纪 60 年代,软件工程领域便已有相应的工程化方法的成功实践。我们最初的软件工程 1.0 构建起了一套工程化体系,使得软件的开发能够遵循既定的章法,依据明确的依据来开展相应工作,进而让软件开发的过程更加标准化、流程化。而与工程化相关的软件工程方法,同样能够应用于 AI 的整个研发运营流程之中,帮助我们化解在 AI 开发以及运营应用过程中所面临的一系列挑战。故而,我们应将系统化、规范化的方法应用于 AI 软件的开发、运营以及维护过程,以确保软件能够实现高质量、高效率且可信的交付。
2.
面向传统人工智能的 Ops 已成体系
MLOps 是机器学习模型生产过程标准化、自动化和可持续改进的体系。传统的 MLOps 体系已较为成熟,包括很多原则,如可协作、持续性、可复现、版本化、可测试、可追溯、可监控、自动化等。对于大模型时代而言,运用比较多的原则如下:
-
第一个是打造团队协作一体化。
现有业务、数据、算法,还有 IT 运维团队的成员,通过这套体系,形成规范化的流水线化的工作的流程,打破团队之间的沟通屏障,使团队间合作更加紧密,降低合作成本。
-
第二个是构建全链路闭环反馈。
模型本身天生有能力退化的风险,要使模型在上线之后还持续保持强大的推理能力,就需要很好的闭环链路,进行相关的数据回流,使模型可以持续集成、微调、交付,根据监控和运营持续提升模型能力。
-
第三个是实现需求快速响应和敏捷交付。
通过构建过程、集成反馈、部署发布、更新策略等环节的高效管理实现需求的迅速响应和敏捷交付,加速模型迭代速度。
-
第四个是释放 AI 资产价值。
模型开发过程中,涉及的资产不仅是模型本身,还包括元数据、监控指标等数据资产,模型在应用过程中可能还会涉及到一些组件、Agent 应用等等,这些都属于 AI 资产,需要进行统一管理。同时,要促进 AI 资产在组织内的充分流动,实现资产的共享复用、保值增值,以彩释放其最大利用价值。
3. MLOps
是什么?
传统的机器学习 MLOps 已经相对比较成熟,对于大模型的运营管理有很好的借鉴作用。MLOps 是一套工程化方法,连接模型构建团队和业务及运维团队,为机器学习模型全生命周期建设标准化、自动化、可持续改进的过程管理体系,使组织可稳定可靠、规模化、高质效地持续生产机器学习模型,为业务赋能。MLOps 覆盖了模型需求设计、开发、交付以及运营的全生命周期,底层基于我们的各种 AI 资产,包括元数据仓库、模型仓库、代码库的管理,来提供支撑。
4. MLOps
的地位作用
如上图所示,MLOps 在整个人工智能体系中处于中上层的位置。Infra 基础设施层,包括我们所常见的算力、存储、网络和边端设备的等环境。其上是数据中台,包括各种数据的管理、数据的接入、数据的存储、数据的处理等。再往上就是架构引擎,包括大小模型学习框架。这三层构建了整体的 AI Infra 基础设施。
在这个基础设施之上,就是 MLOps 管理体系,包括了模型开发、交付、运营、管理的方法论,还包括这其中所需的一些平台,比如大模型的平台、AI 开发平台,还有 MaaS 平台等,帮助我们可以更好地提供模型的服务,并且可以很好地管理模型以及模型的服务。由此可见,MLOps 在整个人工智能体系中的作用是支撑 AI 规模化生产、赋能下游的应用场景。
5.
国内 MLOps 落地现状
国内 IT、金融、电信行业率先落地 MLOps,帮助这些行业企业实现了不同程度的成本降低、效率提升或质量提升。
6.
大模型兴起推动 LMOps 发展迈向新时代
大模型时代推动了 MLOps 向 LMOps 发展。早在 2018 年我们就可以看到大语言模型的初步发展,模型的复杂性和规模化需要专门的运维和相关工具来支撑,当时就有人提出了 LMOps 的概念,但并未广泛推广。LMOps 真正受到重视和广泛接受是从 2022 年底开始,大家都知道这是在人工智能时代很关键的一个节点,即 GPT 问世,它掀起了大模型发展的浪潮。自 2022 年底迄今,大家对 LMOps 的关注度与日俱增,且逐渐明晰这套体系在大模型的管理与运营方面举足轻重。诚然,今年大模型的规模化落地成效尚不显著。我们坚信,明年或将成为大模型规模化落地的关键之年。当基于大模型的应用落地愈发增多并逐步实现规模化后,LMOps 的需求则会更为迫切,借其助力,可使我们规模化落地后的过程更为自动化、流水线化且高效。
7. LMOps
针对大模型的独特挑战助力大模型落地应用
LMOps 是针对大模型的 Ops 体系,可以帮助企业快速建设、运维和管理大模型,使企业可以实现从数据到服务的完整流程。其具有以下几个典型的特征:
-
在数据工程方面:
LMOps 更多关注多模态、非结构化、多样化数据的收集、处理以及数据合成、数据生成的维度,因为大模型时代需要更多的数据。
-
在模型调优方面:
大模型不仅关注模型训练,还会关注模型的微调、模型的重训以及模型的强化学习,还有提示词工程等工程化方法也会运用到其中。
-
在推理部署方面:
在云端部署大模型时,需要更强的模型小型化或者模型量化技术。同时,对于模型推理实验方面,也需要进一步的优化来进行模型推理加速,这与传统小模型也有很大区别。
-
在运营管理方面:
由于大模型所需的计算资源极为庞大,我们需要考虑如何更合理地运用算力与资源,以及如何将数据回流流程更为有效地融入到模型运营管理体系之中。
8. LMOps
体系保障大模型可运营可修正等能力
LMOps 体系可以保障大模型具备可运营、可修正等能力。LMOps 包括了数据工程、模型调优、模型交付以及模型运维几个层面,划分与传统 MLOps 相似,但内容有着比较大的差异。LMOps 其实就是 MLOPS for 大模型,它使大模型通过更加体系化的过程更快获得更优的专有能力,适应更多场景的落地,通过流程化、自动化、持续闭环、可管理等一些方法和原则来推动大模型运营体系的落地。
9. LMOps
六大环节全方位保障大模型的完整生命周期
LMOps 从数据、调优、推理、评估、部署、运营六大环节来保障大模型整个生命周期的运行。在数据层面,需要大规模的加工和配比数据的能力。在调优层面,需要完成监督调优、强化学习、微调等。在推理层面,要实现推理加速和提示工程。在模型评估层面,需要对模型做一些性能的评估或者对比不同模型版本的能力。在部署层面,需要做到持续交付,还有推理部署以及量化等工作。最后在运营环节,需要对大模型进行监控和分析,实现模型数据回流,并进行运行维护的工作。在大模型的整个生命周期中,要从这六个方面推动应用的落地,以实现对相应场景的赋能。
10.
大模型平台提供 LMOps 底座支撑
大模型平台是 LMOps 非常重要的一个工具支撑,涵盖了数据工程、模型调优、模型交付以及服务运营等能力,依靠这一平台才能成功落地 LMOps。诸多大型央国企纷纷开展相应工作,或自行构建,或采购大模型平台,助力企业借助基础大模型或行业大模型,基于企业内部私有数据进行生成与调优,以打造企业专属模型。大模型厂商推出的基座模型数量正逐渐收敛,预计未来此类大模型厂商的数量还将进一步减少。故而,在模型厂商数量渐少的形势下,如何保证企业更优地享用大模型服务,就亟需出色的大模型平台予以支撑。
11.
平台工具图谱逐渐扩大,国内外分别朝着大而全、小而精方向发展
信通院对国内外的大模型平台进行了调研,在去年年底时有超过 130 个工具。国内如百度的“文心千帆”、阿里的“百炼”等大模型平台逐渐成熟,而整体上数量仍很有限,仅占国内外总数的 10% 左右。国内的企业主要是以互联网头部厂商为主,他们会搭配自身的云设施去做相关的售卖和推广。国内外平台工具的显著差异在于:国内倾向于追求“大而全”,而国外则更侧重于“小而精”。实际上,国外并非没有“大而全”的工具,比如亚马逊的 Bedrock,便是一个颇为典型的大模型平台工具。而除此之外,还有众多“小而精”的工具,其整体数量颇为可观。
12.
建设明晰的运营管理体系,且助力大模型高质效赋能业务
有了平台工具之后,还需要建立一套良好的研发运营体系来助力大模型高效落地。整个运营管理体系如上图所示,通过模型调优 CT、CI/CD 等一些持续的模式来保证模型整体的质量,通过监控、数据回流、运维、维护库这样一些能力来维持模型推理的质量。
13. LMOps
实践助力行业落地见成效
LMOps 助力行业落地已初见成效,在制造、医疗保健、金融以及供应链和物流等行业都有了很好的实践,为这些行业的企业实现了不同程度的降本增效。
未来趋势与展望
最后进行一下总结,并对 MLOps 的未来发展趋势进行展望。
1.
信通院已经构建了完备的 MLOps 标准体系
前面提到,信通院早在几年前就已开始 MLOps 体系的相关研究,并于去年开始 LMOps 的研究,希望把 MLOps 体系运用到大模型的研发运营过程中。目前已取得一定成果,比如完成了开发管理、模型交付、模型运营等相关标准的编制,并且在 ITU 等国际标准组织上完成了相关标准的立项。
2.
信通院牵头提出 LMOps 标准
信通院牵头提出大模型运营平台(LMOps)标准能力域重点关注模型运营与管理,将大模型运营能力划分为数据工程、模型调优、模型交付、服务运营、平台能力 5 个能力域及其下属的 25 个能力子域,共计 183 个能力项,为大模型建设和评估提供参考。当下,有些企业对模型运营颇为关注,一些企业更是以此标准来构筑内部模型运营体系,为企业内部大模型的落地实现了一定程度的价值增益。
3. LMOps.
发展展望
未来 LMOps 会在以下几个方面进一步发展,首先是会进一步提升交互能力和可视化能力;另外,运营管理体系会进一步闭环,数据回流在大模型生产运营过程中非常重要,但这块的能力还不够成熟,仍需持续研究和实践;此外,整个 Ops 的过程会更加自动化和智能化;同时,资源的利用将会更加高效,尤其是大模型时代对算力的要求非常高,在算力有限的情况下,如何更合理地利用有限的资源来达到更好的效果也是重要课题之一;最后是 Agent ops, Agent 正受到越来越多的关注,多智能体这种形式的应用会越来越广泛。
以上就是关于 MLOps 在大模型时代的发展现状与趋势的分享,欢迎大家关注信通院,并进行更加深入的探讨。