专栏名称: 中国计算机学会
中国计算机学会官方订阅号,为CCF会员及计算领域的专业人士服务。
目录
相关文章推荐
看金坛  ·  微信又上新功能! ·  昨天  
看金坛  ·  微信又上新功能! ·  昨天  
三峡小微  ·  新华丝路 | ... ·  昨天  
今视频长天新闻  ·  千万粉丝训犬师网红潘宏清空主页,下架所有视频 ... ·  3 天前  
今视频长天新闻  ·  千万粉丝训犬师网红潘宏清空主页,下架所有视频 ... ·  3 天前  
51好读  ›  专栏  ›  中国计算机学会

基础AI技术的革新与应用探索 | CCCF精选

中国计算机学会  · 公众号  ·  · 2025-01-31 08:00

正文



本文剖析了蚂蚁集团在基础AI技术领域的最新革新与广泛应用探索,通过整合深度学习、自然语言处理、计算机视觉、大模型等核心技术,提升了金融服务的智能化水平,推动了金融科技行业的边界拓展。本文重点介绍了在大模型基座及落地等方面的创新应用,显著增强了用户体验与服务效率。





大家好,很荣幸能够代表蚂蚁集团,向大家汇报我们在基础人工智能领域的最新进展和探索。在这个大模型时代,我们致力于推动人人可得的人工智能,助力社会的智能化升级。


科技创新持续驱动蚂蚁业务发展


在过去的二十多年里,支付宝始终致力于构建未来服务业的数字化基础设施,为世界带来更多微小而美好的改变。通过为广大消费者和商家提供快捷支付、二维码收付款、“碰一下”等多种便捷服务,我们希望每一个个体都可以享受到普惠、绿色的金融服务,每一家小微企业都能拥有平等的发展机会。在此过程中我们积累了深厚的智能化技术能力。以风控为代表的动态风险感知、理解能力,以绿色计算为代表的全局调度与精细化服务推理能力,以及以智能助理为代表的专业领域内容高质量生成、交互能力,展现了支付宝在技术创新方面的持续投入。在基础人工智能领域,蚂蚁集团特别注重图学习技术、因果机器学习、大规模运筹以及大模型技术体系的研发和应用。新技术的长期探索为我们提供了新的机会,极大地改善了我们与客户的互动方式,使我们能够更好地处理风险和信任决策。这些科技创新不仅提升了支付宝的服务质量,也推动了整个行业的持续健康发展。


从连接到决策到人机融合的大模型


我们将上述技术总结为三大核心领域:连接技术、决策技术和大模型技术。具体而言,以图神经网络为代表的连接技术,精准刻画复杂关系,实现以更低成本的方式连接用户、商户和机构,构建起一个高效的网络生态系统;以因果推理和大规模求解为代表的决策技术,深度理解复杂场景并实现精细化决策,提供了应对专业领域复杂商业问题的有力工具;而大模型技术则从“一端多入口多服务”转变为“一端一入口深服务”,构建了人机融合应用的新范式,持续提升用户体验和服务效率。


首先,以图神经网络、图谱和序列数据建模为核心的连接技术,显著提升了风控和推荐场景的精度与效率。例如,在图结构方面,我们开发了高效的图采样机制和可解释的注意力机制,并自主研发了时空感知图神经网络、自适应图神经网络等技术,捕捉多元且动态变化的网络结构,突破了工业图数据的结构复杂难题。基于图计算存储引擎,我们稳健地将图的规模拓展到百亿级节点、万亿边,在超大规模并发下高效计算推理,达到了灵活扩展可解释的目标,极大降低了在复杂多变工业场景中的业务应用门槛。通过这些连接技术,我们实现了从横向到纵深的客户理解,从静态到动态的客户认知,并在行业认知中实现了知识的自动化处理。


其次,以自动学习、因果推断和大规模优化为代表的决策技术,正在彻底改变我们处理复杂问题的方式。这些技术通过自动搜索算法实现建模效率和效果的显著提升,使数据驱动的决策过程更加高效和精准。因果推断技术则为我们提供了深入理解决策背后因果关系的能力,使我们能够追溯决策的源头,并在必要时进行有效的干预。通过优化手段,我们可以在众多可能的决策方案中找到最优解,还确保了决策的公平性。例如,在资源分配问题中,优化算法可以帮助我们在满足所有约束条件的前提下,找到最公平和最有效的分配方案。它们为构建更加智能、公平和高效的决策系统提供了强大的技术支持。


最后,在大模型技术领域,我们通过对规模、效率和可信三个关键维度的优化,专注于具体应用场景,致力于打造更高效、更可靠的大模型,以满足实际需求。


规模


在蚂蚁集团自主研发百灵(Bailing)千亿级混合专家模型(Mixture of Experts, MoE)的探索过程中,我们确立了“从零开始”(from scratch)的构建策略,并采用了路由专家与共享专家相结合的架构模式。相较于“从检查点开始”(from checkpoint)的方法(欧洲Mistral AI公司主推的方法),“从零开始”的方法展现出更为显著的优势。鉴于大模型开发是一项复杂的系统工程,我们同步推进轻量(lite)级别模型的训练,以此作为效果验证和问题排查的手段,有效避免了潜在的技术陷阱,显著提升了基础设施的打磨效率,也提出了异步存储检查点、故障自愈、自适应尖刺治理、专家并行/负载均衡等多项实用技术,防止了模式的坍缩,确保了MoE的平滑训练。最终,百灵MoE模型在千卡级别的训练中,实现了约30%的MFU(模型浮点运算利用率),有效训练时长占比高达约95%。从表1中可以看出,在常用的关键基准(benchmark)上,其阶段性训练成果略优于业界同量级最先进的(State of the Art, SOTA)的开源MoE模型。


表1 百灵MoE与业界SOTA-MoE的对比

在后训练(post-training)模型中,奖励模型(Reward Model, RM)的参数规模与训练难度成正比。通过采用Zero3和Tensor Parallel等技术,我们成功实现了奖励模型的扩展,从十亿参数和百亿参数级别,进一步扩展到千亿参数级别。如图1所示,随着模型规模的增加,奖励模型训练损失显著降低,评测准确率也持续上升,助力对齐效果进一步飞跃,为未来奖励模型的进一步优化和扩展提供了有力的技术支持。


图1 奖励模型训练损失


效率


在效率提升方面,我们开发了迭代蒸馏剪枝的方案,针对特定场景,高效且有针对性地优化模型尺寸。该方案不仅能够生成适合特定应用的模型,还能确保模型在裁剪后性能不会显著下降,主要做法是:交替迭代剪枝蒸馏,在缩小模型尺寸的同时,保证性能衰减有限。针对硬件资源利用率的问题,我们提出了Lookahead方案。该方案主要解决在显存带宽有限的情况下资源利用率不高的问题,它利用树检索和更新流程等技术,实现更高效的下一个词元(token)预测方法。通过Lookahead方案,我们能够显著提升模型的推理速度,提高资源利用效率,从而优化用户体验。


可信


在确保可信方面,我们成功地融合了图谱技术与大语言模型(LLM),并提出了知识增强大模型服务框架KAG。针对“建立机构、区域风险事理知识图谱,并生成带有明确观点的分析研报”这一任务,我们采用了一种创新的方法:首先,将知识抽取(Text2KG)的逆过程(KG2Text)作为预处理任务,使LLM能够初步理解领域背景知识,并与知识图谱(KG)对齐;随后,结合分析对象的实例特征,从知识图谱中提取相应的知识(概念和逻辑);最后,将知识图谱作为导师角色,引入强化学习知识图谱(RLKGF)的反馈机制,以增强LLM与知识图谱的对齐。这一方法有效克服了以数据表为输入的传统研报生成方法中常见的大量观点缺失和错误问题,实现了泛化性知识的理解(understanding)—融合(fusion)—注入(injection),使观点的正确率提升至70%以上,极大地提高了风险分析师的工作效率。


更进一步,我们可以在大模型中注入高质量的知识图谱数据,利用图谱的演绎、溯因和归纳推理能力,不仅能有效避免类似自我指导(self-instruct)方法完全依赖语言模型可能产生的幻觉和模板多样性差等问题,还能显著提升模型的认知能力。如图2所示,在不同大小的模型上,相比基准(base)模型,该方案在处理复杂任务时表现出更高的准确性和一致性。


图2 LLM在参数量为1B(左图)和5B(右图)的模型上的效果对比


此外,通过从知识图谱中依据预设的推理路径模式,自动化生成基于思维链(COT)的问答指令数据,我们可以观察到,这一方法能够显著优化大语言模型在处理多跳复杂推理问题时的表现。这种优化不仅提升了模型对问题的拆解能力,比如在新领域上,问题拆解准确率从25%提升到88.3%,还增强了其在面对噪声数据时的鲁棒性,比如在针对检索增强生成(RAG)结果过滤无关信息、缓解信息冲突方面,相关评测集指标从51%提升至75%,从而全面提升了大模型在复杂推理任务中的表现,使它的回答结果更可信。


进一步地,通过对指令数据生成过程中的指令宽度和深度进行精细调优,比如通过扩展、重写、投票、去污等方法,可以进一步提升模型的可信度。具体而言,指令宽度的优化意味着增加指令的多样性和全面性,确保模型能够从多个角度和层面理解问题,从而提高其回答的全面性和准确性。指令深度的提升侧重于深化模型对问题内在逻辑和细节的理解,帮助其进行更深入、更精细的推理,避免在复杂问题处理过程中出现浅尝辄止或理解偏差的情况。通过这两方面的改进,我们不仅能够增强模型在面对复杂问题时的理解和回答能力,还能够提升其在各种应用场景中的表现,进一步增强用户对其的信任和依赖。


面向未来:AI产业落地,实现人人可得的三个核心问题


展望未来,我们深信,大模型技术的持续发展与完善,必须聚焦于提升其可靠性、经济性和易用性,这是推动AI技术在产业中进行实际应用的关键,也是实现让每个人都能共享AI带来的便利与价值的终极目标的前提。例如中国移动支付以亿分之一级别的资损率,极大地增强了使用的安全性与可靠性;油页岩开采等复杂技术需要持续提升其投资回报率,降低大规模应用的经济成本;照相技术从专业相机到“傻瓜相机”的演变,不仅降低了使用门槛,提升了易用性,更因其经济性,使摄影艺术飞入寻常百姓家。这些先例启示我们,只有当大模型技术达到类似的高可靠性、经济性和易用性标准,才能真正加速其在各行业的广泛应用,开启AI技术的全民共享时代。


为此,我们通过构建基础模型体系、统一智能体开放平台以及多场景行业应用,致力于让AI像扫码支付一样便利每个人的生活。首先,我们构建了一个全面的基础模型体系,不仅具备了语言、视觉等多模态的智能处理能力,还涵盖了从基础认知到高级决策的智能体系。其次,我们打造了一个统一的智能体开放平台,通过标准化的接口和协议,使不同领域、不同场景的AI应用能够无缝对接,降低了AI技术的接入门槛。最后,我们积极拓展多场景的行业应用,从医疗、金融到日常生活,AI技术正逐步渗透到社会的每一个角落。正如扫码支付一样,我们相信,AI技术也将成为人们生活中不可或缺的一部分,让生活更加便捷、智能、美好,通过科技的力量持续弥合数字鸿沟。通过这些技术努力,包括上文提到的连接技术、决策技术和大模型技术等一系列基础AI技术,最终使大模型应用真正融入用户的日常生活,陪伴用户每一天。

(本文根据CNCC2024特邀报告整理而成)


扫码观看本CNCC2024报告视频

https://dl.ccf.org.cn/video/videoDetail.html?_ack=1&id=7227251889227776



周 俊

CCF高级会员。蚂蚁集团智能引擎技术事业部副总裁。主要研究方向为机器学习、运筹优化等。

[email protected]


CCF推荐

【精品文章】







请到「今天看啥」查看全文