专栏名称: 中国计算机学会

中国计算机学会官方订阅号，为CCF会员及计算领域的专业人士服务。

申报倒计时7天丨CCF-蚂蚁科研基金隐私计算专项&绿色计算算效专项

中国计算机学会 · 公众号 · · 2024-11-17 17:00

正文

CCF-蚂蚁科研基金隐私计算专项&绿色计算算效专项于2024年10月24日启动申报，申报截止时间： 2024年11月24日 24:00（北京时间） ，目前距离申报截止仅剩7天，欢迎CCF会员积极申报。

10月24日， CNCC 2024期间，2024年度CCF-蚂蚁科研基金隐私计算专项&绿色计算算效专项于蚂蚁集团主办的“产学研融合助力科研探索暨CCF-蚂蚁科研基金发布论坛”上正式对外发布，隐私计算专项计划投入约 300 万元，共推出 16 个课题，绿色计算算效专项计划投入 500 万，共推出 21 项研究课题。申报截止时间为北京时间 2024年11月24日24:00（北京时间） ，本文将就研究课题做详细介绍。

CCF-蚂蚁科研基金隐私计算专项

一、可信机密计算

1.考虑模型加速的硬件异构大模型安全推理技术

背景：基于密码学的大模型安全推理技术存在效率不高的问题，该问题解决思路转向基于可信执行环境（TEE）的大模型安全推理方案。目前TEE设备的现状是现存大量仅支持CPU计算的TEE，单纯用仅支持CPU运算的TEE和明文GPU推理还存在数十倍的效率差距，对于长文本的情况差距会更大。如何利用TEE（CPU）的安全能力和明文GPU设备的快速计算能力是研究热点，典型的方法是把非线性计算放入TEE内，线性运算经过one-time- padding 的轻加密方法放到明文 GPU设备上运算。但这样会造成大模型逐层切割，TEE（CPU）和明文GPU设备的IO通信大大增加。虽然使用模型量化或稀疏化的操作可以减少异构设备间的 IO通信，但大模型推理过程中的加速框架（vLLM 等）就不可用，最终使得硬件异构的TEE（CPU）和明文GPU方案的实际时效性比明文GPU 推理效率还差很多。本课题希望在异构硬件的环境下，利用轻加密算法、大模型优化算法，同时使能或部分使能大模型加速框架（vLLM 等）完成高效实用的大模型安全推理技术。

目标：

1）源代码：相关的原型代码；

2）申请发明专利至少2项；

3）产出蚂蚁认可的CCF A类论文1篇。

2.机密计算安全监控模块的漏洞挖掘与安全分析

背景：数据已成为驱动科技进步、政策制定和经济发展的新型生产要素和战略性资源。而机密计算，作为解决数据要素流通安全问题的关键技术，相较于其它隐私计算技术，具有性能好、普适性广、易用性强的特点。然而相较于其它隐私计算技术，机密计算需要用户信赖机密计算的信任根。因此机密计算的信任根的正确性与安全性显得格外重要。

目前主流的机密计算技术，例如 TDX，SEV-SNP、ARM-CCA、HyperEnclave 等，都依赖于一个运行在最高特权级的软件作为安全监控器，为具体的 TEE 实例提供机密性、完整性、可验证的保证。安全监控器是由软件编程实现，一旦安全监控器存在漏洞，那么整个机密计算提供的保证将不复存在。针对于机密计算安全监控模块的软件(HyperEnclave hypervisor，TDX module，SEV-SNP firmware等)，本项目需要通过系统的理论分析（例如形式化验证）以及系统的漏洞挖掘等方式（例如黑盒测试、fuzzing测试、程序静态分析等）提供安全的背书。

目标：

1）源代码：相关的原型代码；

2）申请发明专利至少2项；

3）产出蚂蚁认可的CCF A类论文1-2篇。

3.云端机密计算环境的隐私保护研究

背景：机密计算技术在云端的部署可以让它面向更广泛的应用场景以及参与方，同时也对机密计算环境的隐私保护能力提出了更高的要求。例如苹果提出了 Private Cloud Compute云端隐私计算架构，用于服务广泛的终端设备用户。在隐私计算、移动App等应用场景下，同样需要一套完善的隐私保护框架以及相应的算法协议设计。本项目希望基于HyperEnclave、Occlum等蚂蚁现有的开源机密计算方案，探索云端部署时所面临的加密保护、任务不可追踪、任务可验证、身份匿名化等隐私保护需求，通过合理使用密码算法、硬件安全设计等资源，设计相应的安全架构方案。

目标：

1）源代码：相关的原型代码；

2）申请发明专利至少2项；

3）产出蚂蚁认可的CCF A类论文1-2篇。

4.跨平台信任根虚拟化技术研究

背景：随着云计算和隐私计算技术的飞速发展，密算中心成为实现数据全链路安全保障的首选方式，如何在多样化的密算中心平台及其虚拟化环境中构建统一且可信的安全架构，特别是在多租户环境中实现隔离的信任根，已经成为保障密算中心数据隐私和计算安全的关键问题。然而，现有的信任根虚拟化技术(vTPM)依赖于特定的硬件实现（如SGX、SEV等），在跨平台和跨服务中的应用面临诸多局限性，尤其是在资源受限的轻量级虚拟化平台上，如何构建通用跨平台信任根成为亟待解决的问题。

为了应对这些挑战，本项目旨在突破现有信任根绑定特定硬件的局限，实现更灵活的跨平台安全能力，形成更为通用性的信任根虚拟化(vTPM)生态。

目标：

1）源代码：相关的原型代码；

2）申请发明专利至少1项；

3）产出蚂蚁认可的CCF A类论文1篇。

5.应用NbSP安全范式系统研究TEE设计与实现

背景：传统的安全系统构建范式是基于攻击的，即根据已知的攻击手段构建防御系统。零越范式(Non-bypassed Security Paradigm)尝试从攻击路径和控制点角度重新审视了安全系统，要求安全系统在所有攻击路径上增加不可绕过的审查点。

当下围绕TEE设计漏洞的新攻击不断涌现，如：侧信道攻击，亡羊补牢的现象尤为突出，究其本质是设计之初缺乏系统化分析。本研究希望应用NbSP安全范对 TEE设计展开系统化梳理，进而让现有或未来TEE设计，有据可依，有迹可循，更加从容的应对未知攻击。

目标：

1）基于NbSP安全范式对业界主流硬件TEE TDX、SEV等，以及蚂蚁自研TEE HyperEnclave进行的系统分析，具体包含：1) 已知与潜在攻击路径 2) 访问控制点 3) 完备性；

2）产出蚂蚁认可的CCF A类论文1篇。

6.可信应用代码透明化研究

背景：构建以数据为关键要素的数字经济已经成为国家的重要战略，而数据的安全流通涉及到端到端各个层面安全可信机制的保障，其中可信应用的代码透明化具有重要的意义，代码越透明，数据的流通越值得信任。虽然可信执行环境TEE 和远程证明机制能保证应用和使用中的数据相对TCB以外软硬件组件和人员都是黑盒隔离和安全的，但是仅仅这些是不够的，我们也希望运行在TEE内部的可信应用程序的逻辑是透明和无害的。

可信应用透明化研究是构建完整可信透明化信任体系的一个重要环节, 目前常规的做法是开放源码给专家用户审核，但这对非专业用户几乎是不可能的，我们希望可以借助有效的工具解决和改善这个问题；另外，我们还需要保证可信应用度量值和实际运行的代码对应关系，严格意义上只能通过可复制构建过程验证，但是这个方式对用户有专业能力和资源依赖，我们同样希望可以通过工具抽象可复制构建过程，延迟验证过程到审计追责阶段。具体的讲：可信应用代码透明化需要解决以下问题：1). 生命周期管理流程和安全透明化 2). 供应链安全和可信申明 3). 威胁检查，源码或者二进制级别 4).配置，环境变量等敏感外部输入透明化和验证技术 5). 相关的存证、溯源技术

目标：

1）POC源代码：设计与相关的原型代码；

2）申请发明专利至少1项；

3）产出蚂蚁认可的CCF A类论文1篇。

二、密码学

1.可证可信混合计算加速研究

背景：数据已成为新的生产要素和战略性资源，推动着科技进步、政策制定和经济发展。隐私计算作为解决数据要素流通中的关键技术，越来越受到重视。然而，单一的加密计算（如多方安全计算和同态加密）由于性能的局限性难以处理大规模数据；而单一的机密计算由于依赖硬件信任根，端侧部署成本高，短时间内难以大面积推广。因此，本课题拟研究如何结合加密计算和机密计算技术，特别是在部分机构拥有可信硬件的情况下，如何通过软硬结合的手段加速整体隐私计算性能。旨在设计一种高效、安全、可扩展的隐私计算框架，从而解决现有技术在性能和安全性上的瓶颈，推动数据要素的安全流通与应用。

目标：

1）源代码：相关的原型代码；

2）申请发明专利至少2项；

3）产出蚂蚁认可的CCF A类论文1篇。

2.密态关系型算子加速研究

背景：数据已成为新的生产要素和战略性资源，推动着科技进步、政策制定和经济发展。隐私计算作为解决数据要素流通中的关键技术，越来越受到重视。然而，目前的加密计算技术（如多方安全计算和同态加密）主要聚焦于线性代数和机器学习相关算子的加速，对常见的关系代数-数据分析算子（例如排序和洗牌）的支持较差。本项目旨在设计创新的协议，以解决数据分析中关键算子的性能问题，从而提升隐私计算在数据分析领域的实用性和效率。

目标：

1）源代码：相关的原型代码；

2）申请发明专利至少2项；

3）产出蚂蚁认可的CCF A类论文1篇。

3.可信执行环境新型证明算法研究

背景：在隐私计算相关的技术路线中，可信执行环境（TEE）有相对较高的可落地性。然而TEE对硬件安全的依赖又一定程度影响用户对它安全性的信赖程度。在隐私计算的广泛应前景（例如toC隐私计算、密态大模型推理服务等）中，用户对安全性可能会提出更高的要求，但又缺乏对 TEE 硬件内部安全机制的审计验证能力。TEE底层的密码协议相应需要提供更高的安全性，通过零知识证明等技术的结合，降低用户的安全度量机制对硬件安全的依赖，提升用户对自身数据安全的管控能力。本项目希望结合上述技术，为TEE设计更加完备的远程证明与应用度量算法，降低用户端安全验证的门槛，提升用户对TEE云服务安全性的信任程度。

目标：

1）源代码：相关的原型代码；

2）申请发明专利至少2项；

3）产出蚂蚁认可的CCF A类论文1-2篇。

三、隐私+大模型

1.核身场景大模型身份信息隐私保护

背景：蚂蚁核身平台是数字身份的基础设施，为业务提供可信便捷的身份验证服务。应用生物识别(指纹、人脸、声纹等)、大数据、Al技术在数字化时代和为消费者解決“我是我”、为机构解決 “你是谁”这个挑战。目前服务核心系统链路承载着亿级流量，服务国内外十亿用户。为数十亿支付宝用户的资金安全保驾护航。蚂蚁域内核身覆盖国际、网商、消金等多个场景，由于数据隐私合规的诉求需要在多端多地进行本地化部署。

身份相关模型尤其是目前的大模型的独立部署存在大量的隐私数据泄漏问题。攻击者可以通过逆向等恢复原有训练数据中的人脸，身份证件等信息。目前核身平台通过基于多模态大模型的实时视频流主动交互推动核身，随着scaling-up下的模型容量的增大，模型的信息量进一步增加，模型逆向的空间和风险更大，更为突出。

目标：

1）源代码：相关隐私保护代码；

2）POC报告和相关的三方背书；

3）申请发明专利至少3项；

4）产出蚂蚁认可的CCF A类论文2篇。

2.大模型数据合成中的隐私计算技术

背景：在一体化大模型数据合成供给的业务实践中，面临着一个复杂而迫切的挑战：如何高效地利用客户私有的丰富数据资源及内部知识库，以合成高质量的训练数据，进而增强大模型的泛化能力和对特定任务的掌握度。这些数据不仅是企业宝贵的智力资产，同时也高度敏感，涉及严格的隐私保护与合规要求。因此，传统的数据集中处理方式已不再适用，必须寻找一种既能保障数据隐私，又能实现数据价值最大化的创新路径。“大模型数据合成中的隐私计算技术”聚焦于利用隐私计算与数据合成技术，在不暴露个人隐私或商业机密的前提下，对分散于不同客户间的私有数据进行高效、安全的整合与加工。本课题探索将联邦学习框架扩展到数据合成领域，通过在本地合成数据并仅分享合成模型或合成结果的差分更新，避免直接传输或集中处理原始数据，降低了隐私泄露的风险。

然而，与标注数据的联邦精调相比，大模型数据合成中的隐私计算技术需克服一系列独特的技术难关。首先，如何在保留数据真实性和多样性的同时，确保合成数据能够反映原始数据的统计特性及复杂结构，是提升合成数据质量的核心。其次，合成过程中的计算效率与通信开销，尤其是在跨域、跨机构合作时的异构数据兼容性问题，对算法设计提出了更高要求。此外，还需建立有效的评估机制，确保合成数据不仅在数量上满足大模型训练需求，更能在质量和隐私保护层面达到高标准。鉴于此，开展“大模型数据合成中的隐私计算技术”的课题研究，意味着要在隐私保护、数据合成算法的创新与优化、以及跨机构协同机制设计等多个维度上深入探索。通过与高校及研究机构的紧密合作，引入最新的理论成果与技术工具，旨在构建一个既安全又高效的合成数据供给体系，为大模型的持续进化提供强大动力，进而推动 AI 技术在尊重隐私、保障安全的基础上，更好地服务于各行各业的智能化转型与升级。

目标：

1）源代码：大模型跨域数据合成及迁移框架及模型；

2）申请发明专利至少3项；

3）产出蚂蚁认可的CCF A类论文1-2篇。

3.针对语言大模型的高效水印技术研究

背景：大语言模型（如ChatGPT，GPT-4，LLaMA等）在内容理解、文本生成、对话系统等领域的应用日益广泛，然而LLMs在生成高质量文本方面的卓越能力也带来了一些问题，例如生成内容的知识产权保护，合成虚假新闻、诈骗信息的泛滥等。在此背景下，水印技术作为一种有效的数字版权保护手段，日益受到研究者的关注。水印技术通过在生成内容中嵌入特定的标识信息，可以对内容来源进行认证，防止内容被篡改或未经授权的传播。这一技术在图片和视频领域已有较为成熟的应用，但在大语言模型生成的文本内容中，仍处于探索阶段。大语言模型文本水印的研究，不仅涉及到如何在不影响文本质量的前提下嵌入隐蔽信息，还需考虑如何在复杂多变的语言环境中实现稳健的水印提取。该研究不仅具有理论价值，对业务模型的防伪认证，知识产权保护等也有重要意义。

目标：

1）源代码：大模型水印技术的集成代码库以及新方案技术源码；

2）申请发明专利至少2项；

3）产出CCF-A类论文至少1篇；

4）性能指标：

效果方面，水印检测的TPR和F1在0.99以上；

鲁棒性方面，可以抵抗现有攻击手段的干扰；

通用能力影响方面，水印算法对模型生成文本质量不能造成过大影响。

4.高效实时可验证计算与隐私计算融合系统研究

背景：可验证计算的能力与隐私计算相结合，为数据价值流转带来新的协作模式。实现可验证计算的主要技术是零知识证明。在数据要素流通的大背景下，可验证计算有非常重的应用场景和价值，特别是在区块链与RWA（实物资产证券化）的应用方向上，可验证性尤为重要。既包括复杂的如AI推理运算、也包括在计算资源受限的计算终端上数据处理的实时性证明。这对当前可验证计算从算法到架构乃至异构加速都提出了全面的挑战。当前，面向通用、专用领域计算提出的可验证计算算法已经成为该领域的研究热点，大量创新算法不断提出，但距离实时性证明的要求，还是有差距。本项目期望在特定的领域切入，构建实时性满足应用要求的证明系统。

目标：

1)提出和落地新型证明协议、面向特定AI场景或者资源受限的端侧计算场景，设计新型专用可验证计算处理器，实现更优底层IOP协议、更快底层承诺方案等；

2)基于创新的协议或虚拟机完成端到端原型验证（如区块链+IOT、可验证AI等场景）；

3)产出通用零知识证明业界调研报告及CCF A类论文1篇和相关专利。

5.基于隐私计算的Deepfake检测模型开发与应用

背景：随着公司国际业务的加速发展，对用户身份验证(KYC, Know Your Customer)的需求日益增长，特别是在线金融服务领域，确保交易安全与用户真实性成为至关重要的环节。传统的KYC流程包括用户证件上传及后续的活体人脸识别验证，然而，这一过程频繁遭遇Deepfake技术的挑战。Deepfake技术通过高精度的人脸合成，使不法分子得以伪造身份，绕过安全检查，对企业的反欺诈体系构成了严重威胁。为应对此类风险，构建高效准确的Deepfake检测模型成为当务之急。然而，模型训练需要广泛而多样化的真人人脸数据集，这在国际业务场景下意味着数据需跨国界流通，直面数据出境与隐私保护的法律约束。因此，迫切需要一种创新的解决方案，利用隐私计算技术，在保护个人隐私的同时，实现跨国数据的安全共享与模型训练。

目标：

1）Deepfake检测模型：一个基于联邦学习框架的高精度Deepfake 检测模型，能够在保护用户隐私的前提下，跨地域进行模型训练与优化，有效识别合成人脸；

2）申请发明专利至少2项；

3）产出蚂蚁认可的CCF A类论文1篇。

6.针对在黑盒情况下垂域大模型价值窃取攻击的防御技术

背景：垂域大模型比通用大模型蕴含更多的专业知识，训练垂域大模型的数据是有较高的商业价值。为了保护垂域大模型，可以把其部署在安全的云端环境内。虽然垂域模型部署在安全的环境中，但也不可避免地遭受恶意prompt的输入，让垂域大模型输出远超普通query对应的垂域知识输出。如果频繁地进行此类恶意prompt的输入，垂域大模型的价值会被恶意泄露。需研究此类价值窃取攻击的特点，根据其特点设计相应的检测算法，并通过相关技术手段增强大模型本身的针对价值窃取攻击的鲁棒性。

目标：

1）源代码：相关的原型代码；

2）申请发明专利至少2项；

3）产出蚂蚁认可的CCF A类论文1篇。

7.满足最小可用原则的数据脱敏/安全蒸馏技术

背景：数据要流通，数据的安全性问题就需要被解决。结合密码学计算技术的方法在大模型应用中存在效率低的问题。数据脱敏/安全蒸馏技术是使得处理后的数据可以直接被大模型训练使用的一种安全数据处理技术。另外，大量的数据蕴含丰富的价值，在实现某一垂域大模型能力的需求下并不一定需要全部数据。如何在满足最小可用原则的条件下（可以是以选取的数据数量或每个数据信息大小等角度来考虑），对数据进行脱敏/安全蒸馏，是数据高效安全流通亟待解决的问题。

目标：

1）源代码：相关的原型代码；

2）申请发明专利至少2项；

3）产出蚂蚁认可的CCF A类论文1篇。

CCF-蚂蚁科研基金绿色计算算效专项

一、算力服务

1.GPU跨域跨异构训练研究

课题背景

当下供应链安全由于特殊原因受到了极大的挑战，多品牌战略有效缓解了供应问题，但是带来了新的挑战。目前大模型训练对于算力资源的诉求日益增加，动辄上万卡的训练集群依然在向着数万甚至数十万卡的规模延生，对于资源拥有者而言如何能够有效的统一化资源的使用，将异构卡统一组合为统一的更大的资源池用于分布式训练是一个急需解决的问题。对于联合统一资源池进行训练，不仅需要解决跨机通信问题还需要解决调度算力一致性问题，以及不同卡对于算子精度等一致性的问题。

研究方向（可选1～2个方向深入研究）

（1）跨机集合通信

不同品牌的算力卡尤其是NVIDIA（GPGPU架构）与其他厂商例如DSA架构的算力卡，在通讯库上均有自有集合通讯库，如何实现跨卡通讯，尤其是高效通信是联合训练的首要问题。

（2）GPU算力精度问题

对于不同架构的GPU加速卡，GPGPU架构以及DSA架构，两种架构除了设计理念，架构上的区别外，在精度上也有不同表现，需要研究一种方法实现在不同精度的前提下实现分布式并行的方法。

（3）GPU算效等价模型

不同GPU的算力不一致，受通讯效率以及拓扑结构等众多因素影响，如何能够基于算效一致性模型进行调度成为制约整个训练效率提升的重要因素。需要建立一个算力等效模型，为算力调度及算力平衡作为依据。

（4）跨域并行训练加速

探索如何合理选择和调整并行策略，根据实际带宽优化跨域网络传输，使得训练作业能够在不同的集群间高效并行运行，提升训练效率。

本项目可以实现异构GPU集群算力融合，在AI基础架构侧实现最终一致性，有效屏蔽异构带来的调度问题，通信问题，伸缩问题，集群规模等问题。

预期目标和产出

本研究计划开发出一个面向分布式大模型跨域跨异构训练系统，实现多集群异构卡（NVIDIA与其他DSA架构加速卡）间高效整合，实现跨域训练效率损失不大于20%，跨卡训练相比同卡训练性能（在归一化算力情况下）损失不大于10%，具体指标根据所选方向可以有选择性。

（1）1套分布式训练并行方案及原型软件/文档，能够实现跨域跨异构高效通信，并最终实现性能损失低于10%（根据方向选定，产出物可有方向侧重点）；

（2）1篇蚂蚁认可的高质量顶级学术会议CCF-A类论文；

（3）申请2项以上专利。

2.面向推理服务的动态显存管理研究

研究背景

高效的显存管理对于提升大模型推理服务的吞吐量和降低AIDC运营成本至关重要。显存利用效率的提升也是业界关注的热点。从解决碎片化(如 PagedAttention)、动态内存管理(如vAttention)、memory tiering(如 ServerlessLLM、AttentionStore)到分布式管理、策略优化和压缩技术（如 FlexGen），围绕显存优化的研究十分活跃。本课题旨在通过优化推理引擎的显存管理策略，提高模型混部成功率、长上下文应用效果和推理业务吞吐量。

研究方向

（1）显存消耗预测算法

研究如何在推理过程中结合众多的GPU指标以及流量特征预测显存的消耗量。

（2）按需申请显存的动态显存管理算法

研究如何在推理引擎不预先分配实际显存的情况下，按照请求的实际需求按需取申请显存，同时确保不会因为分配显存的延迟影响在线服务的时延。

（3）在离线推理场景下的混部策略

研究如何将在线推理服务和离线推理服务混部，最大化推理卡的GPU利用率，而且不影响在线服务的SLA。

预期目标和产出

（1）动态显存管理的推理引擎原型

通过本课题的研究，产出一个能够按需申请显存的动态显存管理的推理引擎原型，启动时不预留显存，接收流量时按需申请显存，同时尽量减少因为分配显存导致的时延问题。需要提供benchmark 报告，证明TTFT，TPOT，RT等指标符合性能要求。

（2）提升GPU利用率的混部策略

结合动态显存管理，提高GPU显存的利用率，减少显存的闲置问题，同时结合实际环境的流量特征提供benchmark证明该混部策略的有效性。

（3）1 -2篇相关领域的创新专利或者软件著作权。

（4）发表1-2篇 CCF-A类会议论文。

（5）交付一套完整可执行的原型系统及相关文档。交付一套完整的代码和文档，并鼓励整合开源，以促进技术交流和行业发展。

3.Kata机密容器GPU安全性增强

研究背景

Kata Containers是由蚂蚁团队参与发起和维护的OpenInfra Foundation顶级开源项目，是云原生行业安全容器的标准实现。传统的Kata容器以虚拟机为安全边界，允许在容器中运行不可信的代码并保护容器基础设施不被攻击。TDX/SEV是Intel和AMD推动的最新的TEE（Trusted Execution Environments）实现方式，把内存加密技术和虚拟化技术结合起来，克服了上一代 TEE 技术的兼容性缺点，让 TEE 技术被广泛使用成为可能。

基于TDX/SEV等VM-TEE技术，Kata Containers实现了一套机密容器方案，把 Kata 的安全边界从保护基础设施扩展到了同时保护容器执行内容。这项技术适合用在需要高数据保密级别的场景，非常适合用来保护在第三方提供的基础设施中运行和保存的蚂蚁业务数据信息。

同时，随着AI大模型训练以及大模型推理等在云上部署的需要，对于第三方用户的训练数据和推理数据进行保护也势在必行。因此，使 TEE 能够保护需要GPU 处理的数据也成为一个必然。然而，在支持GPU的TEE方面存在几个关键挑战。首先，大多数GPU硬件缺乏机密计算（CC）特性、信任根和内存加密模块。其次，连接CPU和GPU的通道通常不受信任，当数据需要在CPU和GPU之间流动时，需要进行数据加密/解密。NVIDIA虽然发布了几款支持CC特性的GPU，但是由于对中国禁止售卖，所以国内很难拿到这样的GPU卡。

研究方向

（1）验证TDX/SEV的根信任机制和可信传导链路，对存在的问题提出修复建议或方案；

（2）基于virtio标准的构建可信IO通道，实现可信的虚拟化IO链路；

（3）提出适合Kata机密容器的通用GPU数据加密方案，推动形成行业标准。

预期目标和产出

在Kata安全容器和CoCo社区开源项目框架内合作完成相关开源项目（Kata, QEMU, Linux kernel等）的特性增强，PR和文档合入上游代码仓库。

（1）专利：1-2项国内或国际专利。

（2）论文：1-2篇CCF-A类或者同等级领域内顶级会议或期刊论文。

4.面向高效智能信息服务的RAG（检索增强生成）策略优化与应用研究

研究背景

随着人工智能技术的快速发展，智能化信息检索和生成系统在各个领域中的应用日益增多。然而，现有的RAG(Retrieval-Augmented Generation)策略在实际应用中存在一些瓶颈，例如检索内容的准确性不高、上下文不一致、系统性能不佳等问题。这些问题限制了RAG在智能客服、财保、医疗等场景中的广泛应用。学术界和工业界已提出了诸多优化方向，如上下文增强检索(Contextual Retrieval)和改进的检索算法（如BM25），但这些方法仍有提升空间，特别是在大规模知识库下的实际应用中。

本课题旨在通过创新性的检索算法优化与上下文建模，提升RAG在实际应用中的检索精度和上下文一致性，并推动其在智能信息服务中的有效落地。

研究方向

（1）检索算法优化

研究如何优化检索算法，提升系统在大规模知识库中的信息检索质量。研究可参考但不限于现有的方法（如上下文检索、BM25、Dense Retrieval），探索如何在实际应用场景中有效减少噪声数据的引入，确保检索结果的相关性。

（2）上下文建模与生成优化

探索在多轮对话或长文本生成中，如何保持上下文的一致性和连贯性。此方向鼓励创新型方法，例如通过动态调整上下文窗口大小、优化模型与检索段落的交互方式等，提升生成内容的连贯性。

预期目标和产出

（1）智能检索系统原型构建

构建一个结合优化后的RAG策略的端到端智能检索与生成系统，能够高效检索外部知识库并生成高质量、上下文相关的个性化内容。

（2）检索与生成效率提升

检索精度提升：相较于优化前的基线系统（无优化或仅采用基础 BM25），优化后的系统应能将检索精度（例如，通过NDCG或Recall评估）提升至少30%。
上下文一致性提升：在多轮对话或长文本生成任务中，优化后的模型应使上下文一致性得分（如BLEU或ROUGE）相较基线系统提升 20%。
响应时间优化：在大规模知识库下，优化后的系统应能相较于未优化的基线系统减少系统响应时间至少15%，确保在高并发请求场景下依然能保持较好的实时性。
生成错误率降低：通过检索和上下文优化，生成的语义错误率相较基线系统降低至少10%。

（3）发表1-2篇CCF-A类会议论文。

（4）申请1项创新专利或软件著作权。

5.最小化推理成本：同构及异构模型极致合并部署降本研究

研究背景

大模型应用市场规模近几年得到了飞速发展，2024年大模型应用市场规模将达到217亿。随着业务需求的不断增长，越来越多的企业提出了私有化部署和低成本要求，以满足数据合规与隐私安全。

然而，一套完整的大模型SaaS应用软件如果要做到高准确率，就会依赖大量针对细分场景微调的模型，需要消耗大量的GPU资源，这无疑给企业带来了高昂的使用成本，导致大模型应用在私有化模式下无法普及。

研究方向

在24GB或更小显存下，实现模型的极致合并部署，包括：

（1）对同一个基础模型的不同Lora微调模型合并部署在同一张卡。

（2）将异构的基础模型合并到同一张卡，并且具备显存管理和限额能力。

（3）如何在低QPS场景几乎不损失性能的前提下，使用小显存部署比其容量更大的多个模型。

预期目标和产出

（1）研究并产出一套推理模型合并、显存管理算法，在低端推理卡（如 A10），实现同构和异构模型的极致合并部署。

（2）研究并产出一套显存与内存联合管理算法，在QPS < 10的小场景下，用低端推理卡（如A10）部署比显存容量更大的多个模型，并且几乎不损失推理性能。最终实现专有云场景下的最小化交付。

（3）1篇顶级学术会议CCF-A 类或B类论文。

（4）1篇相关领域的创新专利或者软件著作权。

二、算力治理

1.面向高效任务协作的多智能体框架研究与应用

研究背景

随着人工智能技术的飞速发展，AI Agent作为新兴技术正逐步成为推动 AI 应用落地的重要力量。同时为了支撑企业内部复杂场景的落地，在单智能体之上业界提出了类似于AgentVerse、MetaGPT等多智能体协作框架，促使这一领域进入新的发展阶段。多智能体系统是由多个自主的智能体组成的系统，这些智能体可以在一个共享的环境中相互作用、协调和协作，以完成复杂的任务。目前在多智能体的企业内部大规模场景落地探索中，主要面临几个主要问题：

（1）智能体协作稳定性

多智能体系统中的智能体必须能够稳定、高效地协作，尤其在处理复杂任务时，需要保证智能体之间的任务分配和依赖关系合理且可执行。当前的多智能体框架中，智能体在执行任务时可能因为信息缺失、任务重叠或冲突以及模型幻觉问题等，导致执行效率降低或中途失败。这就要求系统具备完善的任务分配机制和智能体间的协调策略，确保每个智能体在合适的时间点执行正确的任务。

（2）任务处理与评估机制

多智能体系统在任务处理的过程中，如何评估系统的整体性能和各个智能体的表现，是衡量系统是否稳定高效的核心问题。具体来说，评估应涵盖任务的完成速度、轮次消耗、任务质量，以及智能体在各个节点的执行情况。当前的评估标准大多集中于任务的完成情况，而忽视了对系统内各个节点的稳定性、智能体间信息传递的有效性等更细粒度的分析。因此，需要设计更全面的评估机制，以量化多智能体系统在复杂任务处理中的表现。

研究目标和产出

（1）研究多层次的任务调度和环境管理机制：如何在复杂任务处理过程中确保智能体之间协作的稳定性。并最终保证复杂任务的执行成功率在70%以上。

（2）研究多智能体任务处理评测机制：构建评测模型、评测算法，针对多智能体运行过程中的整体目标完成情况、完成质量、子目标完成情况、完成质量、轮次消耗、指令遵从、幻觉率等方面进行评测，评测达到准确率80%以上。

（3）发表1-2篇CCF-A类会议论文：在国际顶级会议上发表研究成果，提升项目的学术影响力。

（4）申请1-2项相关领域的创新专利或软件著作权：保护研究成果，巩固公司在 AI和智能协作领域的技术优势。

2.面向大模型集群的网络监测与诊断方案

研究背景

为计算密集型任务的核心。大模型集群作为支持这些任务的基础设施，通常由数百到数千台计算节点构成。节点内部的计算资源（例如GPU）通过高速的主机网络相连（例如NVLink），其带宽可达Tbps级别（例如第五代NVLink）；而节点间一般通过基于RDMA的高速网络相连，其带宽可达数百Gbps。这种大规模的集群不仅对计算资源和通讯资源提出了高要求，还对监测与诊断能力提出了新的挑战。

监测与诊断方案的有效性直接影响到模型训练的效率和推理服务的稳定性。目前，大模型集群面临几个主要问题：

（1）复杂性与动态性

大模型集群的节点和连接数量庞大，且其流量模式与传统网络区别较大。例如，大模型训练流量的典型特点是能够预测、突发性强、峰值流量极大、具有周期性等，而推理流量表现为受到调度和分批处理的流量整形作用影响。随着任务的增加，网络负载和拓扑结构可能发生变化。这种动态性使得传统的监测方案难以适应。

（2）故障影响与检测延迟

在大规模环境中，由于分布式的集合通讯方式是主流，即使是单一节点故障和网络异常都导致性能下降甚至整个任务的失败。及时响应业务告警、快速定位故障区域以及分析故障类型成为了关键需求。

（3）多维度数据的处理

大模型集群的监测不仅需要关注计算节点的状态，还需综合考虑网络流量、存储状态等多维度的数据。这对监测系统的数据处理和分析能力提出了更高的要求。

研究目标

（1）研究充分覆盖大模型集群的网络监测机制，达到99%故障覆盖率水平，有效降低网内和端侧故障识别和定位的时间，并在端侧与网内实现低峰值开销。

（2）研究面向大模型集群的故障诊断机制，有效降低故障类型判别时间，保证类型识别的综合准确率水平。

（3）研究自动化故障恢复机制，针对部分典型的网络侧及端侧问题，在故障严重影响业务质量的前提下，快速进行故障组件隔离与恢复，减少对于现有流量的影响。

预计产出

（1）一套大模型集群的网络监测与诊断的算法代码；

（2）1篇CCF-A类论文；

（3）申请1-2项相关领域的创新专利或软件著作权。

三、智算网络

1.自适应多路径高性能网络传输协议

研究背景

大模型训练过程中，不同训练节点之间通过高速网络连接来同步模型参数、梯度等信息，流量具有低熵、周期性大象流等特征，传统ECMP hash负载均衡策略在 AI数据中心里容易出现hash极化导致网络拥塞。

为了解决这种网络负载不均问题，网络侧目前存在两种常见思路：一种思路是在集合通信组网规划阶段通过控制器对通信flow流量路径进行规划来避免hash冲突，另一种思路是通过交换机芯片的包喷洒、flowlet、自适应路由等拥塞感知和自适应路径切换机制来实现流量负载均衡。这两种思路都存在一些问题，要么不具备混部任务等场景的普适性和快速响应网络变化，要么不能满足运维过程中的转发确定性。

端侧解决方案一般通过集合通信库层面建立多条QP连接的方式，将原本的端到端单条连接拆分多QP连接进行传输，增加网络中通信的熵值，结合网侧改进的 ECMP hash算法，来降低hash冲突概率。部分解决方案可以在集合通信库层面感知多条路径上的网络状态，据此动态选择合适的路径进行通信。但是这种方式存在的问题是拆分多QP进行通信需要额外的性能开销，且集合通信库对于故障路径感知不敏感，无法做到快速感知并快速切换链路。

研究方向

（1）基于多路径的高性能网络传输协议

设计并实现基于多路径的高性能网络传输协议，协议层面原生支持多路径传输；

（2）基于多路径协议的拥塞控制算法

设计并实现一套基于多路径的拥塞控制算法，实现对多条路径的统一拥塞控制管理；

（3）基于多路径协议的路径调度算法

设计并实现一套基于多路径的路径调度算法，通过ms级感知网络运行状态，节点或者链路故障，各条路径的网络拥塞情况，智能并无感的进行路径切换；

（4）基于多路径网络传输的性能影响分析

分析上述方案在端到端部署场景下，整体的性能开销情况，包括但不限于网卡内存影响，网络包乱序，拆分多路径通信等对性能的影响；

预期目标和产出

本研究希望实现一套基于多路径的高性能网络传输协议，在避免多路径额外性能开销的同时，可以根据不同路径的网络拥塞状况自适应进行速率调整和路径切换，同时保障整体方案满足可运维的稳定性诉求。

（1）方案原型和仿真结果；

（2）发表1-2篇CCF-A类或者同等级领域内顶级会议或期刊论文；

（3）申请专利1-2项。

2.高性能异构集合通信优化技术

研究背景

AI大模型已经成为引领下一代人工智能发展的关键技术。相比于传统模型，AI大模型的参数规模庞大，需要在千卡、万卡的分布式集群环境下对海量数据进行训练。在训练过程中，不同集群服务器间需要进行频繁的数据交换，而这种交互具有广播式、超大流量、超低时延、超高频率、零容忍丢包和严格时间同步等特点，这对网络传输提出了极大性能挑战。另外在异构算力日益增长的趋势下，对于异构算力的连接也至关重要。同时，集合通信库xCCL作为连接整个AIDC算力能够被高效利用的关键，是底层异构硬件算力/网力和顶层AI Infra业务承上启下的位置。因此，研究高性能异构集合通信优化技术极为重要。

研究方向

（1）异构通信，通过研究异构跨芯的集合通信技术，实现NVIDIA系和国产芯片的算力连接，充分发挥异构算力聚合的能力。

（2）负载均衡，通过研究集合通信库的QP负载均衡、路径规划等端网协同的流量调度技术，实现流量在端-网全链路的均衡性，有效缓解流量冲突导致的拥塞问题。

（3）通信算子优化，通过分析集合通信算法以及传输流量特征，实现训练数据传输在空间和时间上的打散以及更优的集合通信算法，提升集合通信效率。

（4）网络容错，通过研究集合通信库的网络心跳保持、故障绕路等网络高可用技术，实现毫秒级网络故障容错能力，避免中断训练任务。

研究目标与产出

本课题目标在于探索面向AI大模型训练的高性能网络技术，旨在通过结合大模型训练流量特征，从异构通信、负载均衡、通信算子优化、网络容错等方面出发，实现AI大模型训练的高性能异构集合通信库技术。

（1）交付1套完整的系统代码及使用说明文档，基于提出的高性能网络传输技术体系，实现集合通信（AllReduce、AllGather 等）带宽利用率达到95%以上；

（2）实现异构卡在同一个集群做集合通信，性能损耗<=20%；

（3）产出1篇CCF-A或蚂蚁认可的领域内顶级会议或期刊论文；

（4）申请专利1项。

四、AI Infra

1.面向大语言模型的混合位宽训练优化技术研究

研究背景

伴随着ChatGPT为代表的大语言模型（LLM）在自然语言理解、视频理解等领域的成功，如何将大语言的模型推向下一个高度是产业界和工业界共同关注的热点话题。然而，大语言模型的训练通常遵循Scaling Law，追求更高的性能需要更多更优质的数据以及更大的模型规模，目前的SOTA 大模型已经突破400B大关，但是支撑大模型训练的加速卡内存仍旧停留在百GB层次，如何缓和两者之间的矛盾，成为大模型预训练需要解决的关键难题。

研究目标和产出

针对大语言模型日趋庞大的规模和加速卡有限的内存空间之间的矛盾，提出一套高效的混合位宽大模型训练框架，包括 1）针对大语言模型的混合位宽训练方法，研究大语言模型的权重、激活、优化器等的混合位宽优化，探索如何在保证精度的前提下缓解大语言模型训练的内存压力；2）针对大语言模型的混合位宽优化方法，研究如何结合加速器的运算特征、访存特征加速混合位宽计算，提升端到端训练效率。

（1）1套在国产智能芯片上支持混合位宽大模型预训练的框架系统及详尽的用户手册；

（2）1篇CCF-A类论文；

（3）1项软件著作权。

2.面向大模型的在离线GPU混部技术

研究背景

大模型蓬勃发展对异构算力如GPU需求巨大，一方面线上推理服务有较严格的性能要求（包括首字延迟和生成速度等）和稳定性SLA（如成功率）；另一方面流量通常存在潮汐现象，在波谷阶段流量稀少，预留并常驻使用GPU资源容易导致巨大的资源浪费和成本问题。

如何既满足大模型在线性能和稳定性要求，同时显著提升异构算力集群利用率、降低成本具有重要的研究价值和实际效益（亿级别）。

预期目标和产出

面向大模型多卡部署场景（典型LLM >=70B参数，文生视频模型 >=10B参数），本课题希望深入探索并研究有效提升大模型混部的关键问题、核心技术与方法，实现GPU算力的按需分配和SLA保障。特别是以下技术方向：

（1）动态混部：优化大模型服务计算和显存管理，实现算力和显存的按需动态分配；保障在线大模型首字延迟、生成速度和成功率不影响的前提下，提高资源利用率。

（2）灵活混部：针对不同大模型的特点，探索融合混部技术，提升总吞吐。

（3）训推一体弹性混部：充分挖掘全体集群的存、算、传资源，优化调度和分布式策略，实现高效、弹性的训推一体混部，提升吞吐性能或降低成本。

最终，希望在以上领域有方法创新和效果对比验证。典型产出包括：

（1）原型系统实现和对比分析报告；

（2）核心方法产出CCF-A类论文 >= 1篇；或发明专利 >= 2项。

3.高效分布式推理与异构算力调度

研究背景

模型更大：典型大模型参数变大、上下文序列变长，对算力需求越来越大；以及推荐模型增长迅速，达到数百GB甚至上TB，在模型加载、更新和推理都面临更大的显存和性能压力。

算力多元：算力呈现多元异构并存现象，包括GPU、CPU以及多种国产卡；同时加速卡内部也有多种不同的算力单元。多种算力通过不同级别的互联实现协同计算和加速（例如cross-bus, C2C, NVLink/NVSwitch、PCIe/CXL、RDMA 等）。如何充分发挥多种算力或组合提供高效的并行或分布式机制，从而更快、更高效、更绿色，具有重要的研究价值和经济效益。

预期目标和产出

面向典型AI推理场景，包括大模型（语言、多模态）和推荐模型等，本课题希望深入探索如何更好使用多元异构算力，提升推理性能或资源效能的关键技术与方法。特别是以下两个技术方向：

（1）高效并行与分布式推理：高效使用多卡、多机算力，或组合使用多种类型算力（CPU 、 GPU等），提高系统扩展性和性能。目标模型包括3类（覆盖至少一种）：1）LLM（>=70B参数）；2）多模态文生视频（>=10B 参数）；3）推荐模型（>=100GB参数）

（2）推理请求高效弹性调度：实现总吞吐显著提升或能耗、成本显著降低。最终，希望在以上领域有方法创新和实测效果优化。典型产出包括：

（1）原型系统实现和对比分析报告；

（2）核心方法产出和CCF-A 类论文>= 1篇；或发明专利>= 2项。

4.大规模异构计算环境下大模型训练性能和稳定性提升方法研究

研究背景

近期，蚂蚁集团在基础大模型建设方面投入了大量资源，其中用于大模型训练的计算资源在类型和数量上都得到了大幅扩充。除了继续增加Nvidia GPU的数量外，蚂蚁还引入了来自不同国产厂商的大批量加速卡。为充分利用这些算力资源，我们必须持续提升训练性能和稳定性。大规模异构计算带来的新挑战包括：

（1）在超大规模（如万卡资源）训练中，慢节点、网络拥塞等问题严重影响训练效率；

（2）超大规模训练过程中，上下游的各类稳定性问题被放大，影响训练的稳定性，进而降低有效训练时长；

（3）不同厂商的加速卡具有各自的特性，例如特有的算子亲和性和网络通信特性，这些特性对训练性能和稳定性的影响各不相同，需进行针对性优化；

（4）不同厂商的基础软件栈存在差异，需要进行相应的适配；

（5）在各种针对性优化的背景下，需要确保训练代码的可维护性，保证快速切换硬件的能力；

（6）需要融合硬件厂商提供的技术栈与蚂蚁自身的AI Infra技术栈，以实现最佳整体效果；

（7）超大规模训练需要与算法工程师协同，权衡训练效果与效率，达到整体优化。

预期目标和产出

（1）1-2篇CCF-A类full paper；

（2）1-2个发明专利；

（3）可在蚂蚁落地的训练策略源代码。

五、模型算法

1.面向超长上下文的大模型绿色部署优化应用研究

研究背景

模型服务化落地场景中，除了模型参数规模增大对显存占用增多，更大的显存来自于超长上下文的推理阶段产生的KV缓存。典型的超长下文场景包括多文档检索，文档摘要，多轮对话等。仅仅采用传统推理并行技术（模型并行/流水线并行），一方面需要大量的推理显存，成本过高；另一方面，底层硬件并行通信损耗难以为超长上下文场景提供可扩展的高吞吐服务。因此，对于超长上下文的支持也成为大模型学术界和工业界的研究热点。头部大模型公司争先推出支持百万超长上下文的服务入口，学术界也在探索从不同维度优化超长上下文的性能。作为产学研的切入点，超长上下文推理优化既可以提升核心技术竞争力，又可以快速落地支持业务需求，我们期望如下方向的研究(包括但不限于)：

（1）优化显存占用，使得长下文在GPU上可执行，推进如下技术的创新

KV 缓存压缩优化：基于不同token对应KV缓存重要性分析，动态淘汰历史KV缓存，结合低Bit量化技术，降低上下文对于显存的占用；

输入压缩优化：采用输入词裁剪去除不重要token、保留语义信息的总结、主旨token 软压缩等方式；甚至结合Encoding的前置模型的输入压缩，降低最终输入给目标大模型的上下文长度；

（2）解决显存问题之后，进一步提升推理速度，推进如下技术的创新

模型架构优化：研发基于后训练或者预训练的新attention架构，在模型结构上降低推理时每个token对应的KV缓存占用和推理速度

申报倒计时7天丨CCF-蚂蚁科研基金隐私计算专项&绿色计算算效专项

正文

请到「今天看啥」查看全文