本课题期望通过对深度学习基础理论、基础技术层面的研究,来指导解决当前深度学习研发和应用上的挑战性问题,侧重对实际问题更有直接指导意义的或者对未来技术发展有引领意义的基础研究。
建议研究方向:
1.1 优化算法和收敛性研究
概述:
训练收敛效率优化是提升大模型训练效率和算法效果、支持大模型快速迭代的关键。本研究方向可从大模型收敛加速方法,从模型结构、低精度、学习率/批大小超参选取、优化器类型等多个角度出发,探索适合大模型快速收敛的途径,提升大模型收敛效果。
研究方法推荐:
(1)研究大学习率、大Gobal Batch Size下的加速收敛方法。
(2)研究低数值精度训练收敛加速方法。
(3)研究新型优化器收敛加速方法。
验收标准:
在LLaMA等代表性大模型上,达到相同下游评估指标的前提下,训练消耗的计算卡时资源节省30%以上。相关工作集成到飞桨框架中。
1.2 编译优化算子融合正确性理论研究
概述
:深度学习编译器很重要的功能就是将用户可以识别的Pattern能够生成硬件相关的高效代码。对于CUDA硬件,有一类重要的优化方法:算子(OP)融合,又被称为Kernel 融合。CUDA硬件存在多类不同的内存结构,其中有一类称为“全局内存”的访存开销是很大的。如果我们将两个连续Kernel 合并为一个Kernel调用,我们会减少中间变量的读写开销,因此在访存密集型的2个算子上,融合可以获取更高的性能。各种业界实践也都表明有效的算子融合技术可以极大的加速运行性能。但是,融合过程中保证性能的前提下保障正确性是一个难题。
研究方法推荐:
希望能够借助数学的语言和推理进行建模,并从精确的定义出发保障正确性。
(1)精确定义Elementwise/Broadcast/Injective/Reduce四类算子。
(2)定义算子融合变换。
(3)找到融合变换不影响性能并正确的充分条件。
验收标准:
(1)基于飞桨的CINN编译器,能够有效识别可以融合的算子,并且保障融合的正确性,静态Shape千级别子图达到成功率95%以上。
(2)给出不影响性能的Reduce+Broadcast+Reduce融合条件,并生成正确
Kernel。
1.3 大模型二值化训练、压缩与推理研究
概述
:低比特量化压缩将浮点数转为低比特整数进行计算和存储。在硬件的整数计算单元支持下,可显著提升模型推理效率。在当前大模型领域,产业界已普遍在业务中采用8 比特量化压缩,学术界则聚焦4比特量化压缩,并有研究更低比特量化压缩的趋势。二值化(binary quantization)即1-bit量化压缩,则是低比特压缩的终极形式。通过二值化的研究,不仅可以提升推理效率,还有助于洞察生成式大模型底层原理,对模型结构设计优化、训练方法改进和硬件设计都有启发。
研究方法推荐:
(1)训练:研究二值化网络的训练方法,使其效率和效果综合优于传统模型。
(2)压缩:结合信息理论,对生成式大模型的注意力机制(Attention)、位置
编码(Position Embedding)、残差连接(Residual)、归一化(Normalization)等
关键结构的原理进行研究,指导设计适用于二值化的量化方法和模型结构。
(3)推理:研究二值化网络推理加速技术,在当前主流硬件上实现二值化推理
加速,并给出对硬件的改进设计建议。
验收标准:
(1)设计新的二值化网络,比业界SOTA模型,在推理显存占用一样情况下,
效果相对提升10%以上。
(2)基于主流生成式大模型结构和主流生成式评估集上,经过二值化压缩后,
模型效果相对损失在10%以内。
(3)通过训练或压缩得到二值化模型,推理速度优于同等规模模型的INT4推
理性能。
1.4 Transformer 核心计算加速技术研究
概述:
在Transformer类大模型训练过程中,矩阵乘法、注意力计算等环节占比可达到端到端耗时的60%以上,针对这些重点环节算子的优化对提升大模型训练吞吐具有重要意义。
研究方法推荐
:针对大模型矩阵乘法、注意力计算等场景,开发高性能的Kernel实现。
验收标准
:开发一套可针对不同shape 和数据类型(含bfloat16、float16 等)
的矩阵乘法、注意力计算加速工具包,可自动产生最优的高性能Kernel代码,
Kernel性能提升20%以上,并可自动编译运行。相关成果集成到飞桨框架中,并在Llama等开源大模型上应用。
本课题期望对深度学习框架技术进行系统、深入和前瞻的研究,解决当前深度学习框架中存在的关键难点问题,探索下一代框架的设计实现。
建议研究方向:
2.1 编译优化加速技术研究
概述
:随着硬件算力发展速度远大于访存、CPU调度、总线带宽的发展速度,编译优化是深度学习框架必备的一个优化技术,如何提供高效的通用加速方案是一个重要的研究方向。以NV GPU平台为例,当前主流的编译器能够将reduce、elementwise、broadcast等类型的算子做较好的融合和优化,但是对于当前LLM使用较多的attention子图,自动融合优化的相对较少。如何生成高效的attention 子图,并且能够和前后的算子(如ROPE等)做更大的融合,是一个性能优化的难题。
研究方法推荐
:例如通过提出一种模板的思路,能够对于attention结构进行
建模,并且能够生成高性能的CUDA kernel。
验收标准
:基于飞桨的CINN编译器,能够生成高性能的attention的kernel,
性能能够达到FlashAttention的95%+。
2.2 面向多芯片的通用算子融合大模型推理加速策略
概述
:当前各类AI芯片都针对大语言模型 (如 LLaMA系列) 的推理性能进行优化,由于芯片架构差异,硬件原生算子融合方案在算子融合颗粒度和融合算子的接口设计上差异较大;期望基于飞桨BlockAttention的高性能大模型推理方案,研究通用的算子融合策略,不仅在不少于3款AI芯片下都能获得较高的推理性能提速,且融合算子力度一致接口统一。
研究方法推荐:
(1)模型选择:PaddleNLP中支持的开源大模型中,至少选择13B或以上参数的大模型1 个。
(2)研究方法:分析不少与3款AI芯片 (如海光DCU、昇腾NPU、昆仑XPU、
寒武纪MLU 等) 的大模型推理性能,包括细粒度小算子方案和硬件原生算子融合方案下的性能对比;设计通用的算子融合策略,并针对性为3款芯片开发对应的融合算子(如海光DCU支持HIP算子开发、昇腾NPU支持AscendC算子开发、寒武纪MLU支持BANGC算子开发等);验证通用融合算子的推理性能,得出对比之前的细粒度小算子方案的提升效果,以及对比硬件原生算子融合方案的下降比例。
验收标准:
至少在3款AI芯片 (如海光DCU、昇腾NPU、昆仑XPU、寒武纪MLU等) 上验证通用的算子融合策略相较于细粒度的小算子方案的推理性能提升20%+,且推理性能不低于硬件原生算子融合方案性能的90%。
2.3 编译器硬件适配技术研究
概述
:研究如何合理抽象硬件特征,并据此定义协议将其接入编译器,同时确保编译器能充分利用硬件特征生成高性能代码。
研究方法推荐:
(1) 硬件平台分析:详细研究和分析不同硬件平台(如CPU、NV GPU、海光DCU、昇腾NPU、昆仑XPU、寒武纪MLU等)的架构特性和并行计算模型。重点关注各硬件平台如何做内存合并、共享内存管理、SM内或SM间的调度。
(2)硬件接入协议设计:基于硬件平台分析结果,设计编译器接入协议,包括编译期融合策略协议、编译期性能优化协议、编译期代码生成协议、运行时资源利用协议等。
验收标准:
在多种硬件平台上进行多个常见模型验证,硬件平台可以选海光DCU、昇腾NPU、昆仑XPU、寒武纪MLU等,常见模型可以选ResNet、Bert、LLaMA2、Baichun2、ChatGLM、Qwen 等。通过与NV GPU的对应版本对比正确性,评估硬件适配方案的有效性和通用性。通过与该硬件上不开编译优化的对应版本对比性能,评估硬件适配方案的性能优化空间。
2.4 大模型高效分布式训练技术
概述
:随着大模型的规模和复杂性不断增加,分布式训练也面临新的挑战。例如,不同的模型架构和数据规模对分布式训练策略的要求各不相同,高效、通用的大模型分布式训练技术重要性凸显。本研究方向建议研究高效通用的分布式训练技术,以解决大模型训练的挑战,包括但不限于研究自动并行技术、研究分布式训练性能优化技术等。
研究方法推荐:
(1)调研全自动相关的工作,同时结合飞桨框架的特点以及飞桨现有的半自动
并行架构,研究如何将半自动并行技术,扩展为全自动并行。
(2)深入分析大模型训练的性能瓶颈,从多个维度提升大模型训练性能,包括
但不限于高性能算子开发、通信优化、通信和计算overlap等。
验收标准:
(1)基于飞桨框架,研发和实现通用自动并行训练技术,在不少于3个开源大模型上,能够全自动(无需用户标记)将单卡模型转为分布式训练,并且性能与手动并行或半自动并行版本持平或领先。
(2)基于飞桨框架,研发和实现大模型训练性能优化技术,在主流大模型上,
相对于飞桨开源版本性能提升10%+,且收敛性不下降。
方向三、大语言模型(Large Language Model)
近年来,大语言模型(Large Language Model)在自然语言处理领域取得了巨大的成功。大语言模型(LLM)是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务,如写作、问答、对话等,是通向人工智能的一条重要途径。
建议研究方向:
3.1 基础模型训练
概述
:面向基础模型进行模型结构、预训练技术、对齐技术、模型分析等方面的研究。
研究方法推荐:
(1)新型模型结构:研究具备超长序列处理能力的新型基础模型结构,研究高
性能的新型稀疏模型结构,在模型效果、训练效率、推理效率方面领先
Transformer等传统模型结构。
(2)基础模型分析:研究模型规模、数据组织方法、模型预测策略等对于不同
下游任务的效果影响,对模型在推理计算等复杂任务的能力进行溯源,通过思维
链构建、课程学习等方式,提升大模型复杂任务的解决能力。
(3)新型模型对齐算法研究:研究模型对齐技术,包括指令微调、奖励模型、
偏好学习、强化学习、少样本低参数微调等技术的优化,以及SuperAlignment
等新型对齐方法,提升对齐模型能力。
(4)多模态预训练:研究多模态统一表征建模的方法,探索模型的跨模态知识
迁移能力。通过不同模态融合学习,增强基础模型在语言模态任务、视觉模态任务、音频模态任务、以及跨模态任务的模型效果。
验收标准:
基于飞桨研究基础模型训练方法,在20个以上典型应用任务上,效果有显著提升,具备实际应用价值,并支持大模型云平台应用。
3.2 智能体
概述:
研究面向智能体(Agent)的技术架构、能力评估和优化算法,推动智能
体的发展和应用,对未来AI 技术大规模的应用具有重要价值。
研究方法推荐:
(1)智能体技术架构:研究单智能体、多智能体系统架构,智能体长期记忆机
制,智能体之间的协作与通信机制等。
(2)智能体能力评估:提出科学的智能体能力评估方式,覆盖智能体指令遵循、
工具规划、反思、长/短期记忆等多种核心能力;建设相关的benchmark;研究
智能体自动评估算法等。
(3)智能体优化算法:研究基于机器学习和强化学习的智能体优化算法,提升
智能体的学习效率、效果。重点关注算法的有效性、易用性、可扩展性,以及计算资源利用率和在动态环境中的稳定性。
验收标准:
(1)设计智能体技术架构,在多种任务场景上具备较好的通用性、灵活性,并
保障任务效果。
(2)设计全面的智能体能力评估标准,产出高质量benchmark。智能体自动评
估效果达到实际可用标准。
(3)提出智能体优化算法,具备有效性、灵活性、低成本等特点,在多种任务
场景上均能产生明显效果。
3.3 数据建设
概述
:数据建设在大语言模型的指令微调和对齐训练中发挥着至关重要的作用,
直接影响着大语言模型是否能够有效地激发能力,且与人类的价值观保持一致。
大语言模型的数据构建存在众多值得研究的问题和方向,包括但不限于跨模态对齐数据自动构建、数据质量控制、模型缺陷发现、模型效果自动评估、用户反馈的挖掘和利用等。
研究方法推荐:
(1)模型效果自动评估:研究如何改善大模型批评能力,自动评估大模型的方
法和框架,提升相关方法与人类评估的一致性。
(2)数据自动构建、改进与模型的自我提升:研究如何自动发现模型的缺陷,
自动建设和改进相关数据,推动模型效果自我迭代。
(3)用户反馈信息的挖掘和利用:研究如何挖掘和利用用户反馈信息,进一步
提升大模型的效果。
验收标准:
(1)基于以上研究内容,形成一套能够自动/半自动的执行的方法,并可以有效解决对应的问题。
(2)基于以上研究内容,实现对数据的优化,对应的评估集合上效果有显著提
升(WinRate 等指标提升10%以上)。
本课题希望对深度学习技术在计算视觉中的前沿问题和产业化实践中的实际难
题进行分析和探索。在前沿问题探索中,着重方法的创新性、领先性和可推广性,鼓励探索基础模型的突破,填补视觉技术领域的空白。在实际产业化难题解答中,针对实际场景,着重方法的效果和效率,促进产业化的高效、高质量发展。
建议研究方向:
4.1 文档图像版面分析关键技术
概述
:版面分析技术,作为文档处理与理解的重要组成部分,专注于对文档版面结构进行自动定位和解析。它旨在将复杂的文档图像分解为逻辑上独立且易于处理的元素,如文本、图像、表格、标题、页眉页脚等,并确定这些元素之间的空间关系和层次结构。随着数字化文档的快速增长,版面分析技术对于提高文档检索效率、实现自动化内容提取和文档重排等任务至关重要。期望能够深入研究版面元素的精确定位和解析方法,探索多源信息以增强版面分析的准确性,以应对复杂多变的文档版面;针对不断增长的文档数据和动态变化的版面结构,研发高效高精度的训练策略。结合多模态方法,寻求融合方案,进一步提升版面分析效果。
研究方法推荐:
(1)基于图模型、层次聚类等算法的版面结构解析方法,融合文档中的逻辑结
构和层次关系增强定位准确性,实现准确的版面解析。
(2)基于增量学习,允许模型在不断接收新的文档数据和动态变化的版面结情
况下持续学习,从而适应数据分布的变化和新的任务需求,实现高效高精度的训练策略。
(3)基于多模态的版面分析方法,进一步提升效果。
验收标准:
(1)基于飞桨,完成版面分析等方向的SOTA算法,显著提升现有模型精度。
(2)基于飞桨,打造高效的模型训练系统,能够在接收新的文档数据和动态变
化的版面结情况下高效高精度学习。
(3)基于飞桨,基于图模型、多模态模型等其他方案的有效融合方法,提升版
面分析精度。
4.2 文档图像信息抽取关键技术
概述
:文档图像信息抽取技术在多模态任务中扮演着重要的角色,其主要目标是从复杂的图像文档中准确有效地提取所需的键值对。期待深入研究视觉与语义信息的深度融合技术,以实现对文档图像中文本、符号、图形等多模态信息的精准、高效提取以及识别。项目鼓励在多角度的探索中,研发出表格识别和公式识别的精准高效算法;同时可借助多模态或RAG 等方式,寻找与大模型更好的结合方案。
针对训练数据难以获取和标注的现状,本研究方向寻求探索出有效的文本类数据生成算法。这有助于提高从图像文档中获得有价值信息的效率和准确性,从而推动文档数字化以及自动化处理技术的进步。
研究方法推荐:
(1)基于序列识别或基于大模型的表格识别策略,提升表格内容恢复的准确率。
(2)基于Sequence2Sequence或多模态方案的通用公式识别策略,提升公式
内容恢复的准确率。
(3)基于RAG的内容检索策略,提升信息抽取的准确率和效率。
(4)基于文生图的高效数据生成方案。
验收标准:
(1)基于飞桨,完成文本识别、文本检测、端到端、表格识别、公式识别、多
模态大模型等方向的SOTA算法,显著提升现有模型精度。
(2)基于飞桨,打造更高效的RAG系统,显著多页长文的信息抽取准确率。
(3)基于飞桨,打造文字类的数据生成工具,基于生成数据显著提升文本、表
格、公式等场景上的识别效果。
4.3 图像分类模型关键技术
概述:
图像分类技术在计算机视觉领域具有广泛应用,其核心目标是将输入的图像准确地归类到预定义的类别中。期望探索并优化深度学习模型,以提高图像分类的准确性和效率。鼓励从网络架构设计、模型优化、数据增强、多模型融合等多个角度入手,全面提升图像分类算法的性能。同时,针对训练数据不足或类别不均衡的问题,本研究方向也寻求有效的数据扩充和类别平衡策略。
研究方法推荐:
(1)研究并设计高效的CNN架构、Transformer架构、Mamba架构等,以提升图像特征的提取能力。
(2)探索模型蒸馏、剪枝等模型压缩技术,以在保持性能的同时降低模型复杂
度。
(3)借助大模型零样本识别能力,针对数据不均衡问题,采用过采样、欠采样
或StableDifusion等技术进行类别平衡。
验收标准:
(1)基于飞桨,开发出高性能的图像分类模型,显著提升现有分类准确率。
(2)基于飞桨,实现模型的优化和压缩,确保在不损失性能的前提下,降低模
型复杂度和计算资源消耗。
(3)基于飞桨,打造一套高效的数据增强和类别平衡工具,显著提高在数据稀
缺或类别不均衡场景下的模型性能。
4.4 目标检测模型关键技术
概述
:目标检测技术是计算机视觉领域中的一项重要技术,旨在识别和定位图像中的特定目标对象。本研究方向致力于提高目标检测的精度和速度,从而实现对图像中多个对象的准确识别和定位。为了实现这一目标,鼓励研究人员探索和创新深度学习模型、优化算法,多模型融合等策略以提升目标检测系统的整体性能。
研究方法推荐:
(1)研究和改进现有的目标检测算法,如PP-YOLO-E、YOLOv10、RT-DETR 等,
以提高检测的准确率和速度。
(2)探索多模型融合技术,如目标检测+图像分类的模型融合技术,提升目标检测最终的精度。
(3)借助大模型零样本识别能力,针对数据不均衡问题,进行数据增强,来提
升模型效果。
验收标准:
(1)基于飞桨,开发出高性能的目标检测模型,显著提升对图像中目标的检测
精度和速度。
(2)基于飞桨,开发出目标检测的多模型融合方案,显著提升对图像中目标的
检测精度。
(3)基于飞桨,开发一套高效的数据增强工具,显著提高在类别不均衡场景下
的模型性能。
AI科学计算是指使用人工智能方法、利用计算机再现、预测和发现客观世界运
动规律和演化特征的全过程。通过AI学习自然规律、求解数学模型并应用于工程实践和科学探索,解决航空航天、船舶制造、生物计算、地球科学、能源勘探等领域的难题。科学计算中的物理规律,通常使用微分方程或其它数学模型来描述,求解一般面临维数高、计算时间长、计算量大、并行效率低等难题,通过神经网络模拟函数的方法,通常可以简化方程的求解。当前相关的工作包括但不限于物理信息约束神经网络PINN方法,数据驱动的傅里叶神经网络操作FNO方法,AI算法与传统数值方法结合算法。本课题期望探索AI 技术和科学计算任务相结合的创新方法,具备良好的实用性和可推广性,更高效解决各领域的科学计算问题。建议研究方向: 研究科学计算相关各领域的AI技术解决方案,超越传统方法,包括不限于:
5.1 AI+流体力学:非定常水动力智能预报方法研究
概述:
本研究方向旨在突破下一代大型运载工具在超常规恶劣发射条件下安全出水的关键技术。
早期的理论研究往往基于势流理论,这些理论均无法考虑粘性的影响,无法准确预测自由表面和物体附近的流动细节。现有大多研究建立的模型,需要实时求解微分方程,尚无考虑环境变化和运动的空泡流体动力显式模型。随着计算技术的发展,实时耦合求解流场和回转体运动,可详细地获得流场演化对运动特性的影响。然而数值模拟的效率较低,只适用于特定工况或机理研究,无法直接应用于空泡流动实时闭环反馈控制中。近年来,随着人工智能技术的发展,深度学习模型由于训练效率高、预测能力强等特点,不仅成功应用于运载工具运动轨迹在线生成,而且可以推广运用到流体力学的建模或预测中。
针对现有技术在水下发射过程中空泡流动稳定性控制、非定常非线性水动力预报等方面的不足,建议围绕通气空泡稳定控制与非定常水动力预报这一关键科学问题深入开展基础科学研究与技术创新,揭示通气空泡流体动力演化机制,构建非定常水动力表征方法快速预报方法。期望通过本方向研究,推动我国下一代大型运载工具水下发射技术的发展。
研究方法推荐:
(1)通过数值模拟对空泡流动进行预测分析,结合空化水洞实验对模拟结果进
行验证和优化。
(2)利用LSTM或卡尔曼滤波实现时序压力、水动力的快速预测。
(3)结合实验和计算数据,对独立膨胀原理进行修正,完善和修正通气空泡的
回射力模型。
(4)结合理论模型,融合实验和计算数据,采用深度神经网络等机器学习方法,
建立物理与数据混合驱动的水动力智能预测模型。
验收标准:
(1)围绕该科学问题,发表高水平SCI论文至少一篇。
(2)基于飞桨实现所提出的算法,并贡献到百度组织对应的代码仓库中。
(3)整理并开源论文所使用的数据集。
5.2 AI+气象海洋:基于深度学习的极端天气事件预测和分析
概述:
极端天气事件(如台风、暴雨、热浪等)对人类社会和自然环境造成重大影响。传统的预测方法受限于复杂的气候系统和数据的高维度性,难以准确预测这些事件。深度学习技术可以处理大规模数据和复杂非线性关系,有望提升极端天气事件的预测精度。研究目标为开发一种基于深度学习的极端天气事件预测模型,通过多源数据融合,提高极端天气事件的预测精度和提前量。
研究方法推荐:
(1)研究多源数据融合模式,如结合气象观测数据和数值天气预报模式(包含
大气物理机制)数据,构建多源数据融合的算法,从而提升网络模型对高维、多通道数据的处理能力。
(2)利用CNN、GNN、FNO以及Attention等技术,研究能够更好表征高维、多源数据内部特征关联的网络架构。
(3)研究结合大气动力模型和人工智能模型的深度融合范式,将大气动力模型
对应的物理机理内嵌到时空练网络中,以提高对极端天气和气候预测的准确性。
(4)结合MoE中多模型组合的机制,研究气象领域多个SOTA模型的集成预报。
通过集成多个模型的预测结果,更好地捕捉大气系统的复杂性和多变性,从而提高气象预报的准确性和可靠性。
验收标准:
(1)围绕该科学问题,基于飞桨框架,可发表高水平SCI论文至少一篇。
(2)以上算法基于飞桨框架实现,并可贡献到百度组织对应的代码仓库中。
(3)整理并开源论文所使用的数据集。
5.3 AI+材料化学:基于深度学习方法的材料属性预测
概述:
新材料的物理和化学特性复杂多变,准确预测其属性,特别是实际合成和使用条件下的属性,是物质科学领域中长期存在的挑战,也是材料工业数字化转型的核心挑战之一。能够在广泛的元素、温度和压力范围内实现准确高效的材料模拟与性质预测,为材料设计的数字化转型提供了强有力的支持。新材料探索对纳米电子学、能量储存和医疗健康等多个领域的技术进步至关重要。材料设计中的一个核心难点是如何在不进行实际合成和测试的情况下预测材料属性。
研究方法推荐:
(1)融合主动学习、分子动力学模拟或密度泛函等技术,构建高效的数据生成
方案。
(2)基于图神经网络、卷积网络等深度学习技术预测材料在不同压力或温度下
在原子层面的能量、力和应力或者可用于构造分子动力学的势函数模型,衔接起传统分子动力学(LAMMPS等)模拟软件。
验收标准:
(1)围绕该科学问题,发表高水平SCI 论文至少一篇。
(2)基于飞桨实现所提出的算法,并贡献到百度组织对应的代码仓库中。
(3)整理并开源论文所使用的数据集。
5.4 生物计算:基于语言模型注意力的蛋白质词表技术用于蛋白设计
概述:
尝试建立基于蛋白词表的蛋白设计新方法,打开蛋白语言模型的黑箱,构建通用和专属的蛋白功能团词表,设计全新功能的小蛋白、无结构蛋白、预测蛋白未知功能等,以更好的指导蛋白质设计,填补目前蛋白设计方法的不足。
研究方法推荐:
(1)蛋白语言模型的注意力头
尽管大语言模型(简称大模型)在各个领域取得了前所未有的突破,人类对大模型工作机制的理解仍旧处于初级阶段。但蛋白质则完全不同,人类仅对极其有限的蛋白功能团做过研究。类比于小分子中的“官能团”概念(如羟基、羧基等),假设蛋白质中也存在特定序列组成的相对稳定的序列结构(但不一定会折叠成稳定的3D 结构)。开发一种注意力头机制,用于生成蛋白质中的特定序列。
(2)词表提取
设计一种词表提取的算法,可以将注意力头中的信息转化,从而能够解决不连续词的提取问题,不连续词能辅助理解蛋白的远端调控机制。需要指出,通过直接切割序列的方式提取词表无法获得不连续词。
(3)评估数据集构建
需要构建一套用于评估算法的数据集,此前尚无本领域可参考的数据。用于评估词表提取算法的覆盖率、准确率。
数据集需要包含:1)不少于30个残基功能标注的蛋白序列(用于评估词的覆盖率);2)功能肽(用于评估连续词准确率);3)抗体;4)蛋白功能(GO terms);5)蛋白结合位点;6)翻译后修饰等。
(4)算法可以应用于以下应用场景:
1)设计全新功能小蛋白;
2)设计无结构蛋白(IDP),理解蛋白质相变(LLPS);
3)预测未知功能结构域(DUF);
4)理解蛋白的远端调控机制(也称变构调控)。
验收标准:
(1)包含不少于10个词表评估数据集。
(2)蛋白词表算法,能够处理Uniref50所有数据。
(3)构建蛋白质词表,词表对于评估数据集的平均覆盖率达到80%。
(4)发表高水平SCI论文一篇。
本课题希望以生成式大模型为切入点,结合模型结构设计、量化压缩、推理优化、服务部署等端到端设计和优化,深如研究大模型推理部署过程中的如超大规模多专家模型、超长上下文推理、多精调模型集约化部署、并发投机采样优化等推理部署关键技术,极致降低推理部署过程中的成本。研究过程中应注重创新性、实用性和可拓展性,突破对应场景的性能瓶颈,同时促进开源生态高效快速发展。
建议研究方向:
6.1 万亿参数级多专家大模型高性能推理部署优化
概述
:混合专家(MoE, Mixture of Experts)模型是当前大语言模型重点关注的
方向之一,通过不同领域的专家组合,即能结合各领域的知识得到更好的模型效果,同时也能方便的通过增减专家数量实现可扩展性。然而随着专家个数的增加,模型参数量会不断变大,万亿参数级别的多专家模型也成为大模型发展的趋势之一。本方向期望研究MoE模型精度无损极致量化、多机高效并行推理、多专家异构并行推理等技术,实现万亿参数级别多专家模型的高效稳定部署及极致性能优化。
研究方法推荐
:联合压缩、推理设计量化方式和算法、实现精度无损量化和极
致推理性能加速兼顾;通过多机并行、专家并行、异构并行等优化方式,充分利用机器资源,实现高效并行推理加速
验收标准
:基于飞桨核心框架、PaddleNLP大模型套件,形成多专家模型的无损量化、多机并行和异构并行的通用方案,实现万亿参数级别的多专家模型高性能推理服务部署通用方案