1. 高效语言模型的设计与优化
课题背景:
当今深度学习在自然语言处理领域取得了巨大成功,其中基于Transformer的语言模型(LLM)成为了主流。尽管大规模Transformer模型在语言理解任务上表现出色,但其高昂的计算成本和复杂的参数结构限制了其在实际应用中的广泛应用。因此,本课题的研究目标是通过创新模型结构和训练方法,实现模型参数的精简和推理效率的显著提升,从而为下一代语言模型的发展奠定基础。
建议研究方向:
1. 设计参数效率更高的混合专家模型结构及其稳定训练方法;
2. 改进现有Transformer模型,显著降低模型的推理代价;
3. 探索基于线性注意力机制(如Mamba
、
Griffin
、
RWKV
等)
的新型大模型结构。
课题目标:
1. 产出算法模型及源代码;
2. 产出CCF-A类论文1~2篇;
3. 申请发明专利1~2项;
4. 在应用场景中达到可行性验证。
2. 超长文本场景下的交互式内容创作
课题背景:
交互式内容创作是大语言模型的核心应用场景之一;当前,虽然LLM在诸多场景下表现出较强的内容理解及逻辑推理能力,但其在创作领域依然存在风格化差、吸引力弱、生成内容同质化、交互式指令follow能力欠佳,多轮对话长期记忆能力偏弱等问题亟待改善。从OpenAI对好莱坞导演的调研及快手内部需求上看,创作者LLM最强烈的诉求是指令follow能力,此外还需要模型在复杂指令理解、长对话/多轮次/多场景中保持IP、情节及风格的一致性。
快手作为国内领先的短视频平台,有大量的短视频脚本、直播脚本、广告文案等创作需求,提升模型在上述领域的能力有助于促进大语言模型在相关领域的落地并取得巨大的技术/业务价值。
建议研究方向:
1. 面向平台/创作者/作品类型/表述风格等约束的风格化创作/改写/交互编辑;
2. 超长对话轮次下的指令follow/信息记忆/IP保持/风格保持。
课题目标:
1. 产出算法模型及源代码;
2. 产出CCF-A类论文1~2篇;
3. 申请发明专利1~2项;
4. 在应用场景中达到可行性验证。
1. 图像生成模型的可控性研究
课题背景:
近期角色保持的人像生成取得了快速发展,该技术在AIGC领域具有广泛的应用,现有方法(如Textual Inversio
n
、
DreamBooth和 LoRA)取
得了重要进展,但存在高存储、长时间微调和需要多张参考图像等限制,如何实现低成本Zero-shot角色保持的人像生成,即用户通过上传一张照片,快速生成多场景、多风格的人物图片,同时精准保留人物ID特征,是非常值得研究的方向
建议研究方向:
1. 基于扩散模型,设计条件可控的多场景、多风格的人像生成算法框架;
2. 改进Diffusion Transformer框架,引入文本+图像的多模态控制信号,实现多条件可控的精准人像生成。
课题目标:
1. 产出算法模型及源代码;
2. 产出CCF-A类论文1~2篇;
3. 申请发明专利1~2项;
4. 在应用场景中达到可行性验证。
2. 视频生成模型的安全性和攻防研究
课题背景:
近期多款新的文生图、文生视频模型相继发布。这些模型能够根据用户输入的指令输出高度真实、动感十足的视觉效果。然而在实际项目落地过程中,一个尤为重要的问题是关于大模型的安全性:这些生成模型是否能够稳定输出安全、合法合规的内容;以及,假设在别有用心的人的恶意攻击下,是否会被诱导出恶意内容,造成技术的滥用和公司平台的损失。在语言模型中已经有一些相关研究,而在视频生成领域相关工作还相对比较少。本课题希望基于近期发布的一些新的视频生成工作,评估模型安全性,以及设计相应的算法防备恶意攻击。
建议研究方向:
1. 设计新的方法评估视频生成模型安全性;
2. 基于视频生成模型的性质和网络结构,针对性设计算法,诱导网络输出特定恶意内容;
3. 基于可能存在的诱导攻击手段,设计一些方法防御针对大模型的恶意攻击。
课题目标:
1. 产出算法模型及源代码;
2. 产出视觉顶会论文1~2篇;
3. 申请发明专利1~2项。
3. 基于视频生成大模型创作的新交互方式的研究
课题背景:
随着Sora、可
灵
等视频生成大模型的问世,我们能够创造出动态幅度更大、想象力更丰富的长视频,为视频内容创作开启了新纪元。然而,如何生成能满足创作者需求,更贴近他们创意构想的视频,仍是一大挑战。现有的视频生成领域已有诸多可控生成的研究,但其创作交互方式仍显局限且效率不高,我们认为存在着更合理、更优雅的交互创作方式达到可控的目的。另一方面,创作者在结合现有可控流程进行视频创作时,往往需要复杂的流程才能达到满意的效果,这无疑降低了创作效率。我们也期望通过算法创新,设计出更适应新视频生成大模型的创新算法,以取代复杂的视频创作流程,实现类似甚至更好的效果。此外,Google提出了生成式交互环境Genie,通过大量无监督视频自主学习交互动作,为二维视频增加了交互的维度,开启了创作出互动性的视频内容更广阔的空间。
建议研究方向:
1. 探索并设计更符合视频生成大模型的可控交互方式;
2. 通过算法创新,构建更适应视频生成大模型的新创作流程,以更简洁的方式实现更好效果;
3. 利用大量无监督视频,学习可交互的视频,进而赋能用户创作出互动性的视频内容。
课题目标:
1. 产出算法模型及源代码;
2. 产出CCF-A类论文1~2篇;
3. 申请发明专利1~2项;
4. 在应用场景中达到可行性验证。
4. 视频生成模型的评测与人类反馈的强化学习(RLHF)研究
课题背景:
视频生成大模型正在蓬勃发展,生成的内容越来越逼真。如何评估这些生成模型的质量日渐成为一个颇具挑战性的课题。这不仅涉及对画质的评价,还需要对视频运动的合理性以及其他多个方面进行深入分析。只有更准确地评估视频生成质量,才能帮助我们在模型迭代中选择更好的模型,并指导我们对模型进行进一步的优化。此外,这也为我们在视频生成领域研究Scaling Laws提供了有效的支撑。与此同时,基于人类反馈的强化学习
(Reinforcement Learning from Human Feedback, RLHF)已经在大语言模型
和图像生成领域取得了显著的成效。这种方法通过深入学习人类反馈数据,引导模型生成更加符合人类预期的高质量内容。在视频生成领域,同样需要借鉴RLHF, 以优化生成视频的质量。本课题旨在对视频生成模型的评测和RLHF进行深入且具有前瞻性的研究。
建议研究方向:
1. 更贴合视频生成领域的视频和模型效果评测;
2. 在视频生成中应用基于人类反馈的强化学习,引导模型生成更加符合人类预期的高质量内容。
课题目标:
1. 产出算法模型及源代码;
2. 产出CCF-A类论文1~2篇;
3. 申请发明专利1~2项。
5. 基于强化学习的视频问答大模型研究
课题背景:
最近,多模态大模型在视频内容理解、逻辑推理上表现出不凡的效果。但是,幻觉问题一直是困扰多模态大模型的一个重要因素。目前,强化学习是解决模型效果对齐的一个重要手段,许多工作已经证明这是解决模型幻觉和回答偏好的一个有效途径。另一方面,视频作为一个多模态信息的载体,所包含的信息量巨大,如何生成适合快手场景的视频描述,这对于我们将视频理解技术应用到快手的各个场景也是意义重大。在这一方面,强化学习都可以发挥其重要的作用。本课题的研究目标是通过强化学习,解决多模态大模型在视频问答上的幻觉问题,提升模型开放域问答能力以及生成具有特定偏好的视频描述。
建议研究方向:
1. 基于视觉多模态大模型,探索强化学习在多模态场景上有效且实用的学习范式,例如LLaVA-RLH
F
、RLHF-V
;
2. 探索通过强化学习解决视频问答、视频caption中的幻觉问题;
3. 探索通过强化学习,生成更适合快手推荐场景的视频描述。
课题目标:
1. 产出算法模型及源代码;
2. 产出CCF-A类论文1~2篇;
3. 在应用场景中达到可行性验证。
1. 基于视频生成先验的视频处理算法研究
课题背景:
近期文生图/文生视频等技术取得了显著的进展,并随着数据量和模型参数量的增长,能够高质量的实现无中生有。但是在视频增强与修复等等处理算法中,不仅需要能够无中生有各种高频细节信息,而且希望生成视频能够高度保留原始视频语意信息。如何借助文生图等大模型的先验信息,助力视频增强与修复等处理算法在学术界已有相关研究,但是在保真度等指标上,远远低于传统的方法。本课题希望能够充分发挥大模型的先验信息,并能够结合低质视频的条件输入,在保真度和清晰度等综合指标上取得突破,将快手视频清晰度提升一个台阶。
建议研究方向:
1. 基于现有的大模型技术,结合低质视频输入信息,针对性设计网络框架和优化手段,提升视频处理的结果;
2. 由于大模型生成纹理存在多样性,会一定程度破坏原视频的表达意图。因此需要设计相关算法和数据退化,灵活的平衡视频保真度和生成多样性。
课题目标:
1. CCF- A类论文一篇;
2. 产出算法模型以及源代码;
3. 申请发明专利一项;
4. 在快手场
景上,快手视频/图片质量评估(Kuaishou Visual Quality,KVQ)等主
观指标提升0.3以上。
1. 代码大模型训练与数据优化技术研究
课题背景:
为提升代码大模型的性能和实用性,从数据收集、数据清洗、训练数据增强、到最终的模型训练等各个环节进行全流程的优化。本课题将结合高效的数据收集和处理技术、先进的数据增强策略以及优化的模型训练方法,系统研究和实践代码大模型的全流程训练和优化技术,以提升模型的代码生成能力和整体性能。
建议研究方向:
1. 数据收集和处理:公域/私域数据收集、数据过滤、清洗,代码的评估、筛选,数据聚类、分布对大模型推理能力的影响等;
2. 训练数据优化:数据切分、数据分布、平衡性和代表性,领域任务与通用推理能力提升等;
3. 数据增强和飞轮技术:利用用户编码及行为数据,实现数据飞轮,强化模型偏好。
课题目标:
1. 产出算法模型及源代码;
2. 产出CCF-A类论文1~2篇;
3. 申请发明专利1~2项;
4. 在应用场景中达到可行性验证。
2. 大模型在自动化Code Review和测试用例生成中的应用
课题背景:
大模型技术在文本生成和代码分析方面的优势,为自动化Code Review和测试用例生成提供了新的可能性。人工Code Review和测试用例编写在研发过程中耗费大量时间和人力,且存在疏漏风险。本课题旨在探索大模型在代码质量保证中的应用,利用大模型进行自动化Code Review和生成测试用例,有效提高研发效率和代码质量。
建议研究方向:
1. 大模型在代码分析与审查中的应用:代码审查、修复优化,结合经典代码漏洞检测算法、研发数据、数据增强技术等,提高大模型审查代码的能力;
2. 自动化高质量软件测试的算法模型:面向特定私域框架和组件的测试用例生成,接口用例、手工用例、UI自动化用例等用例类型的生成方案及效果评估。
课题目标:
1. 产出算法模型及源代码;
2. 产出CCF-A类论文1~2篇;
3. 申请发明专利1~2项;
4. 在应用场景中达到可行性验证。
3. 基于程序分析与Code Search技术的代码大模型研究
课题背景:
代码大模型在研发辅助中具有广泛应用,复杂代码解释、符合现实需求的代码生成,依赖于精炼的程序分析与准确的代码搜索技术。本课题旨在研究适用于该场景的代码程序分析方法与Code Search技术,提升代码理解和生成的性能,并在实际研发场景中验证其应用效果。
建议研究方向:
1. 代码语法和语义分析技术:代码静态分析、基于大模型的代码语义表示技术、语法错误纠正与补全算法等;
2. 代码依赖关系分析:依赖图构建方法、深度学习、图学习技术等,强化依赖关系分析的精度和效率、构建依赖关系检测工具等;
3. 多语言Code Search:支持多语言的统一搜索框架,提升自然语言与代码间、不同语言代码片段间的互检索能力;
4. 检索增强生成(RAG):检索信息在代码生成模型中的嵌入和融合技术。
课题目标:
1. 产出算法模型及源代码;
2. 产出CCF-A类论文1~2篇;
3. 申请发明专利1~2项;
4. 在应用场景中达到可行性验证。