专栏名称: AINLPer
一个专注自然语言处理(NLP)方向的公众号。机器学习(ML)、深度学习(DL)、自然语言处理相关模型理解、热门论文(Paper)分享分析、pytorch、C++、Python、Java ...
目录
相关文章推荐
51好读  ›  专栏  ›  AINLPer

LLM每周速递!学术最前沿:Agent应用、强化学习、RAG、复杂推理、多模态等

AINLPer  · 公众号  · 科技创业 科技自媒体  · 2025-03-23 22:09

主要观点总结

文章主要介绍了大模型领域的最新研究进展,包括多尺度注意力、强化学习算法DAPO、大模型多Agent系统、人形机器人、调研报告生成、多模型推理模型等。每部分都有详细的介绍和相关的论文链接。

关键观点总结

关键观点1: 多尺度注意力(Attention)

提出了多尺度注意力(MSA)的新型神经网络架构Atlas,在高分辨率ImageNet 100变体中显著改善长上下文图像建模的计算-性能权衡。

关键观点2: 强化学习算法DAPO

字节提出了DAPO算法,助力RL,开源了一个使用Qwen2.5-32B基础模型在AIME 2024上达到50分的先进大规模强化学习系统,并介绍了算法成功的四大关键技巧。

关键观点3: 视频语言Agent

港理工提出一个新颖的视频-语言 Agent :VideoMind,旨在实现对时序视频理解。在多个视频理解任务上取得了最先进的性能。

关键观点4: 自动化电影生成

NUS提出的MovieAgent系统,能够根据剧本和角色库生成多场景、多镜头的长视频,保持叙事连贯性、角色一致性等。

关键观点5: 人形机器人框架Being-0

北大介绍了Being-0框架,旨在构建能在现实世界中执行复杂任务的人形机器人。包括三个关键部分:Foundation Model、模块化技能库和视觉语言模型。

关键观点6: 调研论文生成

上海AI-Lab介绍了SURVEYFORGE,一个自动化生成调研论文的工具,旨在提高效率并缩小与人类撰写调研论文的质量差距。

关键观点7: 长链推理模型的训练

从头训练长链推理模型的相关工作介绍,通过两阶段SFT和半策略DPO训练,获得具有强大推理能力的模型。

关键观点8: 多模态推理模型

浙大介绍了一个多模态推理模型R1-Onevision,旨在连接视觉感知和深度推理。提出了一种跨模态推理流程,将图像转化为形式化文本表示,实现精确的语言推理。


正文

请到「今天看啥」查看全文


点击上方 AINLPer ,设为 星标

更多干货,第一时间送达

引言

紧跟技术发展趋势,快速了解大模型最新动态。今天继续总结最近一周的研究动态,本片文章共计梳理了 10篇有关大模型(LLMs)的最新研究进展 ,其中主要包括:多尺度注意力(Attention)、强化学习算DAPO算法、大模型多Agent系统、人形机器人、调研报告生成、多模型推理模型、长CoT推理模型、RAG系统能力提升应等热门研究。

更多精彩内容--> 专注大模型/AIGC、Agent、RAG等学术前沿分享!

伯克利 | 多尺度注意力:Atlas

https://arxiv.org/pdf/2503.12355

高效建模大规模图像是机器学习的长期挑战。 「本文作者基于多尺度表示和双向跨尺度通信两大关键思想,提出了多尺度注意力(MSA)」 。基于此,作者设计了新型神经网络架构Atlas,在高分辨率ImageNet 100变体中显著改善长上下文图像建模的计算-性能权衡。 实验结果表明,1024px分辨率下,Atlas-B准确率达91.04%,与ConvNext-B相当但速度快4.3倍,且相较于FasterViT、LongViT等在速度和准确率上均有优势,与MambaVision-S相比在不同分辨率下准确率提升明显且运行时间相近。

字节 | DAPO算法,助力RL

https://arxiv.org/pdf/2503.14476

推理扩展赋予了LLMs前所未有的推理能力,强化学习是引发复杂推理的核心技术。然而,当前先进推理LLMs的关键技术细节被隐藏,社区难以复现其强化学习训练成果。 为此,本文作者提出了 「解耦剪辑和动态采样策略优化 (DAPO) 算法」 ,开源了一个使用Qwen2.5-32B基础模型在AIME 2024上达到50分的先进大规模强化学习系统。与以往隐藏训练细节的作品不同,作者介绍了算法成功的四大关键技巧,并开源了基于verl框架构建的训练代码以及精心整理的数据集,增强了可复现性,助力未来大规模LLM强化学习研究。

港理工 | 视频语言Agent

https://arxiv.org/pdf/2503.13444

本文提出了一个新颖的视频-语言 Agent :VideoMind,旨在实现对时序视频理解。通过识别视频时间推理的关键能力并开发基于角色的工作流程,包括规划者、定位器、验证者和回答者。作者还提出了链式LoRA策略,通过轻量级LoRA适配器实现无缝角色切换,平衡了效率和灵活性。 在14个公共基准测试中,VideoMind在多种视频理解任务上取得了最先进的性能,包括3个基于视频的问题回答、6个视频时间定位和5个一般视频问题回答,突出了其在视频代理和长视频推理方面的有效性。

NUS|MovieAgent,自动化电影生成

https://arxiv.org/pdf/2503.07314

本文作者提出了MovieAgent系统,旨在自动化长视频生成流程。 「MovieAgent能够根据剧本和角色库生成多场景、多镜头的长视频,并保持叙事连贯性、角色一致性、字幕同步和稳定音频」 。其引入的层次化CoT推理过程自动构建场景、相机设置和电影摄影,显著减少人力投入。通过模拟导演、编剧、故事板艺术家和场地经理等角色,MovieAgent简化了生产流程,并在脚本忠实度、角色一致性和叙事连贯性方面取得了新进展。

北大 | 人形机器人框架Being-0

https://arxiv.org/pdf/2503.12533

本文作者介绍了Being-0框架, 「旨在构建能在现实世界中执行复杂任务的人形机器人」 。该框架包含三个关键部分:负责高级认知任务的Foundation Model(FM),提供稳定运动和灵巧操控的模块化技能库,以及连接FM和低级技能的视觉语言模型(VLM)。 VLM增强了FM的具身能力,将基于语言的计划转化为可执行的技能命令,并动态协调运动和操控以提高任务成功率。所有组件(除FM外)均可部署在低成本的机载计算设备上,使Being-0能在全尺寸人形机器人上实现高效、实时的性能。

上海AI-Lab | 调研论文生成

https://arxiv.org/pdf/2503.04629

本文作者介绍了SURVEYFORGE,一个 「自动化生成调研论文的工具」 ,旨在提高效率并缩小与人类撰写调研论文的质量差距。SURVEYFORGE通过分析人类撰写的大纲逻辑结构和引用相关领域文章生成大纲,利用高质量论文自动生成和优化文章内容。 此外,本文作者构建了SurveyBench,一个包含100篇人类撰写的调研论文的基准,用以多维度评估AI生成的调研论文。实验显示SURVEYFORGE在生成调研论文方面优于AutoSurvey等先前工作。

人大 | MoC框架助力RAG系统

https://arxiv.org/pdf/2503.09600

本文作者提出了一种新的双重评估方法,包括边界清晰度和块粘性,以量化文本块的质量。基于此评估,本文作者指出传统和语义块处理复杂上下文的局限性,并强调了将大型语言模型(LLMs)整合到块处理过程中的必要性。 「为解决LLMs在块处理中的效率与精度之间的权衡,本文作者设计文本块混合学习框架:MoC」 ,通过三阶段处理机制指导生成结构化的块正则表达式列表,用于从原始文本中提取块。实验表明,新提出的评估指标和MoC框架有效解决了块任务的挑战,提高了检索增强生成系统的性能。

360 | 从头训练长链推理模型

https://arxiv.org/pdf/2503.10460

本文作者介绍了Light-R1系列模型, 「通过两阶段SFT和半策略DPO训练,从无长链推理能力的模型开始,训练出Light-R1-32B模型,其数学性能优于DeepSeek-R1-Distill-Qwen-32B」 。尽管仅在数学数据上训练,但Light-R1-32B在其他领域也展现出强泛化能力。 后续工作中,作者强调了为第二阶段SFT构建的3k数据集对提升其他模型的重要性,通过微调DeepSeek-R1-Distilled模型,获得了7B和14B的新SOTA模型,而32B模型Light-R1-32B-DS与QwQ-32B和DeepSeek-R1表现相当。此外,作者还通过应用强化学习(特别是GRPO)进一步改善了长链推理模型的推理性能,最终训练出的Light-R1-14B-DS模型在数学领域达到SOTA性能,超越了许多32B模型和DeepSeek-R1Distill-Llama-70B。

浙大|多模态推理模型:R1-Onevision

https://arxiv.org/pdf/2503.10615

本文作者介绍了 「R1-Onevision」 ,一个多模态推理模型,旨在连接视觉感知和深度推理。 「提出了一种跨模态推理流程,将图像转化为形式化文本表示,实现精确的语言推理」 基于此流程,构建了R1-Onevision数据集,提供多领域的详细、分步的多模态推理标注。通过监督微调和强化学习进一步开发模型,培养高级推理和鲁棒泛化能力。实验结果表明,R1-Onevision在多个挑战性的多模态推理基准测试中表现优异,超越了GPT-4o和Qwen2.5-VL等模型。

更多精彩内容--> 专注大模型/AIGC、Agent、RAG等学术前沿分享!

推荐阅读

[1] 盘点一下!大模型Agent“花式玩法”

[2] 一文带了解:含DeepSeek MoE

[3] 2025年的风口!| 万字长文纵观大模型Agent!

[4]2万字长文!一文了解Attention,非常详细!

[5]每周速递44期!大模型最前沿!

欢迎投稿或寻求报道,联系:ainlperbot

「资料整理不易,点个 再看







请到「今天看啥」查看全文