该文章介绍了关于搭建AI学习社群、大模型日报订阅、深度研究产品ResearchFlow的推广及相关知识库资源的链接。此外,还涉及了多模态大语言模型优化、基于强化学习的推理模型构建路线图、多机器人任务规划等主题的文章及其研究链接的分享。
文章提及了搭建一个AI学习社群,让大家能够学习到最前沿的知识,共建一个更好的社区生态。并分享了相关社区如「奇绩潜空间」的活动和嘉宾介绍。
介绍了一种新的多模态大语言模型优化方法——任务偏好优化(TPO),旨在提升MLLM在视觉感知和推理任务中的表现。
文章提出了一种基于强化学习(RL)和搜索的路线图,以构建具有强大推理能力的大型语言模型(LLM)。通过策略初始化、奖励设计、搜索和学习等关键组件来构建高级推理模型。
提出了一种基于分层强化学习(HRL)的多机器人任务规划方法,解决了大规模机器人移动履行系统(RMFS)中任务规划面临的挑战。通过结合多阶段课程学习、时间图神经网络和HRL算法,提高了规划质量和速度。
我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。
https://www.feishu.cn/community/article/wiki?id=7355065047338450972
点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送
学术分析报告:ResearchFlow -- 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。
欢迎大家一起交流!
叶添:揭秘大语言模型推理机制——超越人类的二级推理
奇绩潜空间活动报名
【奇绩潜空间】是 GenAI 时代冲得最快的一批科研学者/从业者/创业者聚集的 AI 人才社区,潜空间定期邀请大模型前沿创业者分享产品实践探索,邀请前沿科研学者分享最新技术进展。
第五季第二期潜空间邀请到的嘉宾是清华大学姚班,卡内基梅隆大学博士生,Physics of LLM 2.1作者,于 Meta 担任 Research Scientist Intern的叶添,在本次活动中叶添将在北京现场与大家面对面交流,他分享的主题是《揭秘大语言模型推理机制——超越人类的二级推理》。
信号
Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment
本文提出了一种新的多模态大语言模型(MLLM)优化方法——任务偏好优化(TPO),旨在提升MLLM在视觉感知和推理任务中的表现。随着用户对模型多任务感知的要求不断提高,现有的多模态模型在进行特定视觉任务(如时序定位、分割和跟踪)时通常通过在文本格式的数据上微调,或者激活相应的任务头来增强感知能力。然而,这种方法虽然在单一任务上有所提升,但往往会牺牲多模态的综合性能,原因在于不同任务之间的学习差异,尤其是视觉密集预测和文本标记的表示差异。为了提升MLLM的多任务处理能力,本文提出的TPO方法通过结合视觉任务知识,优化MLLM的多模态对话生成能力。具体来说,TPO通过区分视觉任务特征,将这些任务的标注作为用户偏好进行优化,通过可微的任务优化,指导MLLM生成更符合人类感知的预测。TPO通过将视觉任务头附加到MLLM的部分输出,并使用多个可学习的任务标记来帮助模型理解任务。这些任务头与任务标记一起训练,以增强模型在视觉任务中的理解能力,并通过多模态与视觉特定任务数据的联合训练,促进模型的感知与推理能力。此外,TPO的有效性在多个开源的MLLM模型中得到了验证,例如LLaVA和VideoChat2等。通过TPO微调这些模型,显著提高了视觉理解能力和对话表现。本文的实验结果表明,TPO在多个图像和视频多模态基准上平均提高了14.6%,尤其在空间定位、时序定位、跟踪和分割等视觉任务中,与专家模型相比,表现出相当的性能。此外,TPO方法具有较好的可扩展性,在不同的任务头、任务数据规模下均能取得优异的表现,且随着任务数据量的增加,模型性能不断提升。https://arxiv.org/abs/2412.19326ResearchFlow链接:https://rflow.ai/flow/d8123d88-4c9a-4ea9-ba16-5e8121c8c0fc
Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective
本文提出了一种基于强化学习(RL)和搜索的路线图,以构建具有强大推理能力的大型语言模型(LLM),如OpenAI的o1模型。o1代表了AI领域的重大突破,其推理能力超越了前代模型,能够进行长时间的推理、问题分解、自我修正、探索新方案等,展现了接近博士级的推理能力。本文重点介绍了如何通过四个关键组件——策略初始化、奖励设计、搜索和学习——构建像o1这样的高级推理模型。创新点之一是提出了一种基于搜索的思维过程。搜索不仅在训练阶段生成高质量的数据,还在推理阶段帮助模型进一步优化其策略。通过引入搜索,o1模型能够在计算量更大的情况下生成更好的解决方案。这一方法与AlphaGo等经典强化学习系统类似,使用蒙特卡洛树搜索(MCTS)等技术优化决策过程。此方法的关键在于如何将搜索与训练相结合,使得模型能够通过不断的探索提高推理能力,而不需要依赖于昂贵的人工标注数据。策略初始化是模型训练的起点。由于LLM的动作空间庞大,直接使用强化学习训练是非常困难的,因此可以利用大量的互联网数据进行预训练,形成初步的策略模型,并通过提示工程和监督微调使模型获得类人推理行为。这种策略初始化使得LLM能够系统地思考并验证其结果,进而更好地探索解决方案空间。奖励设计为搜索和学习过程提供了引导信号。奖励信号的设计非常重要,特别是在环境中奖励信号稀疏或不存在的情况下。例如,在故事写作任务中,可以通过偏好数据学习奖励模型,将稀疏的结果奖励转化为密集的过程奖励,从而提升训练效率。在搜索方面,训练时的搜索通过生成训练数据来提升数据质量,而测试时的搜索则进一步优化模型的子最优策略。本文提出,在测试阶段,尽管搜索计算量增加可能导致反向缩放问题(即政策、奖励和价值模型在不同的分布上训练和评估),但搜索仍然是提升模型性能的重要手段。学习过程通过强化学习从环境的互动中获得数据,消除了对人工标注数据的依赖,并提供了超越人类水平的潜力。在该路线图中,强化学习通过策略梯度方法或行为克隆方法进行,前者具有高效的数据利用能力,后者则在简单性和内存效率上更具优势。与AlphaGo Zero类似,结合搜索算法(如MCTS)和学习方法(如行为克隆)最终实现了超人类表现。https://arxiv.org/abs/2412.14135ResearchFlow链接:https://rflow.ai/flow/747a3997-f300-462b-bbe8-202f374459dd
Scalable Hierarchical Reinforcement Learning for Hyper Scale Multi-Robot Task Planning
本文提出了一种基于分层强化学习(HRL)的多机器人任务规划(MRTP)方法,旨在解决大规模机器人移动履行系统(RMFS)中任务规划面临的挑战。RMFS系统通过多机器人协作提高仓库操作效率,其中涉及复杂的任务调度(TS)、任务分配(TA)和任务分解(TD)。传统的任务规划方法在面对高维度、动态变化和大规模任务时,常常面临维度灾难和性能不稳定的问题。为了克服这些困难,本文提出了一种基于异步多机器人时序图(C2AMRTG)的分层强化学习框架,并结合多阶段课程学习、时间图神经网络(HTAN)以及HRL算法(HCR-REINFORCE),显著提高了规划质量和速度。创新点在于:首先,本文将MRTP问题建模为具有周期约束的异步多机器人时序图(C2AMRTG),并通过该图提取系统的特殊规律,为后续的规划提供理论基础。其次,采用集中式设计,确保规划过程中的全局最优性,并通过分层结构降低了动作空间的维度,从而提高了规划效率。再次,本文设计了一个基于C2AMRTG的时序图神经网络(HTAN),该网络通过引入特殊的时序嵌入层,增强了空间-时序特征提取能力,能够在更大规模的系统中保持良好的扩展性。为了减少分层框架中不公平的信用分配问题,本文还提出了HCR-REINFORCE算法,并结合行为克隆损失和深度强化学习损失的联合优化方法,加速了训练初期的收敛速度。此外,本文还设计了多阶段课程学习方法HCR2C,通过逐步扩展训练实例的随机边界,进一步提升了系统在不同规模和未见过的任务地图上的泛化能力,同时避免了灾难性遗忘。最终,实验结果表明,该方法在最大可扩展至200个机器人、1000个取货架和2000个空闲存储架的随机实例中,能够显著优于其他启发式方法和强化学习方法,在现实世界中的RMFS实例中也成功超越了传统规划器。https://arxiv.org/abs/2412.19538ResearchFlow链接:https://rflow.ai/flow/ebc4b3cd-24e2-4878-8236-761cb288591a