专栏名称: AI TIME 论道
AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来。
目录
相关文章推荐
自贡网  ·  玉盘玉盘,这春天是否有答案? ·  昨天  
自贡网  ·  什么?自贡又要降温了?! ·  昨天  
四川日报  ·  快讯!“朝鲜发射数枚导弹” ·  2 天前  
四川发布  ·  全国政协十四届三次会议闭幕 ·  2 天前  
自贡网  ·  多所高校官宣:扩招! ·  4 天前  
51好读  ›  专栏  ›  AI TIME 论道

对话推荐、视频理解、视觉指令生成 | 本周大模型论文推荐

AI TIME 论道  · 公众号  ·  · 2025-03-08 12:00

正文

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!


01

Knowledge-Enhanced Conversational Recommendation via Transformer-based Sequential Modellingt

在对话推荐系统(Conversational Recommender Systems, CRSs)中,对话通常涉及一组物品以及与物品相关的实体或属性,例如,导演是电影的关联实体。这些物品和相关实体通常会在对话的发展过程中被提及,从而导致它们之间存在潜在的顺序依赖关系。然而,大多数现有的CRS忽略了这些潜在的顺序依赖性。


本文首先提出了一种基于Transformer的顺序对话推荐方法,命名为TSCR,用于模拟对话中的顺序依赖性,以改进CRS。在TSCR中,对话通过物品及其相关实体来表示,并通过考虑提及的物品和相关实体来构建用户序列,以发现用户偏好。基于构建的序列,本文部署了一个Cloze任务,用于沿着序列预测推荐物品。与此同时,在某些领域中,物品及其相关实体形成的知识图谱是现成可用的,它们提供了这些实体之间的各种不同关联。鉴于TSCR无法从这些知识图谱中受益,本文进一步提出了一种增强版的TSCR,称为TSCRKG。具体而言,本文利用知识图谱离线初始化模型TSCRKG,并通过在知识图谱中添加多跳路径来增强对话中的用户序列(即对话中提及的物品和相关实体的序列)。实验结果表明,TSCR模型显著优于现有的最先进基线模型,而增强版TSCRKG在TSCR的基础上进一步提升了推荐性能。







文章链接:

https://arxiv.org/pdf/2412.02415

02

T-REG: Preference Optimization with Token-Level Reward Regularization

从人类反馈中进行强化学习(Reinforcement Learning from Human Feedback, RLHF)在使大型语言模型(Large Language Models, LLMs)与人类价值观对齐方面发挥了关键作用。传统上,RLHF涉及对查询生成响应,并使用奖励模型为整个响应分配奖励。然而,这种方法由于依赖单一的稀疏奖励,使得模型难以识别序列中哪些部分对最终奖励的贡献最大,从而面临挑战。近期的方法试图通过引入逐标记(token-level)奖励来解决这一限制。然而,这些方法往往依赖于训练有素的归因模型或人工智能标注者,引发了对奖励质量和可靠性的担忧。


本文提出了一种名为逐标记奖励正则化(Token-level Reward Regularization, T-REG)的新方法,该方法结合了序列级和逐标记级奖励,用于优化偏好。利用LLMs的自我优化能力,本文的方法通过对比提示(contrastive prompting)使LLMs能够自动生成逐标记奖励。这些自动生成的奖励随后作为奖励正则化,引导模型更有效地将序列级奖励分配到各个标记上。这有助于实现更好的逐标记归因,并提升对齐性能。在指令遵循基准测试(包括Alpaca Eval 2和Arena-Hard)上的实验表明,本文提出的方法在性能上一致优于基线方法,分别提升了3.8%和4.4%。







文章链接:

https://arxiv.org/pdf/2412.02685

03

VideoICL: Confidence-based Iterative In-context Learning for Out-of-Distribution Video Understanding


最近,视频多模态大模型(Large Multimodal Models, LMMs)在视频理解和推理能力方面取得了显著进展。然而,这些模型在训练数据中未充分覆盖的分布外(Out-of-Distribution, OOD)任务上的表现会大幅下降。传统的微调方法由于计算成本高昂而不切实际。尽管在语言任务和图文任务中,通过示例进行上下文学习(In-context Learning, ICL)在无需微调的情况下展现出了良好的泛化性能,但由于视频需要更长的标记长度,而视频多模态大模型的上下文长度有限,因此将ICL应用于视频-语言任务面临挑战。为了解决这些问题,本文提出了一种名为VideoICL的新型视频上下文学习框架,专门用于OOD任务。该框架引入了一种基于相似度的相关示例选择策略和基于置信度的迭代推理方法。通过这种策略,可以选出最相关的示例,并根据相似度进行排序,用于推理。如果生成的响应置信度较低,该框架会重新选择新的示例并再次进行推理,通过迭代优化结果,直到获得高置信度的响应。这种方法通过扩展有效的上下文长度,而无需付出高昂成本,从而提升了OOD视频理解的性能。在多个基准测试上的实验结果表明,该方法在特定领域的场景中取得了显著的性能提升,为更广泛的视频理解应用奠定了基础。





文章链接:

https://arxiv.org/pdf/2412.02186

04

RelayGS: Reconstructing Dynamic Scenes with Large-Scale and Complex Motions via Relay Gaussians

重建具有大规模和复杂运动的动态场景仍然是一个重大挑战。近年来,诸如神经辐射场(Neural Radiance Fields)和三维高斯绘制(3D Gaussian Splatting, 3DGS)等技术虽然展现出一定的潜力,但在处理涉及显著运动的场景时仍面临困难。本文提出了一种基于3DGS的新型方法RelayGS,专门用于表示和重建高度动态的场景。RelayGS通过规范化的三维高斯分布和紧凑的运动场学习完整的四维表示,包含三个阶段。


首先,从所有帧中学习一个基础的3DGS,忽略场景的时序变化,并使用可学习的掩码将高度动态的前景与几乎静止的背景分离。其次,从第一阶段分离出的前景高斯分布复制多个副本,每个副本对应一个时间片段,并利用每个片段内多帧构建的伪视图对它们进行优化。这些高斯分布被称为中继高斯(Relay Gaussians),它们作为显式的中继节点,将大规模运动轨迹简化并分解为更小、更易于管理的片段。最后,联合学习场景的时间运动,并优化前两个阶段中学习到的规范化高斯分布。


本文在两个具有大规模和复杂运动的动态场景数据集上进行了广泛的实验,结果表明,RelayGS在峰值信噪比(PSNR)上比现有最先进的方法高出1分贝以上,并且能够以更完整、更连贯的方式成功重建真实世界的篮球比赛场景,而以往的方法通常难以捕捉球员的复杂运动。







文章链接:

https://arxiv.org/pdf/2412.02493

05

ShowHowTo: Generating Scene-Conditioned Step-by-Step Visual Instructions

本研究的目标是根据输入图像(提供场景上下文)和文本指令序列,生成以图像序列形式呈现的逐步视觉指导。这是一个具有挑战性的问题,因为它需要在特定环境中生成多步骤的图像序列以实现复杂目标。部分挑战源于缺乏大规模的训练数据。因此,本研究的贡献体现在三个方面。首先,本文提出了一种从教学视频中自动收集大规模逐步视觉指导训练数据的方法。该方法应用于100万段视频,创建了一个包含60万对图像-文本序列的高质量大规模数据集。其次,本文开发并训练了一个名为ShowHowTo的视频扩散模型,该模型能够生成与输入图像一致的逐步视觉指导。最后,本文从准确性(步骤、场景和任务)三个维度对生成的图像序列进行了评估,并展示了该模型在所有维度上均达到了最先进的水平。本文的代码、数据集和训练模型均已公开。







文章链接:

https://arxiv.org/pdf/2412.01987

06

Reverse Thinking Makes LLMs Stronger Reasoners

逆向思维在人类推理中起着至关重要的作用。人类不仅可以从问题推理到解决方案,还可以反过来,即从解决方案出发推理回问题。这种思维方式通常能够提升整体推理性能,因为它允许在正向和逆向思维之间进行一致性检查。为了使大型语言模型(LLMs)具备逆向思维能力,本文提出了一个名为“逆向增强思维(Reverse-Enhanced Thinking, REVTHINK)”的框架,该框架由数据增强和学习目标组成。


在REVTHINK中,通过从教师模型收集结构化的正向-逆向推理来增强数据集,具体包括:(1)原始问题,(2)正向推理,(3)逆向问题,以及(4)逆向推理。随后,本文采用三个目标以多任务学习的方式训练一个较小的学生模型:(a)从问题生成正向推理,(b)从问题生成逆向问题,以及(c)从逆向问题生成逆向推理。


在涵盖常识、数学和逻辑推理的12个数据集上的实验表明,与学生模型的零样本性能相比,平均提升了13.53%,与最强的知识蒸馏基线相比,提升了6.84%。此外,该方法还表现出样本效率——仅使用训练数据中10%的正确正向推理,就能超越在10倍正向推理数据上进行标准微调的方法。REVTHINK还展现出对分布外保留数据集的强大泛化能力。








文章链接:

https://arxiv.org/pdf/2411.19865

07

Fleximo: Towards Flexible Text-to-Human Motion Video Generation

当前生成人类运动视频的方法依赖于从参考视频中提取姿态序列,这限制了灵活性和可控性。此外,由于姿态检测技术的局限性,提取的姿态序列有时可能不准确,从而导致视频输出质量低下。本文提出了一项新任务,即仅从参考图像和自然语言生成人类运动视频。这种方法提供了更大的灵活性和易用性,因为文本比所需的引导视频更容易获取。然而,为这一任务训练端到端模型需要数百万对高质量的文本和人类运动视频,这很难获得。


为了解决这一问题,本文提出了一种名为Fleximo的新框架,利用大规模预训练的文本到3D运动模型。然而,这种方法并非一帆风顺,因为文本生成的骨骼可能无法始终与参考图像的尺度一致,并且可能缺乏详细信息。为了克服这些挑战,本文引入了一种基于锚点的重缩放方法,并设计了一个骨骼适配器,以填补缺失的细节,并弥合文本到运动和运动到视频生成之间的差距。此外,本文还提出了一个视频优化过程,以进一步提升视频质量。一个大型语言模型(LLM)被用于将自然语言分解为离散的运动序列,从而能够生成任意长度的运动视频。


为了评估Fleximo的性能,本文引入了一个名为MotionBench的新基准测试,包含20种身份和20种运动的400段视频。本文还提出了一种新的评估指标——MotionScore,用于评估运动跟随的准确性。定性和定量结果均表明,本文提出的方法优于现有的基于文本条件的图像到视频生成方法。







文章链接:

https://arxiv.org/pdf/2411.19459


本期文章由陈研整理

往期精彩文章推荐







请到「今天看啥」查看全文


推荐文章
自贡网  ·  什么?自贡又要降温了?!
昨天
四川日报  ·  快讯!“朝鲜发射数枚导弹”
2 天前
四川发布  ·  全国政协十四届三次会议闭幕
2 天前
自贡网  ·  多所高校官宣:扩招!
4 天前
美美耶  ·  男生最常见的8种耍流氓行为
8 年前
酱子工厂  ·  新婚男女,太过瘾!
8 年前