专栏名称: 微软亚洲研究院
专注科研18年,盛产黑科技
目录
相关文章推荐
宝玉xp  ·  WSJ 今天发的一篇文章:《IT ... ·  昨天  
爱可可-爱生活  ·  Corca的协同数学编辑器输入公式也太顺滑了 ... ·  昨天  
爱可可-爱生活  ·  【[974星]video-subtitle- ... ·  3 天前  
AI前线  ·  “首席炒作官”Altman ... ·  3 天前  
黄建同学  ·  可以预见 2025年 AI Agents ... ·  3 天前  
51好读  ›  专栏  ›  微软亚洲研究院

NeurIPS上新 | 优化生成式AI效能,推进负责任AI实践

微软亚洲研究院  · 公众号  · AI  · 2024-12-10 19:15

正文


(本文阅读时间:17分钟)


编者按:欢迎阅读“科研上新”栏目!“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里,你可以快速浏览研究院的亮点资讯,保持对前沿领域的敏锐嗅觉,同时也能找到先进实用的开源工具。

12月10日至12月15日,全球最负盛名的人工智能盛会之一 NeurIPS 大会将在加拿大温哥华举办。因此,我们将通过三期“科研上新”为大家带来多篇微软亚洲研究院入选 NeurIPS 2024 的精选论文解读,涉及内容涵盖 大模型优化 、生成式人工智能、跨模态学习、社会责任人工智能、特定领域基础模型等。

欲了解微软研究院在本届 NeurIPS 的更多内容,请访问:
https://www.microsoft.com/en-us/research/story/microsoft-at-neurips-2024-advancing-ai-research-across-domains/

如果你已经注册了大会,不要错过微软亚洲研究院院长周礼栋博士的主旨演讲:


如今,生成式 AI 和扩散模型正成为 AI 内容创作的中坚力量。在第二期 NeurIPS 2024 精选论文解读中,大家将了解到微软亚洲研究院的研究员们如何提升生成式 AI 与扩散模型的效率以及多功能性,从而使其在多样化的应用场景中更加强大、稳健。与此同时,为了确保 AI 系统与人类的价值观和社会规范保持一致,研究员们还开发了可评估人工智能风险并推动伦理实践的工具,希望加强人工智能的治理与可信度。


「 本期内容速览 」
01

通过多模态大语言模型反馈,提升文本到视频生成模型

02

CLAVE:评估大语言模型生成文本价值观的自适应框架

03

大语言模型指导的组合式三维视频生成

04

利用基于交叉注意力的扩散模型作为解耦的归纳偏置(Spotlight)

05

通过信息瓶颈保护你的大语言模型

06

理解与提升无需训练的扩散模型引导方法

07

VASA-1:实时生成音频驱动的、逼真的说话人脸(Oral)


01

通过多模态大语言模型反馈,提升文本到视频生成模型



论文链接:

https://openreview.net/pdf?id=3ivnixHy16


近年来,文本到视频生成模型展现出了卓越的视频生成能力,并因其广阔的应用前景引起了广泛关注。但这些生成模型在预训练的过程中往往依赖于来自互联网的大规模视频数据集,由于这类数据集的质量参差不齐,从而导致了生成的视频质量低下、不连贯、美学效果差以及未能准确反映输入文本提示等问题。解决此问题的一种有效的策略是通过“来自人类反馈的强化学习”(Reinforcement Learning from Human Feedback, RLHF),将文本到视频生成的输出与人类偏好对齐。然而,手动标注大规模视频偏好成本巨大,所以相关领域的大规模视频偏好数据集相对稀缺。


为应对这一挑战,本篇论文首次探讨了利用多模态大语言模型(Multimodal Large Language Models, MLLMs)进行视频偏好标注的有效性。研究员们通过实验证明,多模态大语言模型生成的视频偏好与人类判断高度一致,证明了多模态大语言模型能够作为可靠的视频偏好标注者,且可以以极低的成本帮助进行大规模视频偏好标注。


根据这一发现,研究员们利用多模态大语言模型在视频的时序连贯性和文本提示匹配程度这两个维度上,进行了细粒度的偏好标注,并最终构建了VideoPrefer数据集。该数据集包含了135,000个偏好标注,是目前为止业界最大的视频偏好数据集。


基于 VideoPrefer 数据集,研究员们又提出了 VideoRM,这是第一个专为文本到视频生成设计的视频偏好通用奖励模型。通过全面的实验与人工评估验证,研究表明,VideoPrefer 和 VideoRM 能够显著提升现有视频生成模型的生成质量。


图1:VideoRM 架构图


02

CLAVE:评估大语言模型生成文本价值观的自适应框架



论文链接:

https://openreview.net/pdf?id=Kxta8IInyN


随着大语言模型(LLMs)取得的突破性进展,潜在的社会风险也逐渐显现,例如生成带有偏见的内容、不符合伦理的建议以及非法信息。如何评估和对齐大语言模型的价值观,成为确保其负责任发展的重要课题。


已有的方法通过包括伦理判断、价值问卷或生成式价值评估等来评测大模型的价值观。微软亚洲研究院的研究员们重点关注生成式价值评估方式,即从模型在特定场景下的生成内容直接解码其隐含的价值观。然而,这种开放式的价值评估范式高度依赖于无需参考答案的自动评估工具,但现有的评估工具面临两大挑战:在适应性方面,人类的价值观是多样且动态的,可能因文化、地区甚至个体偏好而异,现有的评估工具难以适应这些新的和不断变化的价值体系;在泛化性方面,评估方法需要能够在不同的表达方式和复杂的场景下准确识别潜在的价值观,但小模型容易过拟合,缺乏对未知场景的鲁棒性和泛化性。


为了解决上述挑战,研究员们提出了 CLAVE 框架。该框架结合了大规模闭源模型和小型开源模型的优势:使用强大的闭源模型作为“概念提取器” (value concept extractor),从少量手动标注的数据中提取有代表性的价值概念并将其应用于广泛的测试场景;将小型开源模型微调为“价值识别器” (value recognizer),基于提取的价值概念而非原始文本进行价值判断,从而实现高效的对齐,同时减少标注和训练成本。这一双模型框架不仅提高了评估的适应性,还显著增强了评估方法的泛化性和鲁棒性。


图2:(a) 现有价值观评测模型在不同数据集上的结果。(b) CLAVE 简单示例。


为了标准化大语言模型生成内容的价值评估,研究员们构建了一个名为 ValEval 的基准数据集,包括13,000多条人工标注的(文本、价值、标签)数据,并对15种主流大语言模型进行了评估和对比分析。实验结果表明,CLAVE 框架在适应性和泛化性方面相比现有方法可以达到更优的平衡。


03

大语言模型指导的组合式三维视频生成



论文链接:

https://arxiv.org/ abs /2409.00558

项目链接:

https://aka.ms/c3v


得益于生成模型和大规模互联网数据的快速发展,近年来文本生成视频技术取得了显著进展。然而,如何精确控制生成视频中的多种不同概念,如特定角色的外观、动作以及视角的动态变化,仍然是一个重要挑战。


在本篇论文中,研究员们提出了一种全新的文本生成视频范式 C3V,其把大语言模型作为导演,3D 高斯作为结构化表征来实现组合式三维视频生成。具体而言,该方法的核心在于以模块化的方式将复杂的概念进行分解,并利用预训练的扩散模型提供先验进行组合,从而最大程度提高视频生成的灵活性和质量。


该方法主要分为以下三个主要阶段:


图3:组合式三维视频生成框架


阶段一:任务分解与 3D 表征生成。研究员们利用 LLMs 作为任务分解工具,将复杂的文本提示拆解成一系列子提示,每个子提示对应一个视频中的独立概念(例如某个场景、对象或动作)。接着,利用预训练的专家模型为每个概念生成高质量的 3D 表征。


阶段二:多概念组合。在获得不同概念各自的 3D 表征之后,研究员们进一步利用多模态 LLMs,通过生成包括目标尺度和轨迹等粗粒度的指导信号,将这些概念组合到同一个三维空间中,进而渲染出逼真的视频。


阶段三:融合 2D 扩散先验的细化。为了生成更逼真的视频,研究员们引入 2D 扩散模型作为最后的优化步骤。通过分数蒸馏采样(Score Distillation Sampling, SDS)对阶段二生成的不同帧进行微调,使其分布更贴近真实世界的自然图像。


通过大量实验,研究员们发现,与现有方法相比,该方法生成的视频在细节处理和动作流畅性上表现出明显的提升,且在灵活性方面具有显著优势,为文本生成视频任务提供了一种全新的解决方案。


04

利用基于交叉注意力的扩散模型作为解耦的归纳偏置



论文链接:

https://arxiv.org/abs/2402.09712


解耦表示学习的目标是从观测数据中提取内在组成因素以表征数据,这对于提升机器学习的可解释性、泛化能力、控制生成和鲁棒性具有重要意义。这一领域的研究通常借助复杂的损失函数或网络结构设计来实现解耦表征学习。在本篇工作中,研究员们提出了一个新的视角和框架 EncDiff,证明了扩散模型与交叉注意力本身就可以作为一种强大的归纳偏置,促进解耦表征的学习。


在训练中,EncDiff 通过将图像编码为一组概念令牌,并将其作为扩散模型的条件输入以重建图像,其中交叉注意力机制用于连接图像编码器输出的概念令牌(解耦表征)和扩散模型。研究分析揭示了在逆扩散过程中天然存在时变信息瓶颈,这种信息瓶颈与交叉注意力共同作为强归纳偏置,促成解耦表征的学习。


图4:基于扩散模型的解耦表征学习框架 EncDiff,以及扩散过程中的时变信息瓶颈分析。


该工作不仅在理论上提供了新的视角,而且在实践上也取得了显著的成果。实验结果表明,EncDiff 框架无需额外的正则化项,就能实现卓越的解耦性能。通过全面的消融研究和可视化分析,研究员们分析了模型的工作原理,揭示了扩散过程以及交叉注意力机制在解耦学习中扮演了重要的作用。


解耦学习仍然是一个具有挑战的任务,研究员们期待这些发现能激发更多关于扩散模型在解耦表征学习中的研究,为未来更复杂的数据分析和理解提供新思路。


05

通过信息瓶颈保护你的大语言模型



论文链接:

https://arxiv.org/ abs /2404.13968

项目链接:

https://zichuan-liu.github.io/projects/IBProtector/index.html


大语言模型在多领域取得重大进展并广泛应用,但它们可能会受到攻击并产生有害内容。尽管科研人员努力使其与人类价值观念对齐,然而“越狱”场景仍时有发生。有害或恶意提示的越狱攻击损害了 LLMs 应用的完整性,因此有效防御此类攻击性提示成为迫切的需要。


目前已有的工作主要尝试通过采用微调模型或扰动输入作为防御手段。经典的扰动存在一系列问题,一是随机掩码扰动出来的信息是不完备的,并且多次访问目标模型会造成推理损失;二是生成式扰动(如摘要、意译等)存在指令不对齐的风险并且会引入额外开销。对微调防御而言,其无法访问黑盒模型,此外越狱数据的质量也不可控。


在本研究中,微软亚洲研究院的研究员们通过信息瓶颈理论提出了 IBProtector,旨在寻找出一个能替代原始提示词的子集来控制提示中的信息量,从而达到预期的回复。IBProtector 利用一个轻量级且可训练的提取器,选择性地压缩和扰动提示,只保留目标 LLMs 回应预期答案所需的核心信息。此外,研究员们给出了一个容易求解的信息瓶颈损失函数来优化压缩内容,并进一步考虑了梯度不可见的情况,以便与任何 LLMs 兼容。


图5:IBProtector 的整体框架


实验结果表明 IBProtector 在多个目标模型的多种方式的越狱攻击方式上,都保持较低的成功攻击率。同时,提取器不会显著影响 LLMs 推理消耗也不会降低良性提示的回复率,保证抽取的信息不会对正常回复结果产生影响。IBProtector 作为一种新颖、轻量、可迁移的防御手段,可以适应各种攻击方法和目标模型,增强 LLMs 的安全性,而无需修改底层模型,为防止 LLMs 越狱提供了新的思路。


06

理解与提升无需训练的扩散模型引导方法



论文链接:

https://arxiv.org/ abs /2403.12404


在扩散模型引导领域,分类器引导和无分类器引导是两种主流技术,它们通过训练额外的条件数据来实现模型控制。但最近提出的无需训练扩散模型引导方法在图像、运动、强化学习以及科学发现等多个领域都显示出了其重要性。


本篇论文深入探讨了无需训练方法在何种情况下可能优于需要训练的方法:(a) 当训练数据不足以训练一个有效的引导时,如分子生成;(b) 在需要零样本泛化的开放式任务目标的强化学习或运动生成中;(c) 当指导网络的损失被视为金标准时。


研究员们在文中进一步阐释了无需训练即可完成扩散模型引导的原因。先前的研究显示,无需训练的扩散模型引导可能无法生成符合条件概率分布的样本。但本文从优化的角度提供了理论证明,表明无需训练的扩散模型引导能够生成具有低引导网络损失的样本,并且其收敛过程具有两个阶段:第一阶段损失函数震荡,第二阶段损失函数线性收敛。


图6:无需训练扩散模型引导方法的收敛性


最后,研究员们探讨了无需训练方法的潜在弊端。研究表明,无需训练的扩散模型引导更容易受到对抗梯度的影响,并且需要更多的扩散步骤来实现收敛。尽管研究员们提出了一些改进方法,但也指出了这些弊端在某种程度上是不可避免的。这些发现为理解和改进扩散模型的可控性提供了宝贵的见解,并为未来的研究指明了方向。


07

VASA-1:实时生成音频驱动的、逼真的说话人脸



论文链接:

https://arxiv.org/abs/2404.10667

项目主页:

https://www.microsoft.com/en-us/research/project/vasa-1


微软亚洲研究院的研究员们提出了一种高效的音频生成说话人脸技术 VASA-1, 该方法仅需一张人脸肖像、一段音频和一些可选的控制信号,即可实时生成逼真的说话视频。 通过将面部动态(如唇部运动、表情、眼神和眨眼)视为单一隐变量,并结合头部运动,该方法能够利用扩散模型建模多样的说话行为模式。 实现这一目标的关键在于构建能够表达整体面部动态的潜在空间,从而为扩散模型提供训练数据。


图7:VASA-1 可实时生成音频驱动的逼真人脸视频







请到「今天看啥」查看全文