专栏名称: 微软亚洲研究院

专注科研18年，盛产黑科技

ECCV上新 | 精选计算机视觉领域6篇前沿论文

微软亚洲研究院 · 公众号 · AI · 2024-10-09 17:30

正文

（本文阅读时间：16分钟）

编者按：欢迎阅读“科研上新”栏目！“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里，你可以快速浏览研究院的亮点资讯，保持对前沿领域的敏锐嗅觉，同时也能找到先进实用的开源工具。

2024年的ECCV（European Conference on Computer Vision）于10月4日在意大利米兰落下帷幕。作为计算机视觉领域的重要国际会议之一，微软亚洲研究院有多篇论文入选。本期的科研上新为大家精选了其中的6篇，内容涵盖：口语到手语翻译、单图像的 3D 编辑、字体特效生成、定制化文本编码器、视频编解码器和数字化身生成。

欢迎大家参与文末的论文投票，我们将选取大家最感兴趣的论文进行直播讲解！

「本期内容速览」

一个基于3D虚拟形象的、用于口语到手语翻译的基线方法

扩散模型是几何评估器：使用预训练扩散先验进行单图像三维编辑

FontStudio：用于生成字体特效的形状自适应扩散模型

通向精确视觉文本生成的定制化文本编码器Glyph-ByT5

用于视频编解码器的长期上下文获取

RodinHD：基于扩散模型的高保真3D数字化身生成

一个基于3D虚拟形象的、用于口语到手语翻译的基线方法

论文链接：

https://arxiv.org/abs/2401.04730

项目链接：

https://github.com/FangyunWei/SLRT

手语是听障人士广泛采用的交流方式。目前，对于手语处理（sign language processing）的研究主要集中在手语到口语（spoken language）的翻译，即 Sign2Spoken。然而，听障人士和健听人士的沟通障碍是双向的。为了缓解这一障碍，微软亚洲研究院的研究员们开发了一个将口语翻译成手语的系统 Spoken2Sign。此任务与传统的手语到口语的翻译任务互补，二者均为现代手语处理系统的重要组成。

图1：之前的工作通过两种方式展示了口语到手语的翻译结果：(a) 关键点序列或 (b) 2D 视频。相比之下，我们使用 3D 虚拟人物来展示翻译结果，从而可以从任何角度可视化结果（c）。

为了实现 Spoken2Sign 的翻译，研究员们提出了一套简单的基线系统，包含以下三个关键步骤：首先，研究员们利用现有的手语数据集，创建了一个将手语注释（gloss）映射到对应手语视频的词典。与此前业界工作的不同之处在于，该方法无需借助任何额外数据。其次，研究员们提出了一种针对手语的 3D 表征估计方法 SMPLSign-X。它综合考虑了手语动作和普通动作的区别，大幅提升了 3D 表征的准确性和稳健性。最后，研究员们对 Spoken2Sign 模型进行了训练。

最终的 Spoken2Sign 模型由以下三个组件构成：

文本到手语翻译器：将口语文本翻译成手语注释。
手语连接器：将手语词典中的 3D 表征按照手语注释的顺序链接。
渲染模块：使用虚拟形象渲染链接后的 3D 表征，即为最终模型输出。

除 Spoken2Sign 任务本身，研究员们还进一步讨论了所提出方法的两个副产物：3D 关键点增强与多视角手语理解。实验表明，以上两个副产物均能提升基于骨架点的手语理解模型的性能。这一崭新的 Spoken2Sign 翻译方法，为听障人士和健听人士之间更便捷、更包容的交流做出了贡献。

扩散模型是几何评估器：使用预训练扩散先验进行单图像三维编辑

论文链接：

https://arxiv.org/abs/2403.11503

项目主页：

https://wangrc.site/Diff3DEdit/

随着大规模文本到图像生成模型技术的进步，图像创作领域经历了彻底的变革。尽管如此，类似于 3D 软件的图像 3D 编辑功能仍未能达到令人满意的水平，单图像的 3D 编辑能力仍然是人工智能图像编辑工具链中一个缺失的环节。目前基于扩散模型的方法，如新视角合成或 2D 到 3D 的转换，虽然有所尝试，但依然受到训练数据泛化能力、生成图像质量以及运行时间过长等问题的限制。

针对这一问题，研究员们开发了一种名为 Diff3DEdit 的创新方法。该方法无需进行微调和额外的训练，巧妙地利用了预训练的图像扩散模型所提供的先验知识，以实现单图像的三维编辑。无需依赖于多视图数据集的额外训练，Diff3DEdit 可直接借助大规模文本到图像（T2I）扩散模型的强大泛化能力和高质量的图像输出。在 Diff3DEdit 中，扩散模型扮演了双重角色：一方面，它为恢复目标视图图像的高保真纹理提供了必要的先验信息；另一方面，它还充当了几何评价器，有效地纠正了由于深度信息不准确所导致的视角变换中的图像畸变。

Diff3DEdit 算法的核心在于通过迭代过程更新几何结构，逐步消除几何上的错误畸变，并细致地优化编辑后的图像。算法使用深度图来表示几何信息，起初通过单目深度估计提供一个含有畸变的初始几何形态。接着，利用扩散模型对基于畸变几何进行 3D 编辑后的图像进行修复。随后，将修复后的图像与原始视图的几何表征进行对齐，形成一个反馈循环，旨在消除畸变，最终生成既高质量又保持外观一致性的图像。

图2：迭代算法示意图

研究员们在多种多样的图片上进行了实验，对图片中选定的物体执行了平移、旋转等 3D 变换操作。通过将这些操作的结果与基线方法 Zero123、Stable Zero123 以及 Object3DiT 进行比较，并分析了图像一致性指标，研究显示该方法在保持编辑物体外观一致性方面表现优异。此外，在一项用户调研中，根据图像质量、编辑姿态准确性等多个标准，超过七成的用户倾向于选择该方法得到的结果。在运行效率方面，该方法能够实现大约10到20秒的交互式编辑速度。

图3：3D 编辑结果

FontStudio：用于生成字体特效的形状自适应扩散模型

论文链接：

https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/07569.pdf

项目链接：

https://font-studio.github.io/

AIGC 技术的蓬勃发展使得字体特效生成这一新兴领域引起了广泛关注。该领域与常规图像生成相似，均依赖于用户提供的提示词来创造视觉元素。不同的是，所生成内容的外轮廓需要与用户提供的字符轮廓相似。当涉及多个字符时，还需确保这些字符在风格上的统一性。

研究员们发现，现有的生成模型，即便是支持视觉区域条件控制的生成模型，均无法较好地解决字体特效生成任务。这主要是因为这些模型大多针对矩形画布上的视觉生成任务而设计，对于字体特效生成中所需的非规则画布处理显得力不从心。同时，在生成多个字符的过程中，现有的风格迁移算法也难以确保字符间的风格一致性。

图4：字体特效生成问题图示：生成牛角包样式的ABC

为了解决这个问题，研究员们提出了 FontStudio 框架。该框架主要包含两个部分：形状自适应扩散模型（SDM）和形状自适应风格迁移（SAET）。

其中，形状自适应扩散模型的关键在于将不规则图像的生成问题转化为矩形画布和矩形掩码的生成问题。研究员们通过构建高质量数据集，以文本提示、掩码作为输入，训练条件扩散模型，并引入形状自适应注意力机制，使模型仅在掩码所指定的区域生成提示内容。而图像配套的掩码则由微调的形状自适应解码器（SVD）生成。

形状自适应风格迁移会通过在扩散过程中提供噪声先验以及字体特效传递技术，使得已生成的字符特效可以完整、一致地传递到新的字符上。此外，形状自适应风格迁移技术具有通用性，可以方便地应用于其他扩散模型。

图5：FontStuido 模型框架

实验结果显示，相比于当前领域内的其他先进方法。形状自适应扩散模型能够有效提高非矩形画布上的内容生成质量。而形状自适应风格迁移能够更好地保证风格的一致性。用户研究显示，FontStudio 的生成结果在美学（79%胜率）、内容一致性（60%胜率）和字符辨识性上（67%胜率）均优于当前最强的商业产品 Adobe Firefly。

图6：FontStuido 结果展示

通向精确视觉文本生成的定制化文本编码器Glyph-ByT5

论文链接：

https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/09622.pdf

项目链接：

https://glyph-byt5.github.io/

在过去两年中，基于扩散模型的文生图大模型取得了显著进展，它们能够将用户任意输入的文本提示词转化为高质量的图像输出。而在众多图像生成的应用场景中，视觉文本渲染——即在生成高质量图像的同时根据用户要求生成视觉文字的能力，正在逐步受到学术和工业界的广泛关注。视觉文本渲染任务可以理解为是文本识别任务（OCR）的逆向任务。特别是自2022年5月 Imagen 模型推出，首次突出了文字渲染能力以来，近期发布的文生图大模型都会着重强调在文字渲染能力上的提升，这些提升往往得益于模型参数量规模的扩大、数据集规模的增加以及文本图像数据质量的提高。

在之前的研究工作中，领域中的研究员已经发现，以往研究常忽略文本编码器在视觉文本渲染中的重要性。常用的 T5 文本编码器被设计用于自然语言处理，但在分词器的设计上未单独考虑字符，不适合直接应用于视觉文本生成任务。

受 ByT5 字符感知文本编码器对视觉文本渲染有提升的启发，研究员们进一步开发了专门针对视觉文本渲染任务的定制化文本编码器。这款编码器旨在通过提取的文本特征，精确对应文本特征与视觉特征，以指导图像生成中的字符细节。为实现这一目标，研究员们构建了合成字形图像数据集，并利用对比学习将 ByT5 的文本特征与视觉特征空间对齐，命名为 Glyph-ByT5，专为视觉文本渲染定制。

在开发出定制化文本编码器 Glyph-ByT5 后，研究员们面临的挑战是如何将其应用于已经训练好的文生图模型。为避免高昂的重新训练成本，研究员们提出了区域级多文本编码器融合方法，巧妙结合 Glyph-ByT5 与预训练好的扩散模型中的文本编码器。这既保留了模型原有能力，又提升了字形渲染。该方法在生成模型的交叉注意力模块中，将基于不同文本特征映射到对应的编码器提取的特征，并映射到不同的空间位置，避免了语义冲突。如下图右侧所示，融合后的模型被命名为 Glyph-SDXL，该模型不仅保持了原有扩散模型的图像生成能力，还能在指定的文本框区域内实现精确的视觉文本生成。

图7：Glyph-ByT5 方法示意图：字形对齐预训练阶段(左)与区域级多文本编码器融合（右）

实验结果表明，Glyph-ByT5 显著提高了 SDXL 模型在视觉文本渲染的准确度，从不足20%提升至约90%。值得特别指出的是，通过引入定制化文本编码器，Glyph-SDXL 模型也获得了在段落级别长文本渲染时所需的规划排版能力，能够自动在任意文本框内实现多行布局，并准确渲染不同数量的字符。

此外，研究员们还发现，通过使用少量的高质量自然场景图像对 Glyph-SDXL 进行微调，可以提升其在开放域文字生成任务的表现。研究员们还将 Glyph-ByT5 的理念进一步扩展至更具挑战性的多语言视觉文本渲染任务，首次基于扩散模型成功实现了对多达10种语言的精确文本渲染，支持不同语言中上千种不同字符的准确生成。

这些实验结果不仅证实了定制化文本编码器在解决扩散模型中视觉文本渲染问题上的可行性和必要性，也为领域内提供了新的思考方向，即定制化文本编码器的概念是否可以应用于解决其他图像生成任务中的关键问题，如计数问题和空间控制问题。

图8：基于 Glyph-SDXL 的多语言文本生成结果示例图

用于视频编解码器的长期上下文获取

论文链接：

https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/08346.pdf

视频压缩算法致力于减少视频数据中的冗余信息，以实现更高的比特率节省。相较于传统视频编解码器中的手工设计规则，新兴的神经视频编解码器（NVC）通过数据驱动的优化来学习时间上下文信息以去除信息冗余，从而具有更高的灵活性。

大多数现有的 NVC 主要借助基于光流的运动补偿来利用短时间上下文，即估计相邻帧之间的像素级光流，并对解码帧进行运动补偿来作为上下文信息。然而，这种仅依赖短期周围上下文的做法限制了 NVC 在降低时间冗余方面的潜力。一方面，短时间上下文的质量可能在长预测链中受到误差传播的影响。另一方面，上下文被局限于短时间范围内，忽略了非局部相关性。

为了应对这些挑战，研究员们提出的方法 DCVC-LCG，强调了长期上下文的重要性，并设计了一个长期上下文获取（LCG）模块，引入了远距离的参考特征来丰富上下文的多样性。而且长期上下文受到误差传播影响较小，有助于提升重构质量并抑制误差传播。

图9：长期上下文获取

在长期上下文的利用上，研究员们为 LCG 模块设计了一种类内搜索机制。首先，模型会自适应地根据内容对参考特征进行聚类，并将特征向量分配到这些类中。随后，在每个类内，研究员们会以短期参考特征来查询长期参考特征，根据相似度对特征向量进行搜索和特征聚合。类内特征向量搜索有助于过滤掉无关信息的干扰。此外，该方法通过非局部的搜索扩展了感受野，并通过聚类确保了上下文在时域上的语义一致性。

实验结果表明，在1080p数据集上，DCVC-LCG 模型相较于最佳传统编解码器 ECM 以及相较于之前的 SOTA 神经视频编解码器 DCVC-FM，分别获得了11.3%和10.8%的比特率节省，显著提升了压缩性能。

RodinHD：基于扩散模型的高保真3D数字化身生成

论文链接：

https://arxiv.org/abs/2407.06938

ECCV上新 | 精选计算机视觉领域6篇前沿论文

正文

请到「今天看啥」查看全文