专栏名称: AI TIME 论道
AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来。
目录
相关文章推荐
51好读  ›  专栏  ›  AI TIME 论道

Big Model Weekly | 第29期

AI TIME 论道  · 公众号  ·  · 2024-07-13 13:58

正文

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!


01

Controlling Whisper: Universal Acoustic Adversarial Attacks to Control Speech Foundation Models

支持语音的基础模型,无论是基于灵活语音识别的系统还是音频提示的大型语言模型(LLM),都变得越来越流行。这些模型的一个有趣的方面是,它们能够使用适当的提示执行自动语音识别(ASR)以外的任务。例如,OpenAI Whisper模型可以执行语音转录和语音翻译。随着音频提示LLM的发展,有可能提供更大的控制选项。这项工作证明了这种更大的灵活性,系统可以容易受到模型控制对抗攻击。在没有对模型提示的任何访问的情况下,可以通过适当地改变音频输入来修改系统的行为。为了说明这种风险,本文证明,它是可能的prepend一个短的通用对抗性的声学段的任何输入语音信号覆盖的ASR基础模型的提示设置。具体来说,本文成功地使用了一个通用的对抗性声学段来控制Whisper始终执行语音翻译,尽管它被设置为执行语音转录。总的来说,这项工作展示了一种新形式的对抗性攻击,对支持多任务语音的基础模型进行攻击,需要在部署这种形式的模型之前加以考虑。



文章链接:

https://arxiv.org/pdf/2407.04482

02

TokenVerse: Unifying Speech and NLP Tasks via Transducer-based ASR

在传统的语音会话智能中,使用级联管道,涉及语音活动检测,日记,转录等任务,以及针对语义端点和命名实体识别(NER)等任务的不同NLP模型的后续处理。该论文介绍了TokenVerse,这是一个基于单个传感器的模型,旨在处理多个任务。这是通过在ASR模型训练期间将特定于任务的标记集成到参考文本中来实现的,简化了推理并消除了对单独的NLP模型的需求。除了ASR,作者进行实验3个不同的任务:说话人变化检测,端点,和NER。在公共和私有数据集上的实验表明,该方法在相对WER上将ASR提高了7.7%,同时在单个任务性能上优于级联管道方法。此外,文中提出了任务迁移学习到现有TokenVerse中的新任务。





文章链接:

https://arxiv.org/pdf/2407.04444

03

Improving Audio Generation with Visual Enhanced Caption

生成模型已经在音频生成任务中显示出显著的成就。然而,现有的模型难以处理复杂而详细的提示,导致潜在的性能下降。作者假设这个问题源于低质量和相对少量的训练数据。在这项工作中,目标是创建一个具有丰富字幕的大规模音频数据集,以改进音频生成模型。本文开发了一个自动化的pipline,通过使用大型语言模型(LLM)将预测的视觉字幕,音频字幕和标记标签转换为全面的描述,为视听数据集生成详细的字幕。作者引入Sound-VECaps,这是一个包含1.66 M高质量音频字幕对的数据集,其中包含丰富的细节,包括音频事件顺序,发生地点和环境信息。文章证明,使用Sound-VECaps进行训练可以显着增强文本到音频生成模型的能力,以便从复杂的输入提示中理解和生成音频,从而提高整体系统性能。此外,在几个音频语言任务中进行声音VECaps的消融研究,表明其在推进音频文本表征学习中的潜力。



文章链接:

https://arxiv.org/pdf/2407.04416

04

MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss

自动生成符号音乐--根据人类特定需求定制的乐谱--对音乐家和爱好者来说是非常有益的。最近的研究表明,使用广泛的数据集和先进的Transformer架构,结果很有希望。然而,这些最先进的模型通常只提供对整个作品的节奏和风格等方面的基本控制,缺乏管理更精细细节的能力,例如在单个小节级别的控制。虽然微调预训练的符号音乐生成模型似乎是实现这种更精细控制的简单方法,但研究表明这种方法存在挑战。该模型往往不能充分响应新的,细粒度的酒吧级控制信号。为此,本文提出了两个创新的解决方案。首先,引入了一个预训练任务,旨在将控制信号直接与相应的音乐令牌联系起来,这有助于实现更有效的初始化,以便随后进行微调。其次,实现了一种新的反事实损失,促进生成的音乐和控制提示之间更好的对齐。总之,这些技术显着提高了能力,控制音乐生成的水平,显示了13.06%的改进,比传统的方法。这也证实了这种增强的控制不会损害原始预训练生成模型的音乐质量。



文章链接:

https://arxiv.org/pdf/2407.04331

05

BiosERC: Integrating Biography Speakers Supported by LLMs for ERC Tasks

在会话中的情感识别任务中,最近的研究利用注意机制探索来自内部和内部说话者的话语之间的关系,以建模它们之间的情感交互。然而,属性,如扬声器的个性特征仍然未被探索,并提出了挑战,他们的适用性,以其他任务或兼容性与不同的模型架构。因此,这项工作引入了一个新的框架名为BiosERC,它调查说话人的特点在对话中。通过采用大型语言模型(LLM),将提取的“传记信息”的谈话中的扬声器作为补充知识注入到模型中,为每个话语的情感标签进行分类。文章提出的方法在三个著名的基准数据集上取得了最先进的(SOTA)结果:IEMOCAP,MELD和EmoryNLP,证明了模型的有效性和通用性,并展示了其适应各种会话分析任务的潜力。



文章链接:

https://arxiv.org/pdf/2407.04279

06







请到「今天看啥」查看全文