专栏名称: AI TIME 论道
AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来。
目录
相关文章推荐
半月谈  ·  半月谈公考AI正式上线! ·  2 天前  
底线思维  ·  俄美关系:一直在重启,始终在死机 ·  2 天前  
半月谈  ·  “要不是你,我这个家就完了!” ·  2 天前  
半月谈  ·  “赛博森林”——荒漠也有春天 ·  2 天前  
51好读  ›  专栏  ›  AI TIME 论道

Big Model Weekly | 第27期

AI TIME 论道  · 公众号  ·  · 2024-06-29 10:30

正文

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!


01

Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models

大规模语言模型(LLMs)的一个核心能力是遵循自然语言指令。然而,如何在不依赖人工标注的情况下自动构建高质量的训练数据,以增强LLMs的复杂指令跟随能力,仍然是一个未解决的问题。本文介绍了AUTOIF,这是第一个可扩展且可靠的方法,用于自动生成指令跟随训练数据。AUTOIF将指令跟随数据质量的验证转化为代码验证,要求LLMs生成指令、相应的代码来检查指令响应的正确性,以及用于验证代码正确性的单元测试样例。然后,通过基于执行反馈的拒绝采样,可以生成用于监督微调(SFT)和基于人类反馈的强化学习(RLHF)训练的数据。在应用于顶级开源LLMs(如Qwen2和LLaMA3)进行自对齐和强弱蒸馏设置时,AUTOIF在三种训练算法(SFT、离线DPO、在线DPO)上均取得了显著的改进。







文章链接:

https://arxiv.org/pdf/2406.13542

02

Large language model validity via enhanced conformal prediction methods

本文开发了新的保形推断方法,以对大规模语言模型(LLMs)的输出提供有效性保证。先前在保形语言建模中的工作通过识别满足高概率正确性保证的文本子集来实现这些方法。这些方法的工作原理是,如果对主张进行评估的评分函数未能超过通过分割保形预测校准的阈值,就会从LLM的原始响应中筛选出主张。然而,现有方法存在两个缺陷。首先,声明的保证不是条件有效的。筛选步骤的可信度可能会因响应主题的不同而变化。其次,由于评分函数不完善,筛选步骤可能会移除许多有价值且准确的主张。作者通过两种新的保形方法解决了这两个挑战。首先,本文推广了Gibbs等人的条件保形程序,以在需要保留输出效用时自适应地提供较弱的保证。其次,文章展示了如何通过一种新的算法系统地改善评分函数的质量,该算法能够通过条件保形程序进行区分。本文在合成数据集和真实数据集上证明了所提方法的有效性。



文章链接:

https://arxiv.org/pdf/2406.09714

03

JEN-1 DreamStyler: Customized Musical Concept Learning via Pivotal Parameters Tuning

大型文本到音乐生成模型已经取得了显著进展,能够从提供的文本提示生成高质量且多样化的音乐作品。然而,输入的文本提示可能无法精确捕捉用户需求,特别是当目标是生成体现特定概念的音乐时,而这些概念来源于指定的参考音乐集。本文提出了一种用于自定义文本到音乐生成的新方法,该方法能够从两分钟的参考音乐中捕捉概念并生成符合该概念的新音乐作品。文章通过微调一个预训练的文本到音乐模型来实现这一目标。然而,直接微调所有参数会导致过拟合问题。为了解决这一问题,作者提出了一种关键参数微调方法,使模型在吸收新概念的同时保留其原有的生成能力。此外,文章还识别出在引入多个概念时可能出现的概念冲突问题。文章提出了一种概念增强策略,用于区分多个概念,使微调后的模型能够生成包含单个或多个概念的音乐。文章还为这一新任务引入了一个新的数据集和评估协议。在定性和定量评估中,Jen1-DreamStyler在多个基准测试中表现优于其他方法。






文章链接:

https://arxiv.org/pdf/2406.12292

04

Evaluating Numerical Reasoning in Text-to-Image Models

文本到图像生成模型能够生成高质量的图像,通常能够忠实地描绘自然语言描述的概念。在本研究全面评估了一系列文本到图像模型在不同难度数值推理任务中的表现,结果显示,即使是最先进的模型也仅具备初步的数值能力。具体来说,这些模型在图像中正确生成确切数量的物体的能力仅限于较小的数字,并且高度依赖于数字术语出现的上下文环境,而且这种能力会随着数字的增加迅速下降。本文还证明了这些模型对语言量词(如“少量”或“多达”)的理解能力较差,对零的概念不清晰,并且在处理更高级的概念(如部分数量和分数表示)时存在困难。作者将提示词、生成的图像和人工注释整合到GECKONUM中,这是一个用于评估数值推理能力的新基准测试集。




文章链接:

https://arxiv.org/pdf/2406.14774

05

LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs

在传统的RAG框架中,基本的检索单元通常很短。常见的检索器如DPR通常使用包含100个词的维基百科段落。这样的设计迫使检索器在大量语料库中搜索‘针状’单元。相比之下,阅读器只需要从短的检索单元中提取答案。这样一种‘重’检索器和‘轻’阅读器的不平衡设计可能导致次优性能。为了缓解这种不平衡,本文提出了一种新的框架LongRAG,包括‘长检索器’和‘长阅读器’。LongRAG将整个维基百科处理成包含4K-token的单元,这比以前的长度大30倍。通过增加单元的大小,作者将总单元数从2200万显著减少到60万。这显著降低了检索器的负担,从而使得检索分数大幅提升:在NQ上,答案召回率@1达到71%(之前为52%),在HotpotQA(全维基)上,答案召回率@2达到72%(之前为47%)。然后,将top-k检索到的单元(约30K token)输入到现有的长上下文LLM中进行零样本答案提取。无需任何训练,LongRAG在NQ上达到了62.7%的EM,在HotpotQA(全维基)上达到了64.3%的EM,这与当前最先进的模型相当。






文章链接:

https://arxiv.org/pdf/2406.15319

06

Learning to Retrieve Iteratively for In-Context Learning

本文介绍了迭代检索,这是一种新颖的框架,使检索器能够通过策略优化进行迭代决策。找到最优的检索项组合是一个组合优化问题,一般被认为是NP难题。此方法提供了对该问题的学习近似解,在给定的大规模语言模型(LLMs)家族下满足特定任务要求。作者提出了一种基于强化学习的训练程序,结合了来自LLMs的反馈。本文为上下文学习(ICL)的示例组合实现了一个迭代检索器,并将其应用于需要合成程序作为输出的各种语义解析任务中。通过仅增加400万个用于状态编码的参数,文章将一个现成的密集检索器转换为一个有状态的迭代检索器,在选择ICL示例方面优于以前的方法,并在语义解析数据集如SMCALFLOW、TREEDST和MTOP上表现出色。此外,训练后的迭代检索器能够在不同的推理LLMs中泛化,超越了训练期间使用的模型。







请到「今天看啥」查看全文