AI 无限学习、进化!最新研究登上 Nature
大语言模型(LLM)可以产生看似智能的回应,但它们缺乏在使用过程中继续学习的能力。这阻碍了它们在被更多使用时给出更准确的回复,也无法通过对新数据集进行训练而变得更加智能。
来自阿尔伯塔大学的研究团队测试了传统神经网络在原始数据集上进行训练后继续学习的能力,发现了所谓的“灾难性遗忘”现象,即系统在接受新数据训练后,失去了执行原来能够完成的任务的能力。他们还发现,如果对多个任务进行顺序训练,这些系统也会完全丧失学习能力——他们将此描述为“可塑性丧失”。
在这项研究中,他们找到了解决问题的方法——通过重置之前与网络上的节点关联的权重。在人工神经网络中,节点使用权重来衡量其强度,随着权重的增加,它所传达的信息的重要性也随之增加。研究人员建议,使用用于初始化系统的相同方法在训练会话之间重新初始化权重,应该可以保持系统的可塑性,并使其继续在其他训练数据集上学习。
相关研究论文以
“Loss of plasticity in deep continual learning”
为题,已发表在权威科学期刊
Nature
上。
Meta 提出多模态模型训练方法 Transfusion
在这项工作中,Meta 团队及其合作者提出了一种通过离散和连续数据训练多模态模型的方法——Transfusion,其将语言建模损失函数(下一个 token 预测)与扩散相结合,在混合模态序列上训练一个 transformer。他们在文本和图像混合数据上从头开始预训练了多个 Transfusion 模型,参数为 7B,建立了与各种单模态和跨模态基准相关的缩放规律。
实验表明,Transfusion 的扩展能力明显优于量化图像和在离散图像 token 上训练语言模型。通过引入特定模式的编码和解码层,他们可以进一步提高 Transfusion 模型的性能,甚至可以将每幅图像压缩到 16 个 patch。他们进一步证明,将 Transfusion 扩展到 7B 参数和 2T 多模态 token,可以生成与类似规模的扩散模型和语言模型相当的图像和文本,从而同时具备两类模型的优点。
清华、智谱AI 团队推出 10000 字长文本输出模型 LongWriter
目前的长上下文大语言模型(LLM)可以处理多达 10 万个 token 的输入,但很难生成长度超过 2000 个 token 的输出。通过对照实验,来自清华大学和智谱AI 的研究团队发现,模型的输出限制是由于现有 SFT 数据集中长输出示例的稀缺性造成的。为了解决这个问题,他们提出了一种基于智能体的管道——AgentWrite,其可以将超长生成任务分解为子任务,使得现有可用的 LLM 能够生成超过 20000 字的连贯输出。利用 AgentWrite,他们构建了 LongWriter-6k,这是一个包含 6000 个 SFT 数据的数据集,输出长度从 2k 到 32k 字不等。通过将该数据集纳入模型训练,他们成功地将现有模型的输出长度扩展到了 10000 字以上,同时保证了输出质量。
Agent Q:自主 AI 智能体的高级推理和学习
来自 MultiOn 和斯坦福大学的研究团队提出了一个框架,它将蒙特卡洛树搜索(MCTS)与自批评机制相结合,并使用直接偏好优化(DPO)算法的离策略(off-policy)变体对智能体互动进行迭代微调。这一方法允许 LLM 智能体从成功和不成功的轨迹中有效地学习,从而提高它们在复杂的多步骤推理任务中的通用性。他们在 WebShop 环境(模拟电子商务平台)中验证了这一方法,其性能始终优于行为克隆和强化微调基线,并在具备在线搜索功能时优于人类的平均性能。在真实世界的预订场景中,在一天的数据收集后,这一方法使 Llama-3 70B 模型的零样本成功率从 18.6% 提高到 81.7%(相对提高 340%),在线搜索成功率进一步提高到 95.4%。
Meta 推出个性化图像生成模型 Imagine yourself
在这项研究中,Meta 团队提出了一种专为个性化图像生成而设计的模型——Imagine yourself。与传统的基于微调的个性化技术不同,Imagine yourself 是一种免微调模型,所有用户都能利用共享框架,无需进行个性化微调。研究表明,Imagine yourself 超越了 SOTA 个性化模型,在身份保持、视觉质量和文本对齐方面表现出卓越的能力。人类评估结果证明,与以前的个性化模型相比,该模型在身份保持、文本忠实性和视觉吸引力等方面都达到了 SOTA。
通用智能体新进展:自动设计,优于 SOTA 人工设计智能体
来自英属哥伦比亚大学的研究团队提出了智能体系统自动设计(ADAS),旨在自动创建功能强大的智能体系统设计,包括发明新的构建模块和/或以新的方式组合它们。ADAS 中有一种尚未开发但前景广阔的方法,即可以用代码定义智能体,并通过元智能体在代码中编写更好的智能体来自动发现新智能体。通过跨编码、科学和数学等多个领域的广泛实验,他们发现这一算法可以逐步发明出具有新颖设计的智能体,其性能大大优于 SOTA 人工设计智能体。
JPEG-LM:一种新颖的图像、视频生成模型
来自华盛顿大学和 Meta 的研究团队提出了一种新颖的图像、视频生成模型,将图像和视频直接建模为通过标准编解码器(如 JPEG、AVC/H.264)保存在计算机上的压缩文件。他们使用 Llama 架构,不做任何针对视觉的修改,通过直接输出 JPEG 和 AVC 格式的压缩文件字节,从头开始预训练 JPEG-LM 来生成图像(作为概念验证,AVC-LM 生成视频)。对图像生成的评估表明,这种简单直接的方法比基于像素的建模和复杂的矢量量化基线更有效,该方法可将 FID 降低 31%。
LongVILA:长上下文视觉-语言模型全栈解决方案
在这项工作中,来自英伟达和麻省理工学院(MIT)提出了长上下文视觉-语言模型的全栈解决方案 LongVILA,包括系统、模型训练和数据集开发。该全栈解决方案将 VILA 的可行帧数扩大了 128 倍(从 8 帧增加到 1024 帧),并将长视频字幕得分从 2.00 提高到 3.26(1.6 倍),在 1400 帧视频(274k 上下文长度)中实现了 99.5% 的准确率。
AI21 Labs 团队推出 Jamba-1.5
AI21 Labs 团队提出了基于 Jamba 架构的新指令微调大语言模型 Jamba-1.5。Jamba 是一种混合型 Transformer-Mamba 混合专家架构,可在不同上下文长度下提供高吞吐量和低内存使用率,同时保持与 Transformer 模型相同或更好的质量。在一系列学术和聊天机器人基准上进行评估时,Jamba-1.5 模型取得了优异的成绩,同时提供了高吞吐量,并在长上下文基准上优于其他开放权重模型。
北邮、国科大推出基于 Mamba 的可扩展自回归图像生成模型
在这项工作中,来自北京邮电大学和中国科学院大学的研究团队提出了基于 Mamba 的自回归图像生成模型——AiM。与现有的通过多放向扫描调整 Mamba 来处理二维信号的方法不同,AiM 直接利用下一个 token 预测范式来生成自回归图像。这种方法避免了为使 Mamba 学习二维空间表征而进行大量修改的需要。在 ImageNet1K 256*256 基准上,AiM 模型达到 2.21 的 FID,超过参数数量相当的现有自回归模型,与扩散模型相比具有显著的竞争力,推理速度快 2 到 10 倍。