专栏名称: 学术头条

致力于科学传播和学术分享，关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度，围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。

重磅！AI无限学习、进化，研究登上Nature；Meta提出多模态模型训练方法Transfusion｜一周热门

学术头条 · 公众号 · · 2024-08-24 08:03

正文

大模型周报将从【企业动态】【技术前瞻】【政策法规】【专家观点】四部分，带你快速跟进大模型行业热门动态。

01 企业动态

Ideogram 推出文生图模型 Ideogram 2.0

日前，Ideogram 推出了新版本文本到图像模型 Ideogram 2.0。据介绍，Ideogram 2.0 的性能优于 DALL-E、Midjourney 和 FLUX Pro，不仅具有更高的文本准确性，还为开发人员提供了 Ideogram API 和 Ideogram Search 的测试版本。

微软推出 3 款 Phi 3.5 开源模型

日前，微软推出了 Phi 3.5 系列中的 3 个新开源人工智能（AI）模型：Phi 3.5 mini-instruct、MoE-instruct 和 vision-instruct，为跨语言的商业和科学应用提供可扩展的推理能力。

AI21 推出两款 Mamba-Transformer 模型

AI21 推出了 Jamba Large 和 Jamba Mini，这是 Mamba-Transformer 模型系列中的两个新语言模型，在开放模型中具有最长的上下文窗口（256k），可与 Llama 3.1 和 Mistral Large 等先进模型相媲美。

Luma Labs 推出 Dream Machine 1.5

Luma Labs 推出了 Dream Machine 1.5，为用户提供卓越的文本到视频生成功能、更智能的提示和自定义文本渲染功能，从而提升视频创作水平。

OpenAI 推出 GPT-4o 微调功能

日前，OpenAI 推出了 GPT-4o 微调功能，允许开发人员定制模型响应，旨在提高特定领域任务（如软件工程和文本到 SQL）的性能，并限时为 GPT-4o 提供每天 100 万个免费训练 token，为 GPT-4o mini 提供 200 万个免费 token。

为训练 AI 模型，Meta 推出全新网络爬虫程序

据《科创板日报》报道，Meta 推出全新网络爬虫程序 Meta-External Agent 和 Meta-External Fetcher，用于收集互联网数据以训练其 AI 模型，该程序可绕过 robots.txt 规则，从而无限制地获取数据。

昆仑万维推出 AI 短剧平台 SkyReels

据《科创板日报》报道，昆仑万维推出了全球首个集成视频大模型与 3D 大模型的 AI 短剧平台 SkyReels。SkyReels 平台集剧本生成、角色定制、分镜、剧情、对白/BGM 及影片合成于一体，让创作者“一键成剧”，轻松制作高质量 AI 视频。

Google DeepMind 近 200 名员工呼吁放弃与军队的合同

根据《时代周刊》和五名知情人士查阅的文件副本，Google DeepMind 内部的 200 名早期员工签署了一封信，呼吁这家科技巨头放弃与军事组织的合同。这封信的传播正值该公司内部越来越担心其技术被出售给参与战争的军队，他们认为这违反了谷歌自己的人工智能规则。

OpenAI 签署协议，在 Condé Nast 内容上进行训练，在 ChatGPT 上呈现故事

日前，OpenAI 与全球杂志巨头康泰纳仕（Condé Nast）达成多年的合作协议，允许 ChatGPT 及其搜索引擎 SearchGPT 展示 Vogue、The New Yorker、GQ 等知名刊物的内容。这是 OpenAI 与主要媒体公司达成的最新协议。

02 技术前瞻

AI 无限学习、进化！最新研究登上 Nature

大语言模型（LLM）可以产生看似智能的回应，但它们缺乏在使用过程中继续学习的能力。这阻碍了它们在被更多使用时给出更准确的回复，也无法通过对新数据集进行训练而变得更加智能。

来自阿尔伯塔大学的研究团队测试了传统神经网络在原始数据集上进行训练后继续学习的能力，发现了所谓的“灾难性遗忘”现象，即系统在接受新数据训练后，失去了执行原来能够完成的任务的能力。他们还发现，如果对多个任务进行顺序训练，这些系统也会完全丧失学习能力——他们将此描述为“可塑性丧失”。

在这项研究中，他们找到了解决问题的方法——通过重置之前与网络上的节点关联的权重。在人工神经网络中，节点使用权重来衡量其强度，随着权重的增加，它所传达的信息的重要性也随之增加。研究人员建议，使用用于初始化系统的相同方法在训练会话之间重新初始化权重，应该可以保持系统的可塑性，并使其继续在其他训练数据集上学习。

相关研究论文以 “Loss of plasticity in deep continual learning” 为题，已发表在权威科学期刊 Nature 上。

Meta 提出多模态模型训练方法 Transfusion

在这项工作中，Meta 团队及其合作者提出了一种通过离散和连续数据训练多模态模型的方法——Transfusion，其将语言建模损失函数（下一个 token 预测）与扩散相结合，在混合模态序列上训练一个 transformer。他们在文本和图像混合数据上从头开始预训练了多个 Transfusion 模型，参数为 7B，建立了与各种单模态和跨模态基准相关的缩放规律。

实验表明，Transfusion 的扩展能力明显优于量化图像和在离散图像 token 上训练语言模型。通过引入特定模式的编码和解码层，他们可以进一步提高 Transfusion 模型的性能，甚至可以将每幅图像压缩到 16 个 patch。他们进一步证明，将 Transfusion 扩展到 7B 参数和 2T 多模态 token，可以生成与类似规模的扩散模型和语言模型相当的图像和文本，从而同时具备两类模型的优点。

清华、智谱AI 团队推出 10000 字长文本输出模型 LongWriter

目前的长上下文大语言模型（LLM）可以处理多达 10 万个 token 的输入，但很难生成长度超过 2000 个 token 的输出。通过对照实验，来自清华大学和智谱AI 的研究团队发现，模型的输出限制是由于现有 SFT 数据集中长输出示例的稀缺性造成的。为了解决这个问题，他们提出了一种基于智能体的管道——AgentWrite，其可以将超长生成任务分解为子任务，使得现有可用的 LLM 能够生成超过 20000 字的连贯输出。利用 AgentWrite，他们构建了 LongWriter-6k，这是一个包含 6000 个 SFT 数据的数据集，输出长度从 2k 到 32k 字不等。通过将该数据集纳入模型训练，他们成功地将现有模型的输出长度扩展到了 10000 字以上，同时保证了输出质量。

Agent Q：自主 AI 智能体的高级推理和学习

来自 MultiOn 和斯坦福大学的研究团队提出了一个框架，它将蒙特卡洛树搜索（MCTS）与自批评机制相结合，并使用直接偏好优化（DPO）算法的离策略（off-policy）变体对智能体互动进行迭代微调。这一方法允许 LLM 智能体从成功和不成功的轨迹中有效地学习，从而提高它们在复杂的多步骤推理任务中的通用性。他们在 WebShop 环境（模拟电子商务平台）中验证了这一方法，其性能始终优于行为克隆和强化微调基线，并在具备在线搜索功能时优于人类的平均性能。在真实世界的预订场景中，在一天的数据收集后，这一方法使 Llama-3 70B 模型的零样本成功率从 18.6% 提高到 81.7%（相对提高 340%），在线搜索成功率进一步提高到 95.4%。

Meta 推出个性化图像生成模型 Imagine yourself

在这项研究中，Meta 团队提出了一种专为个性化图像生成而设计的模型——Imagine yourself。与传统的基于微调的个性化技术不同，Imagine yourself 是一种免微调模型，所有用户都能利用共享框架，无需进行个性化微调。研究表明，Imagine yourself 超越了 SOTA 个性化模型，在身份保持、视觉质量和文本对齐方面表现出卓越的能力。人类评估结果证明，与以前的个性化模型相比，该模型在身份保持、文本忠实性和视觉吸引力等方面都达到了 SOTA。

通用智能体新进展：自动设计，优于 SOTA 人工设计智能体

来自英属哥伦比亚大学的研究团队提出了智能体系统自动设计（ADAS），旨在自动创建功能强大的智能体系统设计，包括发明新的构建模块和/或以新的方式组合它们。ADAS 中有一种尚未开发但前景广阔的方法，即可以用代码定义智能体，并通过元智能体在代码中编写更好的智能体来自动发现新智能体。通过跨编码、科学和数学等多个领域的广泛实验，他们发现这一算法可以逐步发明出具有新颖设计的智能体，其性能大大优于 SOTA 人工设计智能体。

JPEG-LM：一种新颖的图像、视频生成模型

来自华盛顿大学和 Meta 的研究团队提出了一种新颖的图像、视频生成模型，将图像和视频直接建模为通过标准编解码器（如 JPEG、AVC/H.264）保存在计算机上的压缩文件。他们使用 Llama 架构，不做任何针对视觉的修改，通过直接输出 JPEG 和 AVC 格式的压缩文件字节，从头开始预训练 JPEG-LM 来生成图像（作为概念验证，AVC-LM 生成视频）。对图像生成的评估表明，这种简单直接的方法比基于像素的建模和复杂的矢量量化基线更有效，该方法可将 FID 降低 31%。

LongVILA：长上下文视觉-语言模型全栈解决方案

在这项工作中，来自英伟达和麻省理工学院（MIT）提出了长上下文视觉-语言模型的全栈解决方案 LongVILA，包括系统、模型训练和数据集开发。该全栈解决方案将 VILA 的可行帧数扩大了 128 倍（从 8 帧增加到 1024 帧），并将长视频字幕得分从 2.00 提高到 3.26（1.6 倍），在 1400 帧视频（274k 上下文长度）中实现了 99.5% 的准确率。

AI21 Labs 团队推出 Jamba-1.5

AI21 Labs 团队提出了基于 Jamba 架构的新指令微调大语言模型 Jamba-1.5。Jamba 是一种混合型 Transformer-Mamba 混合专家架构，可在不同上下文长度下提供高吞吐量和低内存使用率，同时保持与 Transformer 模型相同或更好的质量。在一系列学术和聊天机器人基准上进行评估时，Jamba-1.5 模型取得了优异的成绩，同时提供了高吞吐量，并在长上下文基准上优于其他开放权重模型。

北邮、国科大推出基于 Mamba 的可扩展自回归图像生成模型

在这项工作中，来自北京邮电大学和中国科学院大学的研究团队提出了基于 Mamba 的自回归图像生成模型——AiM。与现有的通过多放向扫描调整 Mamba 来处理二维信号的方法不同，AiM 直接利用下一个 token 预测范式来生成自回归图像。这种方法避免了为使 Mamba 学习二维空间表征而进行大量修改的需要。在 ImageNet1K 256*256 基准上，AiM 模型达到 2.21 的 FID，超过参数数量相当的现有自回归模型，与扩散模型相比具有显著的竞争力，推理速度快 2 到 10 倍。

点击“阅读原文”，获取更多大模型论文

03 政策法规

法官裁定，埃隆·马斯克的 X 必须披露完整的所有权结构

在周二的一项裁决中，加州一名联邦法官决定公开 X 控股公司详细的公司披露声明，此举将有效地揭开 X 母公司（前身为Twitter）和 x.AI 的股东名单，x.AI 是马斯克于 2023 年创办的人工智能初创公司。马斯克于2022年以440 亿美元收购了Twitter，将该公司私有化，并解雇了大约四分之三的员工。

OpenAI 表示，加州人工智能安全法案将损害创新

彭博新闻社周三获得的一封发给加利福尼亚州参议员 Scott Wiener 办公室的信称，这家总部位于旧金山的初创公司表示，该法案将损害人工智能行业的创新，并认为关于这个问题的监管应该来自联邦政府，而不是各州。这封信还引发了人们的担忧，即该法案如果获得通过，可能会对美国在人工智能和国家安全方面的竞争力产生“广泛而重大”的影响。

04 专家观点

打脸“AI灭绝伦”！研究反驳：大模型涌现能力不会威胁人类生存

来自达姆施塔特工业大学和巴斯大学的研究团队发现，GPT 等 LLM 尚无法独立地学习或获得新技能，这意味着它们不会对人类构成生存威胁。他们表示，“涌现能力” 背后的真相或许比科幻电影更富有戏剧性，许多所谓的“涌现能力”，其实都是 AI 大模型在面对不熟悉的任务时，依赖于已有的数据和经验做出的“即兴表演”。相关研究论文以 “Are Emergent Abilities in Large Language Models just In-Context Learning?” 为题，已发表在 AI 顶会国际计算语言学年会（ACL）上。

重磅！AI无限学习、进化，研究登上Nature；Meta提出多模态模型训练方法Transfusion｜一周热门

正文

请到「今天看啥」查看全文