专栏名称: LLM SPACE
每周高质量AI信息
目录
相关文章推荐
caoz的梦呓  ·  孩子的前途,不,那不重要。 ·  昨天  
盐财经  ·  中东土豪入股,刘强东又一个IPO ·  4 天前  
盐财经  ·  中东土豪入股,刘强东又一个IPO ·  4 天前  
洞见新研社  ·  好不容易熬出头,共享充电宝又不行了 ·  4 天前  
洞见新研社  ·  好不容易熬出头,共享充电宝又不行了 ·  4 天前  
51好读  ›  专栏  ›  LLM SPACE

大模型日报(10月14日 学术篇)

LLM SPACE  · 公众号  · 互联网短视频 科技自媒体  · 2024-10-14 19:21

正文

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

信号

01

Algorithmic Capabilities of Random Transformers

已发现经过训练的 transformer 模型可以为算术和联想召回等任务实现可解释的过程,但对于实现这些过程的电路在训练期间是如何产生的知之甚少。它们在多大程度上依赖于提供给模型的监督信号,它们在多大程度上归因于训练开始时模型中已经存在的行为?为了研究这些问题,我们研究了随机初始化的转换器可以学习哪些功能,其中只有嵌入层被优化,因此唯一可从数据中学习的输入-输出映射是那些已经由随机初始化模型实现的映射(取决于编码方案的选择)。我们发现这些随机转换器可以执行各种有意义的算法任务,包括模算术、权重和上下文关联调用、十进制加法、括号平衡,甚至自然语言文本生成的某些方面。我们的结果表明,甚至在这些模型被训练之前,transformer 中就存在一些算法功能(并且可以通过适当结构的输入访问)。
https://arxiv.org/abs/2410.04368v1

02

Preference Optimization as Probabilistic Inference

现有的偏好优化方法主要是为直接从人类反馈中学习而设计的,前提是成对样本(首选与非首选)可用。相比之下,我们提出了一种方法,可以利用未成对的首选或不首选样本,即使只有一种类型的反馈(正面或负面)可用,该方法也有效。这种灵活性使我们能够将其应用于具有不同形式的反馈和模型的场景中,包括基于人类反馈的生成语言模型,以及针对顺序决策问题的训练策略,其中学习的(价值)功能可用。我们的方法建立在 (Dayan and Hinton, 1997) 中引入的概率框架之上,该框架建议使用期望最大化 (EM) 来直接优化首选结果的概率(而不是经典的预期奖励最大化)。为了获得实用的算法,我们确定并解决了当前基于 EM 的方法中的一个关键限制:当应用于偏好优化时,它们仅最大限度地提高首选样本的可能性,而忽略了不偏好的样本。我们展示了如何扩展 EM 算法以明确地包含不喜欢的结果,从而产生一种新颖的、有理论基础的偏好优化算法,该算法提供了一种直观且多功能的方式来从正反馈和负反馈中学习。
https://arxiv.org/abs/2410.04166


03

RL, but don't do anything I wouldn't do

在强化学习中,如果代理的奖励与设计者的真实效用不同,即使很少,代理的策略产生的状态分布在理论和实践中都可能非常糟糕。当 RL 策略演变为非预期行为时,一种常见的对策是将 KL 正则化为受信任的策略(“不要做我不会做的任何事情”)。当前所有尖端语言模型都是 RL 代理,它们被 KL 正则化为纯粹预测的“基本策略”。不幸的是,我们证明,当这个基本策略是可信策略的贝叶斯预测模型时,KL 约束对于控制高级 RL 代理的行为不再可靠。我们使用算法信息论从理论上证明了这一点,虽然今天的系统太弱而无法精确地证明这种理论化的失败,但我们对语言模型进行了 RL 微调,并找到证据证明我们的正式结果在实践中似乎是相关的。我们还提出了一种理论替代方案,通过将“不要做我不会做的事”原则替换为“不要做我可能不会做的事”来避免这个问题。
https://arxiv.org/abs/2410.06213


04

EVER: Exact Volumetric Ellipsoid Rendering for Real-time View Synthesis

我们提出了精确体积椭球体渲染 (EVER),这是一种实时可微分仅发射体积渲染的方法。与最近 3D 高斯展开 (3DGS) 基于光栅化的方法不同,我们基于基元的表示允许精确的体积渲染,而不是 alpha 合成 3D 高斯广告牌。因此,与 3DGS 不同,我们的公式不会受到弹出伪影和视图相关密度的影响,但仍能在 NVIDIA RTX4090 上实现 ∼30 720p 的 FPS 帧速率。由于我们的方法建立在光线追踪之上,因此它可以实现散焦模糊和摄像机失真(例如来自鱼眼摄像机)等效果,而这些效果很难通过栅格化实现。我们表明,我们的方法比 3DGS 更准确,混合问题更少,并且对视图一致性渲染的后续工作,尤其是在 Zip-NeRF 数据集中具有挑战性的大规模场景中,它在实时技术中取得了最清晰的结果。
https://half-potato.gitlab.io/posts/ever/
05

LLMs Are In-Context Reinforcement Learners

大型语言模型 (LLMs) 可以通过上下文监督学习(即 ICL)来学习新任务。这项工作研究了这种能力是否延伸到上下文强化学习 (ICRL),其中模型在上下文中没有被赋予黄金标签,而只被赋予它们过去的预测和奖励。我们表明,ICRL 的天真应用惨遭失败,并将根本原因确定为探索的根本缺陷,这会导致模型快速退化。我们提出了一种算法,通过增加测试时计算以及计算绑定的近似来解决这一缺陷。我们使用几个具有挑战性的分类任务来实证证明我们的 ICRL 算法仅从奖励中就可以有效地学习,并分析这种能力的特点和我们的方法。总体而言,我们的结果在 LLMs 中揭示了上下文强化学习 。
https://arxiv.org/pdf/2410.05362
06

How to Train Long-Context Language Models (Effectively)

我们研究语言模型 (LM) 的持续训练和监督微调 (SFT),以有效利用长上下文信息。我们首先建立一个可靠的评估协议来指导模型开发——我们不使用困惑或简单的大海捞针 (NIAH) 测试,而是使用一组广泛的长上下文任务,并在 SFT 之后使用指令数据评估模型,因为这可以更好地揭示长期上下文能力。在我们稳健评估的支持下,我们进行了全面的实验,以确定持续预训练的数据组合、指令调优数据集和许多其他设计选择。我们发现 (1) 代码存储库和书籍是长数据的绝佳来源,但将它们与高质量的短数据相结合至关重要;(2) 序列长度超出评估长度的训练可以提高长上下文性能;(3) 对于 SFT,仅使用短指令数据集可以在长上下文任务上产生强大的性能。我们的最终模型 ProLong-8B 从 Llama-3 初始化并在 40B token上进行训练,在长度为 128K 的类似大小的模型中展示了最先进的长上下文性能。ProLong 在大多数长上下文任务上的表现优于 Llama-3.18B-Instruct,尽管在长期上下文训练中只看到了 5% 的标记。此外,ProLong 可以有效处理多达 512K 个token,这是公开可用的 LM 中最长的上下文窗口之一。

https://arxiv.org/abs/2410.02660

 HuggingFace&Github

01

TextToon


TextToon 是一种生成可驱动的卡通化头像的方法,通过输入短视频和风格说明,能够实时生成高保真的卡通头像,克服了传统多视角建模的局限性,并在移动设备上实现了高效运行。

https://songluchuan.github.io/TextToon/
01

DICE


DICE(Discrete Inversion for Controllable Editing)是一种创新方法,可以提升离散扩散模型的内容编辑能力。它通过记录反向扩散过程中的噪声序列和掩蔽模式,实现了精确反演和灵活编辑,避免了传统方法对预定义掩码的依赖。
https://hexiaoxiao-cs.github.io/DICE/

推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

  3. 「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

    --- END ---