专栏名称: 深度学习与图网络
关注图网络、图表示学习,最近顶会顶刊动态以及机器学习基本方法,包括无监督学习、半监督学习、弱监督学习、元学习等
目录
相关文章推荐
进出口财税通  ·  跨境电商出口海外仓预退税要理清这几个问题! ·  昨天  
Alisha全球出海日记  ·  跨境电商出海破局,高性价比推广服务来袭 ·  2 天前  
51好读  ›  专栏  ›  深度学习与图网络

2024 || 将任何Decoder-only的大模型(LLM)转换为文本Embedding编码器

深度学习与图网络  · 公众号  ·  · 2024-04-21 23:44

正文

深度图学习与大模型LLM(小编): 今天给大家介绍一篇题为《LLM2Vec: 大型语言模型是强大的文本编码器》的论文-也就是说把LLM转为embedding 模型。 这篇论文提出了一种简单的无监督方法 LLM2Vec,可以将任何仅解码器的大型语言模型(LLM)转换为强大的文本编码器 。该方法包含三个简单的步骤:1)启用双向注意力,2)掩码下一token预测,以及3)无监督对比学习 。实验结果表明,LLM2Vec 转换后的模型在各种单词级和序列级任务上取得了优异的性能。推荐该论文的原因是它展示了 LLM 可以通过高效的适应来作为通用文本编码器,而无需昂贵的适应或 GPT-4 生成的合成数据。下面图就是三个主要步骤,读到这里,基本已经了解了本文主要的内容,后面内容不感兴趣可以忽略~。

1. 基本信息

  • 论文题目:LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders
  • 作者:Parishad BehnamGhader, Vaibhav Adlakha, Marius Mosbach, Dzmitry Bahdanau, Nicolas Chapados, Siva Reddy
  • 作者研究单位:Mila, McGill University; ServiceNow Research; Facebook CIFAR AI Chair

2. 介绍

本文的主要贡献如下:

  1. 提出了一种简单的无监督方法 LLM2Vec,可以将任何仅解码器的大型语言模型转换为强大的文本编码器。
  2. LLM2Vec 方法包含三个简单的步骤:启用双向注意力、掩码下一token预测和无监督对比学习。
  3. 将 LLM2Vec 应用于从 1.3B 到 7B 参数的 3 个流行 LLM,并在英语单词级和序列级任务上评估转换后的模型。
  4. 在单词级任务上大幅优于仅编码器模型,在 Massive Text Embeddings Benchmark (MTEB) 上达到新的无监督 SOTA 表现。
  5. 当将 LLM2Vec 与监督对比学习相结合时,在 MTEB 上实现了仅使用公开可用数据训练的模型的 SOTA 性能。

3. 方法

LLM2Vec 包含三个简单的步骤:

  1. 启用双向注意力(Bi):将仅解码器 LLM 的因果注意力掩码替换为全一矩阵,使每个 token 都可以访问序列中的其他所有 token。
  1. 掩码下一token预测(MNTP):通过掩码下一token预测训练来适应模型以使用双向注意力。给定任意序列 作为输入,首先掩码一部分输入 token,然后根据过去和未来的上下文训练模型预测被掩码的 token。关键是,在预测位置 处的掩码 token 时,基于从前一位置 处的 token 表示获得的 logit 计算损失,而不是掩码位置本身。
  1. 无监督对比学习(SimCSE):应用 SimCSE 进行无监督对比学习。具体来说,给定一个输入序列,使用独立采样的 dropout 掩码将其通过模型两次,得到同一序列的两个不同表示。训练模型最大化这两个表示之间的相似性,同时最小化与批次中其他序列表示的相似性。对 token 表示进行池化操作以获得序列表示。






请到「今天看啥」查看全文