专栏名称: AI算法科研paper
每日更新人工智能行业技术干货、论文推荐、动态资讯、职场指南等AI知识。关注AI算法科研paper更深入了解人工智能。
目录
相关文章推荐
51好读  ›  专栏  ›  AI算法科研paper

何恺明新作!预训练Transformer大进展!10个idea带你冲顶会

AI算法科研paper  · 公众号  ·  · 2025-01-25 22:17

正文

何恺明团队前段时间的新作大家关注了没?全新的异构预训练Transformer(HPT)模型!不用从头训练,即可破解通用机器人模型异构性难题,性能暴涨20%+!

这项工作已经被NeurIPS 2024接收为Spotlight,除此之外,还出现了很多 预训练Transformer 的新研究,比如CVPR 2024的零样本令牌剪枝方法Zero-TPrune,也无需训练就能实现低成本高性能。

可见 当下对预训练Transformer的研究热情依旧不减 ,它强大的语言理解、丰富的表示、高效的迁移与计算等能力,也在诸多任务中得到了广泛的应用。

目前这个先进的技术还在不断发展中, 留给论文er的创新空间也比较大 ,为了帮助大家快速找到思路,我这边整理好了 10篇 预训练Transformer参考论文 ,基本都是最新且有代码,有需要的同学可无偿获取~

扫码添加小享, 回复“ 预训练T

免费获取 全部论文+开源代码

Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers

方法: 作者通过异构预训练在不同机器人体现和任务上学习策略表示,提出异构预训练变换器(HPT),其通过对策略神经网络的共享部分进行预训练,学习任务和体现无关的共享表示,在多个模拟基准和现实环境中,与基线相比,HPT在未见任务的微调策略性能上提高了20%以上。

创新点:

  • 提出了一种名为HPT的新方法,通过在不同机器人硬件和任务的大规模数据上进行异构预训练,学习到一个通用的策略表示。
  • HPT将策略网络架构模块化,包括特定于硬件的“stem”(用于处理不同硬件的感官输入),共享的“trunk”(Transformer结构,用于处理感官表示并学习输入输出关系),以及特定于任务的“head”(用于将潜在表示映射到动作空间)。

Zero-TPrune: Zero-Shot Token Pruning through Leveraging of the Attention Graph in Pre-Trained Transformers

方法: 论文提出了一种无需训练的零样本token剪枝方法Zero-TPrune,利用加权PageRank算法从注意力图中推导token重要性,并结合相似性剪枝,以提升视觉Transformer模型在ImageNet上的性能,这种方法利用了预训练Transformer模型中的注意力图来执行令牌剪枝,以减少模型在边缘设备上部署时的推理成本。

创新点:

  • 提出了Zero-TPrune,这是一种无需训练的零样本令牌剪枝方法,它利用预训练的Transformer模型的注意力图来评估令牌的重要性和相似性,从而实现剪枝。
  • 引入了一种新的算法——加权页面排名,用于在迭代过程中基于注意力图分配令牌的重要性得分,有效降低了不重要令牌的干扰。
  • 通过重要性分布指导的令牌分割和基于相似性的剪枝,提高了剪枝过程的稳定性和准确性,同时减少了计算开销,使得模型能够在不需要微调的情况下快速切换不同的剪枝配置。

扫码添加小享, 回复“







请到「今天看啥」查看全文