专栏名称: 学姐带你玩AI

这里有人工智能前沿信息、算法技术交流、机器学习/深度学习经验分享、AI大赛解析、大厂大咖算法面试分享、人工智能论文技巧、AI环境工具库教程等……学姐带你玩转AI！

Transformer依旧嘎嘎发文！+GAN天作之合拿下CV顶会，抓紧复现！

学姐带你玩AI · 公众号 · · 2024-11-01 18:22

正文

最近发现了一篇效果很好的ICCV新论文，讲的是一种基于GAN的Transformer模型ActFormer，该模型不仅实现了SOTA性能，也拥有较强的适应性，在单人动作生成任务中达到了99.9%的动作识别准确率。

这类模型采用了 Transformer+GAN的组合策略 ，利用了Transformer的序列建模能力来增强GAN的生成能力，可以给我们 提供更加高质量、多样化的数据样本，实现更高的计算效率以及更好的解释性。

也正因这些优势，这种强大的技术组合如今已经被广泛应用于多种场景，比如图像生成、文本生成、语音合成等。本文整理了 10种 Transformer结合GAN的创新方案 供各位参考，开源代码基本都有，方便大家复现。

扫码添加小享， 回复“ GAN创新 ”

免费获取 全部论文+开源代码

方法： 论文提出了一种基于GAN的Transformer框架——Act-Former，用于生成单人和多人互动的动作。方法结合了Transformer的时空表示能力、GAN的生成建模优势以及高斯过程潜在先验的时间相关性。多个基准数据集上的实验证明Act-Former在动作生成任务中表现优异。

创新点：

方法： 作者设计了一个名为FA-GAN的深度架构，它结合了视觉Transformer和闪存注意力机制，用于唇语到语音生成。该方法通过引入Swin Transformer提升图像表示质量，使用分层迭代生成器优化语音合成过程，并通过闪存注意力机制减少计算负担。

创新点：

扫码添加小享， 回复“ GAN创新 ”

免费获取 全部论文+开源代码

方法： 文章提出了一种基于Transformer的生成对抗网络（GAN），名为TOR-GAN，用于重建OFDM（正交频分复用）信号，通过将IQ序列视为二维图像进行处理，采用概率稀疏注意力机制替代多头注意力，优化生成器和判别器的参数及时间复杂度。

创新点：