Mamba凭借其超强性能,被视为Transformer的颠覆者,但Transformer依然是当今大模型不可或缺的基座架构!自「Attention Is All You Need」首次提出自注意力机制,到BERT开创了预训练语言模型浪潮,以及后来的ViT、Swin Transformer、SegFormer、ViLT、(GPT-4)Toolformer、扩散模型,
Transformer无疑是NLP、CV乃至生成大模型等科研方向的必备搭子!
研梦非凡特
邀请了
世界Top10高校博士,发表过10+篇顶会的杨导师,
5月22日(周三)独家开讲
《Transformer系列论文科研能力提升课》
,
以Transformer为主线,全面介绍注意力机制在NLP、CV等研究领域的发展历程,带大家掌握以上
9个优秀模型
的关键技术(不要错过
Mamba彩蛋!
),深入理解Transformer在不同模态研究中的广泛应用,
找科研idea,算法岗面试再也不怵!
(下滑查看课程大纲)
▼
扫描二维码找
助教开课
可再领取
5本Transformer必读书籍pdf+116篇必读论文+文末超多科研福利
一、课程收获
✨
9篇Transformer必读论文get!
论文读写研究能力up!
全面掌握
Attention机制
在NLP、CV等研究领域的发展历程
深入理解Transformer于不同模态中的具体应用,盘点9
个优秀模型的代码+复现过程
掌握多个研究领域的最新技术,
对比分析各模态中的优劣及前景
二、课程亮点
介绍Transformer模型的基础结构,
及其在纯语言模型、多模态大模型中的应用
解析Transformer模型的训练及推理细节、
硬件上高效运行的方法
探究Transformer模型与轻量化技术结合的潜力,
比如模型的量化、剪枝、高效采样方法、内存高效读取等
展示Transformer模型在各领域中的灵活运用,
包括但不限于知识图谱、问答、对话、推荐等
▼
扫描二维码找
助教开课
三、课程大纲
🔸第1课 Attention Is All You Need
(5月22日
)
Transformer模型必学的开山之作!
直播内容概览:
Transformer模型的基本结构、组成及关键组件
对比RNN和Transformer在处理序列数据时的不同策略
自注意力机制如何捕捉序列内部的长距离依赖关系、如何实现并行计算
Transformer在机器翻译、文本摘要等任务中的应用案例
🔸第2课 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(讲复现,讲代码)
基于Transformer架构预训练技术Google开发的革命性NLP模型
直播课内容概览:
BERT模型在NLP任务中的革命性影响、创新点讲解、预训练目标和训练策略
MLM任务、NSP任务如何帮助模型捕捉语言的复杂性
解释Transformer的编码器结构,讨论多头注意力机制在BERT中的应用
讨论RoBERTa、ALBERT等变体对BERT模型的改进和优化
🔸第3课 (ViT) An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
(讲复现,讲代码
)
必学——实现了Transformer在计算机视觉中的首次应用。
突破了CNN在这方面的主导地位。
直播课内容概览:
学习ViT模型在图像识别任务中的创新点、影响及基本结构
ViT模型的动机和目标,对比ViT与CNN在图像处理上的差异
patches如何被编码成序列以适应Transformer模型
ViT模型的预训练策略,以及在不同规模数据集上的性能表现
🔸第4课 Swin Transformer:Hierarchical Vision Transformer using Shifted Windows
(讲复现,讲代码
)
业界创新——Transformer在高分辨率影像领域的应用
直播课内容概览:
Swin Transformer如何通过移动窗机制处理高分辨率图像,及移动窗机制的工作原理
Swin Transformer的关键技术:分块标准化(Shifted Window)技术及其作用
Swin Transformer在图像识别任务中的表现:模型如何优化特征提取能力
与其他Vision Transformer的比较,Swin Transformer在高分辨率影像处理上的优势,及模型在多模态任务中的应用前景
🔸第5课 SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers
(讲复现,讲代码
)
利用TransformerEncoder-Decoder结构,在没有使用任何额外如位置编码或非局部信息的情况下,进行语义分割,并取得突出的效果。
直播课内容概览:
Transformer在图像分类任务中的应用,并引入其在语义分割中的潜力
Transformer结构对细粒度视觉任务的适应性,SegFormer模型的动机、目标及Encoder-Decoder结构
SegFormer如何在不同尺度上捕捉特征,其简洁性和效率,以及其对性能的影响
SegFormer的语义分割流程:将Transformer应用于语义分割任务,模型如何处理输入图像并生成分割图
🔸第6课 ViLT: Vision and Language Transformer Without Convolution or Region Supervision
(讲复现,讲代码
)
ViLT直接使用序列输入进行多模态融合和理解,省去了特征提取阶段,取得了和CNN相当或更好的效果。
直播课内容概览:
ViLT在处理多模态数据时,如何实现视觉和语言信息的有效融合
ViLT的效率和效果,性能评估——对比ViLT和基于CNN的模型在各项任务中的表现
ViLT如何拓展Transformers在不同模态之间的应用场景,及其在多模态任务中的潜在改进空间
🔸第7课 (GPT-4)Toolformer: Language Models Can Teach Themselves to Use Tools
(讲复现,讲代码
)
Transformer在GPT-4的应用,大语言模型必学!
直播课内容:
语言模型在智能助手和自动化任务中的应用,创新之处和研究动机
Toolformer模型的基本结构、工作原理、关键技术,如强化学习、模仿学习等
Toolformer在各类任务上的表现,讨论模型如何推动语言模型参与更复杂的实际任务
Toolformer如何展示Transformer在语言理解方面的高级能力
🔸第8课 Scalable Diffusion Models with Transformers
(讲复现,讲代码
)
Transformer+扩散模型
利用Transformer处理高维度数据,实现了先进的可生成视觉效果。——
mamba还得是弟弟
直播课内容概览:
Transformer在生成扩散模型中的应用及其潜力