最近面试大厂实习算法岗,不仅让手写Transformer代码,甚至手撕BP算法,面试八股也是标配,总结了一下
面试官必问的10个问题:
解释多头注意力机制;简述常见注意力机制;介绍Transformer的QKV;Transformer位置编码的优缺点;详述Encoder及Decoder模块;Transformer残差结构及意义;解释Transformer并行性;Transformer与CNN/RNN/LSTM的区别;详述ViT等CV方向的应用;Transformer与Mamba的区别。
从Transformer的模型架构,到近年数篇
里程碑式论文
,为了帮助大家掌握面试重点,
研梦非凡特
邀请了
世界Top10高校博士,发表过10+篇顶会的杨导师,
独家开讲
《求职充电季—Transformer系列论文课程》
,
以Transformer为主线,全面介绍注意力机制在NLP、CV等研究领域的发展历程,
9节论文精讲直播课,带大家吃透9个面试必问模型,
校招社招狂接offer
!
免费领取
原创课件、9节课程论文&源码
+百篇
Transformer论文&书籍
+文末更多
科研福利
一、课程收获
✨
9篇Transformer必读论文get!代码复现
能力up!
二、课程大纲
🔸第1课 Attention Is All You Need
Transformer模型必学开山之作!
直播预告:
-
Transformer模型的基本结构、组成及关键组件
(面试必问!)
-
对比RNN和Transformer在处理序列数据时的不同策略
-
自注意力机制如何捕捉序列内部的长距离依赖关系、如何实现并行计算
-
Transformer在机器翻译、文本摘要等任务中的应用案例
🔸第2课 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
(包括代码复现
)
基于Transformer架构预训练技术Google开发的革命性NLP模型
直播预告:
-
BERT模型在NLP任务中的革命性影响、创新点讲解、预训练目标和训练策略
-
MLM任务、NSP任务如何帮助模型捕捉语言的复杂性
-
解释Transformer的编码器结构,讨论多头注意力机制在BERT中的应用
(面试必问!)
-
讨论RoBERTa、ALBERT等变体对BERT模型的改进和优化
(涨点必学!)
🔸第3课 (ViT) An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
(包括代码复现
)
必学——实现了Transformer在计算机视觉中的首次应用!
直播预告:
-
学习ViT模型在图像识别任务中的创新点、影响及基本结构
-
ViT模型的动机和目标,对比ViT与CNN在图像处理上的差异
-
patches如何被编码成序列以适应Transformer模型
-
讨论多头自注意力机制在ViT中的应用
(面试必问!)
-
ViT模型的预训练策略,以及在不同规模数据集上的性能表现
(
涨点必学!
)
🔸第4课 Swin Transformer:Hierarchical Vision Transformer using Shifted Windows
(包括代码复现
)
业界创新——Transformer在高分辨率影像领域的应用!
直播预告:
-
Swin Transformer移动窗机制处理高分辨率图像的工作原理
(魔改第一步!)
-
分块标准化(Shifted Window)关键技术
-
Swin Transformer在图像识别任务中的模型优化特征提取能力
(笔试考点!)
-
Swin Transformer模型在多模态任务中的应用前景
🔸第5课 SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers
(包括代码复现
)
利用TransformerEncoder-Decoder结构,在没有使用任何额外如位置编码或非局部信息的情况下,进行语义分割,并取得突出效果!
直播预告:
-
Transformer结构对细粒度视觉任务的适应性
-
SegFormer模型的动机、目标及Encoder-Decoder结构
(面试必问!)
-
SegFormer如何在不同尺度上捕捉特征,其简洁性和效率,以及其对性能的影响
-
SegFormer的语义分割流程:Transformer应用于语义分割任务流程
(手撕考点!)
🔸第6课 ViLT: Vision and Language Transformer Without Convolution or Region Supervision
(包括代码复现
)
ViLT直接使用序列输入进行多模态融合和理解,省去了特征提取阶段,取得了和CNN相当或更好的效果!
直播预告:
-
-
-
ViLT的效率和效果、性能评估对比(与CNN区别)
(面试必问!)
-
ViLT改进Transformers在不同模态之间的应用工作
🔸第7课 (GPT-4)Toolformer: Language Models Can Teach Themselves to Use Tools
(包括代码复现
)
Transformer在GPT-4的应用,大语言模型必学!
直播预告:
-
语言模型在智能助手和自动化任务中的应用、创新之处和研究动机
-
Toolformer模型的基本结构、工作原理、关键技术,如强化学习、模仿学习等
-
Toolformer经过训练能够决定调用哪些API、何时调用它们、传递什么参数以及如何最佳将结果合并到未来的token预测中
🔸第8课 Scalable Diffusion Models with Transformers
(包括代码复现
)
Transformer+扩散模型
利用Transformer处理高维度数据,实现了先进的可生成视觉效果!
直播预告:
-
Transformer在生成扩散模型中的应用及其潜力
-
-
基于Transformer的扩散模型架构,利用Transformer生成高维度的视觉数据
(面试必问!)
-
对比传统扩散模型和基于Transformer的模型性能
🔸第9课 Mamba: Linear-Time Sequence Modeling with Selective State Spaces
(惊喜彩蛋!
!
!
后续
还会加课哦!
)
三、讲师介绍
杨导师
学术背景
世界Top10大学计算机科学毕业博士。主要研究方向为计算机视觉、自然语言处理、高效的深度学习训练和推理方法、大语言模型轻量化与高效微调技术。
曾在多家公司担任算法研究员,涉及计算机视觉、高效模型压缩算法、多模态大语言模型的相关研究,包括模型量化、剪枝、蒸馏、编译、高效稀疏化训练与推理
科研成果
在国际顶级会议CVPR、ICCV、EMNLP等发表10+篇论文,并担任CVPR、ICCV、ECCV、ICML、ICLR、NeurIPS等重要会议和期刊审稿人;
拥有多项发明专利,指导学生有耐心,教学严谨,思维逻辑缜密,论文指导经验丰富
招收学生方向
计算机视觉、自然语言处理、高效模型压缩算法、多模态大语言模型,包括模型量化、剪枝、蒸馏、编译、高效稀疏化训练与推理、深度学习全栈研究
四、适合人群
-
热爱计算机科学研究,对自然语言处理、计算机视觉、大语言模型、多模态算法,尤其以Attention为主的模型核心发展脉络,
拥有浓厚兴趣的同学
-
-
五、课程形式及时长
上课方式
线上直播课,每节1小时左右,具体以实际时长为准
上课时间
共9节,
暂定每周1节
课程价格
原价599元,
现价
9.9
,再送价值99元的
7节论文写作指导课
六、课程服务
-
配套课程资料:
课程PPT、Transformer论文及相关开源代码
-
Transformer交流群(助教答疑,资料更新)
七、Q&A