专栏名称: 计算机视觉研究院

主要由来自于大学的研究生组成的团队，本平台从事机器学习与深度学习领域，主要在人脸检测与识别，多目标检测研究方向。本团队想通过计算机视觉战队平台打造属于自己的品牌，让更多相关领域的人了解本团队，结识更多相关领域的朋友，一起来学习，共同进步！

超越Transformer，突破大模型注意力层瓶颈

计算机视觉研究院 · 公众号 · · 2024-03-12 11:30

正文

斯坦福大学此前提出的 FlashAttention算法 ，能够在BERT-large训练中节省15%，将GPT训练速度提高2/3。此后又提出 FlashAttention V2 ，拥有了更好的并行性和工作分区，让计算提速200%，上下文长度扩展更任性！

Flash-Decoding 不仅借鉴了FlashAttention的优点，同时可以显著加快推理过程中的注意力，使非常长的序列的生成速度提高8倍。也可以极大提高了encoding速度。

紧跟前沿技术，找到自己论文的创新点！ 研梦非凡 邀请大模型资深算法工程师魏导师，带大家系统学习FlashAttentionV1，FlashAttention V2，Flash Decoding的 算法核心和实验分析 ！

扫码 免费学习flashattention三节系列课

找助教领 👆 百篇FlashAttention 和大模型必读论文+ 50小时3080 GPU 算力

注：FlashAttentionV1和FlashAttention V2已经录制完毕，Flash Decoding将在3月15日直播！

FlashAttention前沿论文解析系列课

FlashAttentionV1课程概览 ‍ ‍

往期直播

part1：7大核心要点

FlashAttention是一种快速且内存高效的精确注意力机制，同时具有IO感知性。
解决了Transformer在计算长文本时面临的平方时间复杂度问题。
不同于其他Efficient Transformer，FlashAttention将优化重点放在了降低存储访问开销上。
......

part2：探索研究背景

IO-Aware Runtime Optimization
Efficient ML Models with Structured Matrices
Sparse Training
Efficient Transformer

part3：相关工作讲解

计算机架构
Self-Attention 计算
Safe Softmax 公式
Online softmax 公式图片

part4：算法分析

Flash Attention算法两个主要思想
Flash attention的计算过程（算法实现）

part5：实验结果

Training Speed
模型加速测试

扫码找助教 免费学习三节课 ‍ ‍ ‍ ‍

找助教领 👆 百篇FlashAttention 和大模型必读论文+ 50小时3080 GPU 算力

FlashAttention V2课程概览

往期直播

论文摘要、简介、创新点

研究背景

背景知识

GPU performance characteristics

Hardware角度

GPU Software 编程角度

Hardware和Software的联系

Standard Attention Implementation

FlashAttention

算法核心

Algorithm
Parallelism

实验分析

Benchmarking attention
End-to-end training speed

讨论

扫码找助教 免费学习三节课 ‍ ‍ ‍ ‍

找助教领 👆 百篇FlashAttention 和大模型必读论文+ 50小时3080 GPU 算力

FlashAttention-3：Flash Decoding直播大纲

直播课程

Flash-Decoding创新点

Flash-Decoding研究背景

GPU性能特点
GPU Software 编程角度
Standard Attention Implementation
FlashAttention

算法核心

Multi-head attention for decoding
A faster attention for decoding: Flash-Decoding

Flash Decoding主要步骤

实验讲解

Benchmarks on CodeLlama 34B
Component-level micro-benchmarks

直播时间

3月15日晚19:20

扫码找助教 免费 预约直播

找助教领 👆 百篇FlashAttention 和大模型必读论文+ 50小时3080 GPU 算力

直播课主讲导师

魏导师

从事新能源汽车智能座舱语音对话高级算法研发；芯片公司模型训练推理加速框架研发和高性能计算工程师；大模型算法资深工程师。
学术成就： 发表多篇sci、ccf论文，工信部重点项目1项。
可带方向： 大语言模型预训练和微调对齐、医疗大语言模型、code LLM算法研究、模型推理加速、AIGC多模态、AI推理框架。

ps：研梦非凡做前沿论文直播，主要是教会大家如何读论文时候抓住重点，从实际读论文的过程中，让大家掌握有效的方法，发现找创新点和写论文阅读报告的能力。

cv全方向/nlp全方向/机器学习/深度学习及AI+金融，医疗，交通等方向的 ccf a-c，sci一区-四区 ，核心论文都可以来研梦非凡匹配到合适的科研指导（可以享受3月课程福利哦～）。

根据计算机视觉研究院粉丝同学们的科研需求我们推出两种论文指导方案：

1v1定制化论文指导

按不同的需求收费，区别于其他1v1论文辅导收全程指导费。
针对在完成论文的过程中某些部分遇到难题，而找不到路径的同学，协助其用更少的费用快速地解决问题。

1v1定制化论文指导分三个阶段：

选题阶段

导师根据学员实际情况与需求，引导论文idea或给出论文idea
导师针对已有研究成果进行梳理和分析指导，让学员了解研究领域的发展状况、研究方法和趋势，确定论文idea的研究方法和目标。
导师结合己有研究成果的情况和论文idea，对学员后续的研究方法做出初步的规划和判断。

实验阶段

实验设计，明确研究问题、研究目标和研究方法
数据收集、整理与分析，确保数据的质量和完整性
实验代码实现与模型训练
实验微调与结果统计、呈现

成稿（让写作professional）阶段

因语言问题，科研协作经验缺乏，大多数的同学会因为用词和表达不够professional而被误解，导致论文改稿和评分低。

论文写作方法指导，论文写作框架与格式
参考文献筛选与列举
期刊会议筛选与投稿建议指导
论文文字部分的修改与润色
论文中所必要的表格与图片制作

定制1v1论文辅导 扫码咨询助教👇

（粉丝专属福利：先meeting后付款）

1对1全程论文指导

全程论文指导的服务适合以下需求的同学

非常适合科研小白：有科研需求，想融会贯通地使用算法模型，了解前沿进展和方向；
非常适合转专业和研究领域做敲门砖用：从事人工智能领域工作，想系统提升算法理论，高效掌握算法设计及创新思路，快速了解论文撰写技能；

课程收获

学习经典前沿论文，掌握算法原理和实现，了解不同算法的优劣势；
指定领域创新点；
Coding能力增强；
论文写作方法以及投稿建议。

科研进度保障

主讲导师：顶会审稿人，负责经典论文+前沿论文讲解+idea给予/方向建议+写作方法+投稿建议
私人群：每个同学都有与主讲导师私人讨论的小群（idea探讨以及课程内容答疑）；
全程线上语音meeting+开麦沟通。

指导周期与价格表

总指导周期=核心指导期+维护期

根据需要发表论文的区位不同，指导总周期在3到18个月不等。
核心指导期是正常的上课指导周期，维护期是学员已经写出论文投出去后，可能会收到审稿意见要求修改或者退稿的情况（主讲导师会给同学进一步的修改建议，必要的话会约会议沟通，最多6次meeting）。
在核心指导期，一般是每周1次1对1会议指导课，每次在45分钟左右。

1v1全程论文指导 扫码咨询助教👇

（粉丝专属福利：先meeting后付款）

超越Transformer，突破大模型注意力层瓶颈

正文

FlashAttention前沿论文解析系列课

FlashAttentionV1课程概览 ‍ ‍

part1：7大核心要点

part2：探索研究背景

part3：相关工作讲解

part4：算法分析

part5：实验结果

FlashAttention V2课程概览

论文摘要、简介、创新点

研究背景

算法核心

实验分析

讨论

FlashAttention-3：Flash Decoding直播大纲

Flash-Decoding创新点

Flash-Decoding研究背景

算法核心

Flash Decoding主要步骤

实验讲解

直播时间

直播课主讲导师

1v1定制化论文指导

选题阶段

实验阶段

成稿（让写作professional）阶段

1对1全程论文指导

课程收获

科研进度保障

指导周期与价格表

请到「今天看啥」查看全文