随着大模型的飞速发展,在短短一年半间就有了大幅度的技术迭代更新,
LoRA,QLoRA,AdaLoRa,ZeroQuant,Flash Attention,DPO
等技术效果已经在工业界逐渐得到验证。过去半年又涌现出更多效果更好的技术和模型,
从
Mamba2
,
Jamab
a,TTT
等
基座模型
,
到
Dora
,
LoftQ
,
GaLore
等最新的微调技术;
KTO
,
IPO
,
SimPO
等对齐技术;再到
GPTQ
,
SmoothQuant
,
AWQ
,
GGUF
等量化技术。大模型全链路的技术的迭代日新月异。
作为算法工程师,
面对如此庞大又在飞速迭代的大模型技术体系,
您是否有感觉自己的技术能力以及学习步伐有点跟不上技术的发展?或者对这些新兴技术的理解仅仅停留在应用层面上,实际上并没有对背后的算法原理深入剖析过? 如果您希望快速适应大模型时代的发展,而不致于在海量的论文和技术文献中挣扎和迷茫;如果你希望在大模型赛道上持续巩固竞争壁垒,而不至于因为技术到达瓶颈而导致项目停滞不前。对技术本身的深入理解、对前沿技术的深入洞察一定是个必选项
基于此类痛点,并紧密贴合llm前沿技术发展,贪心科技联合数位业内顶级专家共同打造了
《大模型微调实战营-算法篇》
+
《大模型高级研修班》
的组合学习路径
。
通过3
个半月的时间,全面掌握从基础到最前沿的大模型技术以及背后的精髓,帮大家大大节省学习成本、提高技术竞争力
。
-
掌握前沿的大模型技术,包括各类基座模型、微调算法、推理方法、多模态技术、图算法和大模型的结合等
-
掌握每一种前沿算法背后的理论知识、以及应用场景,部分算法的讲解涉及到代码解读、从零算法实现、实战案例等
-
全面掌握2024上半年,新出现的最热门大模型技术
下面是两门课程的具体学习安排,感兴趣的朋友们欢迎扫码咨询。
-
-
-
Multi-Head Attention的设计和作用
-
-
-
Positional Encoding的概念和实现方法
-
Rotary Positional Embedding
-
BPE tokenizer,SentencePiece Encoding
-
Transformer中的Feed-Forward Networks
-
Layer Normalization的原理和重要性
-
-
-
-
-
-
-
Greedy Decoding, Beam-search
-
Top-K Sampling, Top-p Sampling
-
第六章:Transformer模型全量微调和高效微调
第三阶段:大模型指令微调之- Quantization
-
-
-
-
4bit NormalFloat, double quantization
-
-
第二十一章:【项目实战4】QLoRA微调LLaMA大模型
-
-
ZeroQuant在模型Quantization中的创新点
-
-
-
-
-
SmoothQuant与传统Quantization方法的区别
-
-
-
-
DPO(Direct Preference Optimization)介绍
-
-
-
-
第三十九章:【项目实战6】DPO在推荐系统中的应用
-
-
-
-
-
在NLP任务中应用Prefix Tuning的案例
-
-
-
-
-
-
实际案例:Adaptor Tuning在分类任务中的应用
-
第四十三章:Flash Attention算法剖析
-
Flash Attention的设计思想和算法原理
-
-
Flash Attention在提升处理速度和效率上的作用
-
应用Flash Attention改进大模型的案例分析
-
Flash Attention的实现挑战和解决方案
第四十四章:Flash Attention 2算法剖析
-
介绍Flash Attention 2与前版本的区别
-
深入探讨Flash Attention 2的技术改进点
-
Flash Attention 2在复杂任务处理中的应用示例
-
评估Flash Attention 2的性能和适用范围
-
Flash Attention 2的实现细节和调优建议
第四十五章:Kahneman-Tversky Optimization (KTO) 算法剖析
-
-
Kahneman-Tversky优化在微调中的应用
-
-
-
第四十六章:【项目实战7】QLoRA+Flash Attention微调大模型
-
结合QLoRA和Flash Attention的微调策略
-
-
-
-
-
增量学习(Continual learning)的重要性
-
-
-
-
-
多头自注意力机制:Query, Key, Value机制
-
-
-
-
-
-
-
-
Discretization, Recurrent计算
-
-
-
-
Kolmogorov-Arnold representation theorem
-
-
Convolutional KANs (CKANs)
-
-
实践:从零实现KANs
-
Weight Gradient的low rank特性
-
-
-
-
-
模块三:对齐技术
-
-
-
-
-
基于LLama大模型进行SmoothQuant量化