|极市线上分享第131期 |
一直以来,为让大家更好地了解学界业界优秀的论文和工作,极市已邀请了超过
100
位技术大咖嘉宾,并完成了
130
期极市线上直播分享。
往期分享请前往
bbs.cvmart.net/topics/149
或直接
阅读原文
,也欢迎各位小伙伴自荐或推荐更多优秀的技术嘉宾到极市进行技术分享,与大家一起交流学习~~
本次分享我们邀请到了
新加坡国立大学
博士生秦紫恒
,为大家详细
介绍他们中稿ICLR 2024 Oral的工作:
InfoBatch:Lossless Training Speed Up by Unbiased Dynamic Data Pruning
论文地址:
https://arxiv.org/abs/2303.04947
GitHub:
https://github.com/NUS-HPC-AI-Lab/InfoBatch
随着深度学习的网络参数量和数据集规模增长,算力需求日益增加,如何节省训练成本正在成为逐渐凸显的需求。
现有的数据集压缩方法大多开销较高,且难以在达到无损的情况下获得可观的节省率;
加权抽样的相关方法则对于模型和数据集的特点较为敏感且依赖于重复抽样假设,在实际应用中难以和已完成调参的学习率调整策略结合。
两种从数据角度出发的方法在实践中很难真正帮助节省计算。
在本篇工作中,研究者从数据迭代这个角度切入进行了研究。
长久以来,数据集的迭代方式大都采用随机迭代。
对此,作者提出了
InfoBatch
框架,根据网络对样本的拟合情况进行动态剪枝采样的方法,并利用重缩放(
rescaling
)来维持剪枝后的梯度更新(
Gradient Update
)期望,以此在性能无损的情况下提高训练效率,加快训练速度。
在
CIFAR10/100
(
ResNet,
分类)、
ImageNet-1K
(
ResNet/ViT,
分类)和
ADE20K
(
UperNet,
语义分割)上,
InfoBatch
无损节省了
40%
的总开销(时间和计算);
在检测任务上(
YOLOv8
),
InfoBatch
无损节省了
30%
;
对于
MAE
预训练
(ViT)
和
FFHQ
图片生成(
Latent Diffusion
)
, InfoBatch
分别节省了
24.8%
和
27%
的开销。
在
LLaMA
的指令微调上
, InfoBatch
成功在静态压缩方法
DQ[1]
的基础上额外节省了
20%
开销,总开销为原始的
8%
,并且和
LoRA
兼容。
目前,已有多家头部云计算服务公司与尤洋团队进行交流。