https://live.bilibili.com/14884511
视觉基础模型系统正在深入各行各业服务不同的产品应用,其中的视觉大模型以及轻量化视觉模型在人工智能的视觉感知类任务中扮演着重要的角色。先进的视觉基础模型系统从
基础架构设计、模型训练优化到高效的视觉感知器以及大规模表征学习训练
等都有着不可或缺的技术依赖,如何构建工业级强大的视觉基础模型系统,依然不是一个简单的问题。
本次分享会,商汤学术联合OpenDILab,与新智元、PaperWeekly、将门-TechBeat人工智能社区共同直播,从
视觉大模型:基石-能力进阶-表征能力强化
三期专题课程出发,介绍商汤-基模型团队在构建先进视觉模型系统过程中的核心技术思考。
通过该分享会,同学们可以对
完整的视觉模型系统
有一个全面的认识,并对其中核心单点技术获得
大量实用的算法设计经验和技巧
,提升
工业级视觉模型算法研发能力
。
课程表在这里啦,快快右键收藏吧~
Part A 大规模视觉网络架构设计
高效的基础神经网络架构是视觉大模型能力的支撑基石,基于单一算子的网络结构如ResNet、ViT、MLP-Mixer等在视觉任务上取得了很好的效果,但如何结合不同操作的inductive bias来构建更高效的基础网络结构仍然是一个重要的研究问题。区别于以往用手工设计的方式来组合不同性质的算子。
本文将这算子统一在一个联合的搜索空间中,利用强化学习算法来自动地搜索出最优的算子组合。此外,本文设计了可以衔接不同算子的下采样模块,来帮助混合架构中不同算子之间的信息交互。经过搜索之后,最优的网络被保留下来,通过放大这个最优网络,我们构建出一个高效的网络结构簇UniNet,这允许我们基于该基石模型构建超大视觉模型来提高性能上限。
在分类、检测、分割的任务上,UniNet的性能远远超过了基于单一算子的神经网络结构,也为后续的混合构架设计提供了参考。
Part B 基于自瘦身学习的ViT轻量化算法
以ViT为基础的视觉大模型展现出强大的表征能力,在许多视觉任务上胜过了传统的CNN网络。然而在视觉任务中,ViT的注意力机制在带来强大建模能力的同时,也引入了昂贵的计算复杂度,大幅度增加了大模型的推理成本。本文提出一个基于ViT的自瘦身学习框架,引入token的软稀疏化策略和特征校准蒸馏来提升ViT模型的推理效率。在ImageNet数据集上的实验结果表明,自瘦身学习能够在不降低性能的情况下取得至多70%的吞吐量提升。