专栏名称: PaperWeekly

PaperWeekly是一个分享知识和交流学问的学术组织，关注的领域是自然语言处理的各个方向。我们热爱知识，分享知识，希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。

课程预告 | ECCV 2022基模型技术分享会

PaperWeekly · 公众号 · 科研 · 2022-08-25 18:21

正文

完整的视觉基础模型系统涵盖架构设计、训练优化、轻量化等不同的算法技术，整体系统的先进性不允许任何一块出现短板。

ECCV 2022基模型技术分享会 将通过对不同技术的深入分析带你详细了解商汤-基模型团队在构建 视觉基础模型系统 过程中的技术思考，深入理解工业化场景先进的视觉模型系统是如何更加 高效和鲁棒 。

第一期专题课程「 视觉大模型基石：大规模视觉网络架构设计与模型轻量化算法 」，将于 8月25日（周四） 19:30 准时开播，感兴趣的小伙伴们千万不要错过哦！

B站直播间

https://live.bilibili.com/14884511

ECCV 2022基模型技术分享会

视觉基础模型系统正在深入各行各业服务不同的产品应用，其中的视觉大模型以及轻量化视觉模型在人工智能的视觉感知类任务中扮演着重要的角色。先进的视觉基础模型系统从 基础架构设计、模型训练优化到高效的视觉感知器以及大规模表征学习训练 等都有着不可或缺的技术依赖，如何构建工业级强大的视觉基础模型系统，依然不是一个简单的问题。

本次分享会，商汤学术联合OpenDILab，与新智元、PaperWeekly、将门-TechBeat人工智能社区共同直播，从 视觉大模型：基石-能力进阶-表征能力强化 三期专题课程出发，介绍商汤-基模型团队在构建先进视觉模型系统过程中的核心技术思考。

通过该分享会，同学们可以对 完整的视觉模型系统 有一个全面的认识，并对其中核心单点技术获得 大量实用的算法设计经验和技巧 ，提升 工业级视觉模型算法研发能力 。

课程表在这里啦，快快右键收藏吧~

相关课程安排

第一期

论文信息

Part A 大规模视觉网络架构设计

高效的基础神经网络架构是视觉大模型能力的支撑基石，基于单一算子的网络结构如ResNet、ViT、MLP-Mixer等在视觉任务上取得了很好的效果，但如何结合不同操作的inductive bias来构建更高效的基础网络结构仍然是一个重要的研究问题。区别于以往用手工设计的方式来组合不同性质的算子。本文将这算子统一在一个联合的搜索空间中，利用强化学习算法来自动地搜索出最优的算子组合。此外，本文设计了可以衔接不同算子的下采样模块，来帮助混合架构中不同算子之间的信息交互。经过搜索之后，最优的网络被保留下来，通过放大这个最优网络，我们构建出一个高效的网络结构簇UniNet，这允许我们基于该基石模型构建超大视觉模型来提高性能上限。在分类、检测、分割的任务上，UniNet的性能远远超过了基于单一算子的神经网络结构，也为后续的混合构架设计提供了参考。

Part B 基于自瘦身学习的ViT轻量化算法

以ViT为基础的视觉大模型展现出强大的表征能力，在许多视觉任务上胜过了传统的CNN网络。然而在视觉任务中，ViT的注意力机制在带来强大建模能力的同时，也引入了昂贵的计算复杂度，大幅度增加了大模型的推理成本。本文提出一个基于ViT的自瘦身学习框架，引入token的软稀疏化策略和特征校准蒸馏来提升ViT模型的推理效率。在ImageNet数据集上的实验结果表明，自瘦身学习能够在不降低性能的情况下取得至多70%的吞吐量提升。

主讲人介绍

Jerry

商汤科技基模型部门AutoML研究员，主要从事网络结构搜索、知识蒸馏、自监督学习相关的研究。在ICCV/CVPR/ECCV等会议上发表多篇论文，曾获得LFR Challenge第一名，参与NIST FRVT 1:N人脸识别全球评测获得五项第一，NIST FRVT 1:1以及1:1口罩人脸识别全球第一。

Jackson

北京航空航天大学在读硕士生，研究方向为计算机视觉，目前专注于目标检测、图像识别和知识蒸馏等。

课程预告 | ECCV 2022基模型技术分享会

正文

请到「今天看啥」查看全文