由 OpenMMLab 联合 OpenDataLab、OpenXLab、
OpenGVLab
社区共同发起,MLNLP、Datawhale、ReadPaper、极市平台和真格基金共同参与的
AI Spot 学术分享会
即将来袭!AI Spot 聚焦 AI 领域前沿工作,邀请顶会论文一作亲临分享,交流 AI 前沿研究、审视 AI 发展趋势,共同拓展认知边界。
8来自上海人工智能实验室通用视觉、浦视和开放算法团队的研究人员将分享在
CVPR 2024
上发表的最新工作,
内容涵盖当下主流热门任务,如
多模态大模型、多模态的评测基准、三维重建、图片编辑和生成
等,欢迎大家点击下方按钮预约观看最热门、最全面的 CVPR 专题分享。
-
多模态大模型幻觉成因解释以及基于惩罚回退策略的幻觉缓解方法
-
GenNBV:面向主动三维重建的可泛化最佳视角探索策略
-
基于像素点的拖拽式图像编辑
-
个性化图像动画生成器,利用文本提示将图像变为奇妙的动画
黄启栋
中国科学技术大学的博士生,研究方向为可信/高效 AI 和多模态大模型的基础研究,以第一作者/通讯作者身份在 CVPR、ICCV、IEEE TIP 等 CCF A 类国际顶级期刊会议上发表论文7篇,其中一作 6 篇,同时是国家奖学金等荣誉获得者。近期在多模态大模型领域的代表作 OPERA 在国内知名公众媒体平台总计阅读量超过 4 万,引起学界广泛关注。
分享主题:
多模态大模型幻觉成因解释以及基于惩罚回退策略的幻觉缓解方法
简要概述:
本次分享将从信息流角度解释当前多模态大模型在输出长文本时产生幻觉的原因,揭示大模型本身在文本生成过程中的总结特性,通过一系列实验说明了视觉信息在序列中的“遗忘”特点。对此,本文在 Beam Search 的基础上创新性地加入对于“过度信赖”的惩罚以及回退策略,从多个维度的实验上表现出对于幻觉缓解的可行性与有效性。
论文链接
https://arxiv.org/abs/2311.17911
代码链接
https://github.com/shikiw/OPERA
陈骁
香港中文大学 MMLab 博士生,上海人工智能实验室浦器 OpenRobotLab 团队实习生。目前的研究兴趣是具身智能和三维视觉,尤其是三维空间中可泛化的探索和主动重建策略。个人主页:https://xiao-chen.tech/
分享主题:
GenNBV:面向主动三维重建的可泛化最佳视角探索策略
简要概括
:
近年来,神经辐射场等技术促进了复杂物体和大规模场景的高保真数字化。但是,采集训练所需的高质量图像仍然是个非常费时费力的过程。为了克服现有方法跨场景泛化能力的缺陷,我们提出了 GenNBV,一种端到端、可泛化的 NBV 策略。通过采用强化学习框架,以更通用的采集准则进行迭代优化,将之前受限的动作空间推广到五自由度的连续空间,使载有采集设备的无人机能够以任意角度进行数据采集。此外,易部署的多源场景表征集成了场景的几何和语义和采集轨迹等信息,显著增强了 NBV 策略的跨场景泛化能力。
实验方面,我们基于 Isaac Gym 仿真器和 Houses3K、OmniObject3D 等数据集建立了一套主动重建的基准。实验证明,我们的 NBV 策略可以不作微调地泛化到训练阶段未见过的、建筑物规模的目标物体上,并且在表面覆盖率、采集效率和重建精度等方面都超过了之前的方法。
论文链接
https://arxiv.org/abs/2402.16174
代码链接
https://github.com/zjwzcx/GenNBV
凌鹏扬
中国科学技术大学二年级博士生,研究方向包括图像先验知识挖掘,高效可靠的图像复原,灵活的图像编辑,和可控式视频生成。
分享主题
:
基于像素点的拖拽式图像编辑
简要概括
:
为了实现稳定的拖拽式图像编辑,本团队提出了动态更新的模版特征和具有回溯机制的线性搜索。模版特征通过动态调整每次特征更新的尺度来提高特征的平稳性和可靠性;线性搜索通过主动限制搜索空间来缓解相似语意点的干扰;两者协同实现更加稳定的拖拽式图像编辑。
论文链接
https://arxiv.org/html/2307.04684v3
代码链接
https://github.com/LPengYang/FreeDrag
Demo 体验链接
https://openxlab.org.cn/apps/detail/LPengYang/FreeDrag
张倚铭
上海人工智能实验室和中国科学技术大学联培博士生,研究方向主要为生成式人工智能包括视频生成、音频生成等。
分享主题:
个性化图像动画生成器,利用文本提示将图像变为奇妙的动画
简要概括:
个性化文本到图像 (T2I) 模型的最新进展彻底改变了内容创作,使非专业人士能够生成具有独特风格的惊人图像。虽然很有前途,但通过文本在这些个性化图像中添加逼真的运动在保留独特的风格、高保真细节和通过文本实现运动可控性方面带来了重大挑战。我们介绍一款个性化图像动画生成器 PIA,它擅长与条件图像对齐,通过文本实现运动可控性,以及与各种个性化 T2I 模型的兼容性,无需特定微调。
论文链接
https://arxiv.org/abs/2312.13964
代码链接
https://github.com/open-mmlab/PIA
Demo 体验链接
https://openxlab.org.cn/apps/detail/zhangyiming/PiaPia/
公众号后台回复“
数据集
”获取100+深度学习各方向资源整理