专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
贵州日报  ·  贵州“新春第一会”:主攻现代化产业体系 ·  2 天前  
上海证券报  ·  蚂蚁集团,重要人事变动 ·  3 天前  
上海证券报  ·  9万亿元!湖北新目标 ·  3 天前  
百姓关注  ·  刚刚!小S发声 ·  3 天前  
51好读  ›  专栏  ›  新智元

ECCV 2024揭榜,录用率或创新低!2395篇论文中选,网友晒出成绩单

新智元  · 公众号  ·  · 2024-07-02 13:08

正文



新智元报道

编辑:桃子 好困
【新智元导读】 两年一届的ECCV录用结果终于揭晓了!刚刚,ECCV组委会公布了录用论文名单,共有2395篇论文被录用。

ECCV 2024录用结果终于公布了!

一大早,ECC组委会放出了所有被接受论文的ID名单,共录用了2395篇论文。

有网友估算了下,今年论文总提交量大约有12600篇,录用率是18%。简直不敢相信今年ECCV的录用率如此之低,CVPR 2024录用率还是23.6%。

据统计,ECCV 2022共有5803篇论文投稿,接收率为28%。

再往前倒推,2020年ECCV共收到有效投稿5025篇,接收论文1361篇,接收率为27%。2018年共有2439篇投稿,接收776篇,录用率为31.8%。

ECCV表示,在接下来的几天里,还将公布最终的评审意见和元评审意见。还有论文Poster/Oral结果也将在随后揭晓。

今年,是ECCV召开的第18届顶会,将于9月29日-10月4日在意大利米兰正式开幕。

ECCV(欧洲计算机视觉国际会议)创办于1887年,每两年举办一次。

它与CVPR(每年一届)ICCV(每两年一届)并称计算机视觉方向的三大顶级会议。

收到录用结果的小伙伴们,已经开始分享自己的成果了。

网友晒出成绩单


一位小伙伴Jeff Li同一天双喜临门,不仅收到了入职英伟达的offer,同时2篇论文被ECCV接收。

斯坦福计算机博士生,清华校友Congyue Deng实现了在噪声和特征不准确的情况下,获得更好的图像对应关系。

为此,作者提出了Laplacian特征函数,可以将图像对应问题性像素空间提升到函数空间,并直接优化全局一致的映射。

实验结果证明,新技术不仅能产生更平滑,而且更准确的对应关系,还能更好地反映作者所研究的大规模视觉模型中嵌入的知识。

论文地址:https://arxiv.org/abs/2403.12038

佐治亚理工学院Bolin Lai博士联手Meta、UIUC团队发表论文,提出了以自我为中心的动作框架——LEGO,由多模态模型和扩散模型组成,通过指令微调丰富动作提示。

最新框架的设计目标是,通过输入用户提示和以自我视角为中心的图像,基于用户的「上下文」(即动作帧)描述动作。然后用户再去学习,如何去无缝完成自己的工作。

论文中提出新模型能够按照指令生成一致的动作,并在动作过程中发生视点变化时,依旧保持一致性。此外,LEGO模型还可以在相同的上下文中,推广到各种看不见的动作。

论文地址:https://arxiv.org/pdf/2312.03849

高斯泼溅


来自UT Austin的博士生Zhiwen Fan,有3篇论文都被ECCV 2024接收了。

这几篇论文探索了许多新的领域:从稀疏视图进行3D重建、高质量3D多任务学习,以及使用全景格式的大规模3D生成。

在DreamScene360中,作者提出了一种3D全景的场景级别生成流程,该流程利用GPT-4V结合2D扩散模型和全景高斯泼溅技术,从任何具体程度的文本提示中生成具有完整360度覆盖的沉浸式高质量场景,实现了卓越的3D场景生成质量和实时的渲染速度。

项目地址:https://dreamscene360.github.io/

在FSGS中,作者提出了一种基于3D高斯泼溅的稀疏视角合成框架,该框架能够在仅有三张训练视图的情况下实现实时和高质量的视角合成。
作者通过精心设计的高斯Unpooling过程来处理稀疏的COLMAP点云,并在最具代表性的位置周围迭代分布新的高斯,随后在空白区域填充局部细节。
此外,作者还在高斯优化过程中集成了一个大规模预训练的单目深度估计器,利用在线增强视图引导几何优化走向最佳解决方案。
从有限输入视点观察到的稀疏点开始,FSGS可以准确地扩展到未见过的区域,全面覆盖场景并提升新视角的渲染质量。
总体而言,FSGS在包括LLFF、Mip-NeRF360和Blender在内的各种数据集上,在图像质量达到了SOTA的性能,渲染速度比基于NeRF的方法快2,000倍以上。

项目地址:https://zehaozhu.github.io/FSGS/
在VersatileGaussian中,作者提出将Multi-task Learning引入Gaussian Splatting,来提升全任务的重建质量,尤其是RGB图像渲染质量得到明显提升。
本文提出特征图Rasterizer,以及任务间的相关注意模块,能通过一种软加权机制传播任务特定知识,促进跨任务相关性学习,从而取得明显优越的性能。
在ScanNet和Replica数据集上的实验表明VersatileGaussian取得了明显优越的渲染质量和速度。

项目地址:https://shadowiterator.github.io/VersatileGaussian-Homepage/

图像编辑


UCSC的助理教授Xin Eric Wang则带领团队提出了一种图像个性化编辑SwapAnything框架。
基于此,你便可以看到肌肉发达的LeCun大牛拍着小猫咪;乌龟的龟壳,也可以是美国队长盔甲的印记。
正如作者所述,SwapAnything可在个性化可视化编辑中实现任意对象「交换」,包括单对象、部分对象、多对象、跨域、基于文本的「交换」等。
它有三个独特的优势:精准控制任意对象和部件,而不是主体;原封不动地保存上下文像素;个性化概念与形象的无缝改编。

论文地址:https://arxiv.org/pdf/2404.05717
ChatGPT中的DALL·E却无法利用参考概念,进行个性化视觉编辑。
在它支持的基于文本的编辑任务上,SwapAnything也能实现更稳健的性能。

图像合并


谷歌研究科学家、DreamBooth作者Nataniel Ruiz和团队提出的ZipLoRA算法,正式被录用。
在AI社区中,合并LoRA一直是一个热门话题,但调优过程可能非常繁琐。
谷歌和UIUC提出的ZipLoRA算法,可以让开发者轻松地将任何主体LoRA与任何风格LoRA结合起来。
这一方法的核心思想很简单:通过反向传播找到一个合并点,在这一点上两个LoRA都能很好地发挥作用,同时还能限制它们之间的信号干扰。
如下图所示,ZipLoRA保留了令人印象深刻的细节主题,非常逼真地再现了用户给出的风格。

论文地址:https://arxiv.org/pdf/2311.13600
与社区其他类似方法相较之下,比如direct arithmetic merge、StyleDrop+DreamBooth等,ZipLoRA更好地实现了主题保真度,以及风格指令遵循。

图像生成


英伟达高级研究科学家Ali Hatamizadeh刚刚宣布,团队提出的图像生成ViT算法DiffiT被ECCV 2024接收。
在这篇论文中,作者提出了扩散视觉Transformer(DiffiT)用于图像生成。
具体来说,它们提出了一种对去噪过程进行精细控制的方法,并引入了时间依赖多头自注意力(TMSA)机制。






请到「今天看啥」查看全文