本期为TechBeat人工智能社区第639期线上Talk。
北京时间11月14日(周四)20:00,德克萨斯大学奥斯汀分校博士生樊志文的Talk将准时在TechBeat人工智能社区开播!他与大家分享的主题是: “端到端从多视角图片解析3D与全景3D生成”,届时他将分享三篇3D重建以及一篇3D生成模型的工作,其中三篇均收录于NeurIPS'24和ECCV’24。嘉宾:德克萨斯大学奥斯汀分校 · 博士生 - 樊志文 长按识别二维码,一键预约TALK!
用互联网级数据训练的Large Foundation Model在改变我们的工作方式和解决复杂问题上展现了很大潜力。不过,像LLM和VLM这样的模型虽然能解读文本或单张图像,但在现有的多模态训练框架下,对空间关系的理解还存在挑战。未来的智能AI系统要能够理解3D环境的结构,才能可靠地与物理世界交互,这是实现自主系统的关键。然而目前的3D重建流程还是依赖于模块化、non-differentiable的处理系统,难以进行大规模训练。在生成式AI,元宇宙应用里使用全景图可以提供沉浸式的体验,如何通过文字或者单张全景图来生成3D和4D全景图未曾解决。
本次talk将分享三篇3D重建以及一篇3D生成模型的工作,其中三篇均收录于NeurIPS'24和ECCV’24。
1. InstantSplat 从稀疏视角图像以秒级重建3D2. LightGaussian 压缩3D-GS超过15倍并且提升渲染速度超50%
3. LargeSpatialModel 端到端的3D语义重建框架
4. DreamScene360 文字到3D全景图生成
Talk·预习资料
▼
论文链接:
https://arxiv.org/abs/2403.20309
项目主页:
https://instantsplat.github.io/
论文链接:
https://arxiv.org/abs/2311.17245
项目主页:
https://lightgaussian.github.io/
论文链接:
https://arxiv.org/abs/2410.18956
项目主页:
https://largespatialmodel.github.io/
论文链接:
https://arxiv.org/abs/2404.06903
项目主页:
https://dreamscene360.github.io/
Talk·提问交流
▼
在Talk界面下的【交流区】参与互动!留下你的打call🤟和问题🙋,和更多小伙伴们共同讨论,被讲者直接翻牌解答!你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!樊志文是德克萨斯大学奥斯汀分校的Ph.D Candidate,其导师为Zhangyang "Atlas" Wang教授。他在2022年获得了高通创新奖学金资助,目前在Meta Core AI担任研究实习生,致力于3D Foundation Model的开发。樊志文还曾在NVIDIA和Google实习,并曾任职于阿里巴巴集团,担任高级研究工程师。个人主页:
https://www.techbeat.net/grzytrkj?id=42447
如果你也想成为讲者
▼
单人Talk | 团队专场 | 录播or直播 | 闭门交流
TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区