本期为
TechBeat人工智能社区
第
639
期
线上Talk。
北京时间
11
月14日
(周四)20:00,
德克萨斯大学奥斯汀分校
博士生
樊志文
的Talk将准时在TechBeat人工智能社区开播!
他与大家分享的主题
是:
“
端到端从多视角图片解析3D与全景3D生成
”
,
届时他
将
分享三篇3D重建以及一篇3D生成模型的工作,其中
三篇均收录于NeurIPS'24和ECCV’24
。
嘉宾:德克萨斯大学奥斯汀分校 · 博士生 - 樊志文
长按识别二维码,一键预约TALK!
用互联网级数据训练的Large Foundation Model在改变我们的工作方式和解决复杂问题上展现了很大潜力。不过,像LLM和VLM这样的模型虽然能解读文本或单张图像,但在现有的多模态训练框架下,对空间关系的理解还存在挑战。未来的智能AI系统要能够理解3D环境的结构,才能可靠地与物理世界交互,这是实现自主系统的关键。
然而目前的3D重建流程还是依赖于模块化、non-differentiable的处理系统,难以进行大规模训练。在生成式AI,元宇宙应用里使用全景图可以提供沉浸式的体验,如何通过文字或者单张全景图来生成3D和4D全景图未曾解决。
本次talk将分享三篇3D重建以及一篇3D生成模型的工作,其中三篇均收录于NeurIPS'24和ECCV’24。
1. InstantSplat 从稀疏视角图像以秒级重建3D
2. LightGaussian 压缩3D-GS超过15倍并且提升渲染速度超50%
3. LargeSpatialModel 端到端的3D语义重建框架
4. DreamScene360 文字到3D全景图生成
Talk·预习资料
▼
论文链接:
https://arxiv.org/abs/2403.20309
项目主页:
https://instantsplat.github.io/
论文链接:
https://arxiv.org/abs/2311.17245
项目主页:
https://lightgaussian.github.io/
论文链接:
https://arxiv.org/abs/2410.18956
项目主页:
https://largespatialmodel.github.io/
论文链接:
https://arxiv.org/abs/2404.06903
项目主页:
https://dreamscene360.github.io/
Talk·提问交流
▼
在Talk界面下的
【交流区】
参与互动!留下你的打call🤟和问题🙋,和更多小伙伴们共同讨论,被讲者直接翻牌解答!
你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!
樊志文是德克萨斯大学奥斯汀分校的Ph.D Candidate,其导师为Zhangyang "Atlas" Wang教授。他在2022年获得了高通创新奖学金资助,目前在Meta Core AI担任研究实习生,致力于3D Foundation Model的开发。樊志文还曾在NVIDIA和Google实习,并曾任职于阿里巴巴集团,担任高级研究工程师。
个人主页:
https://www.techbeat.net/grzytrkj?id=42447