专栏名称: 3D视觉工坊
1、OpenCV的技术传播; 2、3D点云与重建技术; 3、Vslam技术; 4、深度学习; 5、技术干货分享。
目录
相关文章推荐
保险一哥  ·  AI会取代百万保险代理人吗?请看deepse ... ·  2 天前  
掌上长春  ·  突发,这家保险公司解散 ·  2 天前  
掌上长春  ·  突发,这家保险公司解散 ·  2 天前  
保险一哥  ·  中国寿险公司如何应对低利率挑战,deepse ... ·  4 天前  
51好读  ›  专栏  ›  3D视觉工坊

NeurIPS'2024 | 让视频生成模型走进物理世界!

3D视觉工坊  · 公众号  ·  · 2025-01-20 07:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

本次分享我们邀请到了清华大学博士生 郭彦江 ,为大家详细介绍他们团队中稿NeurIPS'2024的工作。如果您有相关工作需要分享,欢迎文末联系我们。

Prediction with Action:Visual Policy Learning via Joint Denoising Process
主页 https://sites.google.com/view/pad-paper
论文 https://arxiv.org/pdf/2411.18179
代码 https://github.com/Robert-gyj/Prediction_with_Action

直播信息

时间

2025年 1月20日 (周一) 19:00

主题

NeurIPS'2024|让视频生成模型走进物理世界!

直播平台

3D视觉工坊哔哩哔哩

扫码观看直播,或前往B站搜索3D视觉工坊观看直播

3D视觉工坊视频号 也将同步直播

主讲嘉宾

郭彦江

清华大学交叉信息学院智能系统与机器人实验室在读博士生。研究方向为具身智能,目前研究聚焦在通用操作大模型的训练。他的研究工作使用大规模互联网数据和预训练生成模型来训练通用操作模型,曾经发表论文在NeurIPS, RSS, CoRL, ICRA, IROS等会议,曾获得RSS 2024最佳论文提名奖。

个人主页 https://robert-gyj.github.io

直播大纲

扩散生成模型(video diffusion model)在视频生成领域取得了巨大的成功,展现出了对物理世界的良好理解。同时,扩散策略(diffusion policy)也在机器人任务中取得了巨大的成功。扩散生成模型和扩散策列在技术上都采用同样的去噪过程,使用扩散视频生成模型来帮助构建机器人基础模型是一条有前景的道路。因此我们提出使用联合去噪策略学习模型PAD,将未来图像预测和动作生成融合到一个网络中,从而让视频预测能力帮助机器人动作学习。

  1. 视频扩散模型、世界模型介绍
  2. 机器人扩散策略介绍
  3. 方法介绍: 联合预测和动作学习架构PAD
  4. 实验效果展示
  5. 后续工作介绍以及展望

参与方式







请到「今天看啥」查看全文