专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

NeurIPS'24开源 | 通过联合扩散，打造视觉机器人策略学习！

计算机视觉工坊 · 公众号 · · 2025-01-20 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

本次分享我们邀请到了清华大学博士生 郭彦江 ，为大家详细介绍他们团队中稿NeurIPS'2024的工作。如果您有相关工作需要分享，欢迎文末联系我们。

Prediction with Action:Visual Policy Learning via Joint Denoising Process
主页： https://sites.google.com/view/pad-paper
论文： https://arxiv.org/pdf/2411.18179
代码： https://github.com/Robert-gyj/Prediction_with_Action

直播信息

时间

2025年 1月20日 (周一) 19：00

主题

NeurIPS'2024|让视频生成模型走进物理世界!

直播平台

3D视觉工坊哔哩哔哩

扫码观看直播，或前往B站搜索3D视觉工坊观看直播

3D视觉工坊视频号 也将同步直播

主讲嘉宾

郭彦江

清华大学交叉信息学院智能系统与机器人实验室在读博士生。研究方向为具身智能，目前研究聚焦在通用操作大模型的训练。他的研究工作使用大规模互联网数据和预训练生成模型来训练通用操作模型，曾经发表论文在NeurIPS, RSS, CoRL, ICRA, IROS等会议，曾获得RSS 2024最佳论文提名奖。

个人主页 ： https://robert-gyj.github.io

直播大纲

扩散生成模型（video diffusion model）在视频生成领域取得了巨大的成功，展现出了对物理世界的良好理解。同时，扩散策略（diffusion policy）也在机器人任务中取得了巨大的成功。扩散生成模型和扩散策列在技术上都采用同样的去噪过程，使用扩散视频生成模型来帮助构建机器人基础模型是一条有前景的道路。因此我们提出使用联合去噪策略学习模型PAD，将未来图像预测和动作生成融合到一个网络中，从而让视频预测能力帮助机器人动作学习。