点击下方
卡片
,关注
「计算机视觉工坊」
公众号
选择
星标
,干货第一时间送达
作者:Jian Shen | 编辑:计算机视觉工坊
添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群
扫描下方二维码,加入
3D视觉知识星球
,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门视频课程(星球成员免费学习)
、
最新顶会论文
、
计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
1.这篇文章干了啥?
这篇文章提出了一种名为Focal-CVAE的框架,旨在解决双手操作中遇到的视觉感知缺陷问题,并提高操作任务的效率。该框架通过使用混合焦点注意力和显著性关注来改善环境特征提取和动作序列数据处理,以提高算法的性能和适应性。研究结果表明,Focal-CVAE在模拟和真实环境中的双手操作任务中取得了显著的改进,表明该方法具有实际应用的潜力。未来研究将进一步优化人机协作,提高算法的用户友好性。
2. 摘要
双臂机器人在智能制造中具有巨大的应用前景,因为它们在部署先进智能算法时具有类似人类的结构。然而,在图像特征受到各种条件影响(如异常光照、遮挡和阴影等)的环境中,先前的视觉运动策略存在感知缺陷。为了解决这一挑战,本文提出了基于Focal CVAE框架的RGB-D多模态数据融合。在这项研究中,设计了一个混合的焦点注意模块,用于融合包含颜色特征的RGB图像和包含3D形状和结构信息的深度图像。该模块突出显示突出的局部特征,并通过交叉注意力关注RGB和深度的相关性。提出了一个显著性注意力模块来提高计算效率,该模块应用于框架的编码器和解码器中。我们通过大量模拟和实验展示了所提方法的有效性。结果表明,在四项真实任务中,双手操纵的性能都得到了显著提高,且计算成本更低。此外,通过在不同场景下进行的实验验证了其鲁棒性,在存在感知缺陷问题的情况下证明了该方法的可行性。
3. 效果展示
下面是我们的模型在真实机器人实验中展示的样本帧。
4. 主要贡献
我们提出了一种有效的基于注意力的多模态融合网络,分别提取RGB和深度的特征,然后使用高效的交叉注意力模块融合环境信息。
我们提出了一种基于注意力分数的高效稀疏注意力模块,应用于算法中的编码器和解码器。在注意系数排名期间,它突出了运动轨迹的关键帧,从而降低了计算成本。
通过模拟实验和消融研究,我们证明了深度和RGB的融合在遇到视觉感知缺陷时可以有效提高机器人的性能。此外,我们通过四个真实世界任务分别收集了50个专家轨迹,通过这些轨迹验证了我们算法在现实世界中的鲁棒性。
5. 基本原理是啥?
这篇文章提出了一种名为Focal-CVAE的框架,旨在解决机器人在现实世界场景中进行操作任务时遇到的感知不足问题。该框架包括一个基于显著性注意力的编码器和解码器、用于环境视觉信息特征提取的混合焦点注意力模块(MFA)以及用于提取本体感知特征的线性投影层。Focal-CVAE利用从MFA和线性投影中获得的视觉和本体感知信息作为条件输入,用于CVAE(Conditional Variational Auto Encoder),从而使机器人更好地理解环境中的动态行为,从而促进了每只手臂之间的协作操作。此外,文章还介绍了一种用于优化动作序列的计算的基于显著性注意力的VAE(Variational Auto Encoder),以及用于改善操纵任务性能的混合焦点注意力模块。通过这些方法,文章试图提高机器人在各种场景下的操作性能和鲁棒性。
6. 实验结果
这项研究提出了一种名为Focal-CVAE的框架,旨在解决实际情况中机器人操作任务中遇到的感知缺陷问题。该框架包括基于显著性关注的编码器和解码器,用于环境视觉信息的特征提取的混合焦点注意模块(MFA),以及用于提取本体感知特征的线性投影层。实验主要分为模拟环境和真实环境两部分。
实验设置:在模拟环境中,使用两个双臂操作任务:转移方块和插入。在真实环境中,设计了四个双臂操作任务:转移碗,清洁桌子,折叠抹布和存放物品。实验硬件配置包括Ubuntu 20.04操作系统,Pytorch框架,Intel(R) Xeon(R) Platinum 8175M CPU @ 2.50GHz和NVIDIA GeForce RTX 3060 GPU。
性能评估:在模拟环境中,进行了转移方块和插入任务的实验。结果显示,即使在缺乏光照的情况下,Focal-CVAE仍能保持较高的成功率,而其他方法(ACT)的成功率显著降低。在真实环境中,通过远程操作系统进行了四个任务的实验,并记录了不同光照条件下的成功率。结果表明,在昏暗的光线下,Focal-CVAE相对于ACT表现出更强的稳健性和准确性。
消融研究:对模拟环境中两个基本任务进行了消融实验,比较了不同条件下任务子阶段的成功率。结果显示,通过引入MFA和SAT模块,Focal-CVAE能够实现更好的数据融合,从而提高任务成功率。特别是在具有挑战性的任务中,Focal-CVAE相对于基线实现了显著的成功率提升。
7. 总结 & 未来工作
在这项工作中,我们提出了Focal-CVAE,这是一个针对双手操作的模仿学习框架。它旨在解决复杂场景下的视觉感知缺陷问题,并提高操作任务的效率。通过使用混合焦点注意力,RGB和深度特征可以更有效地融合,为操作提供更丰富的环境信息,并进一步增强算法的适应性。此外,显著性关注已集成到编码器和解码器中,以简化对长序列数据的计算,从而进一步提高计算效率,并确保算法的实时性能。在未来的研究中,为了进一步优化人机协作,重点将放在用户友好的交互界面上,例如增强现实(AR)和虚拟现实(VR),这些界面为操作者提供视觉反馈,便于非专业用户使用。
8.参考
[1] Efficient Bi-manipulation using RGBD Multi-model Fusion based on Attention Mechanism
计算机视觉工坊交流群
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
大模型
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
2D计算机视觉:
图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
大模型:
NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等
工业3D视觉:
相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:
视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:
深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。
三维重建:
3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:
四旋翼建模、无人机飞控等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地
、
最新论文
、
3D视觉最新产品
、
3D视觉行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如3D点云+清华+小草莓)
, 拉你入群。
▲长按扫码添加助理
3D视觉学习知识星球
3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括:
星球视频课程近20门(价值超6000)
、
项目对接
、
3D视觉学习路线总结
、
最新顶会论文&代码
、
3D视觉行业最新模组
、
3D视觉优质源码汇总
、
书籍推荐
、
编程基础&学习工具
、
实战项目
&作业
、
求职招聘&面经&面试题
等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。