专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
盈建科  ·  微课堂 | 盈建科2025年2月课程规划 ·  2 天前  
盈建科  ·  微课堂 | 盈建科2025年2月课程规划 ·  2 天前  
格隆汇新股  ·  杭州,靠机器人赢麻了! ·  3 天前  
格隆汇新股  ·  杭州,靠机器人赢麻了! ·  3 天前  
中国交通信息化  ·  大车流量高速公路收费站治超系统构建及应用 ·  3 天前  
中国交通信息化  ·  大车流量高速公路收费站治超系统构建及应用 ·  3 天前  
广西新闻频道  ·  桂林市委书记李楚谈新一年高质量发展目标与计划 ·  3 天前  
51好读  ›  专栏  ›  计算机视觉工坊

测量一切!Measure Anything:使用SAM进行实时的尺寸测量!

计算机视觉工坊  · 公众号  · 科技自媒体  · 2024-12-07 00:00

主要观点总结

本文介绍了一个基于视觉的维度测量框架'Measure Anything',该框架利用'Segment Anything Model (SAM)'对圆形截面的物体进行尺寸测量,涉及机器人抓取应用。文章重点介绍了框架的主要贡献和实验结果。

关键观点总结

关键观点1: 基于视觉的维度测量框架介绍

文章提出了一个名为'Measure Anything'的基于视觉的综合框架,用于对圆形截面的物体进行尺寸测量。该框架通过集成最前沿的分割模型和技术,实现了从图像中准确提取物体的几何信息,如直径、长度和体积。

关键观点2: 应用领域的广泛性

'Measure Anything'框架在多个领域具有广泛的应用潜力,包括精准农业、制造业和机器人操作。在农业中,它可以用于估计植物尺寸以优化资源配置和提高作物产量;在制造业中,它可以确保产品质量和减少浪费;在机器人操作中,它可以帮助实现稳健的物体交互。

关键观点3: 主要技术贡献

文章的主要技术贡献包括:1)开发了一条稳健的多阶段管道,用于准确测量目标物体的直径、长度和体积;2)通过用户友好的演示实现了该管道,该演示可用于各种物体,且仅需最小修改;3)验证了该管道在测量油菜茎秆直径方面的有效性,以及当与关键点检测模型结合用于自动化时的可扩展性;4)将该框架应用于机器人操作的一般任务,利用提取的几何特征确定最佳抓取点。

关键观点4: 实验与结果

文章展示了'Measure Anything'框架在多个实验中的有效性。包括在不同类型的物体上进行的直径、长度和体积测量,以及与机器人抓取相关的实验。实验结果证明了框架的准确性和鲁棒性。


正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:计算机视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:Measure Anything: Real-time, Multi-stage Vision-based Dimensional Measurement using Segment Anything

作者:Yongkyu Lee, Shivam Kumar Panda, Wei Wang, Mohammad Khalid Jawed

机构:University of California

原文链接:https://arxiv.org/abs/2412.03472

1. 导读

我们提出了Measure Anything,这是一个基于视觉的综合框架,利用Segment Anything模型(SAM)对圆形截面的物体进行尺寸测量。我们的方法估计了具有不同曲率的杆状几何形状和具有恒定骨架斜率的一般物体的关键几何特征,包括直径、长度和体积。该框架集成了分割、掩模处理、骨架构建和2D-3D变换,打包在一个用户友好的界面中。我们通过估计从北达科他州农田收集的油菜茎的直径来验证我们的框架,这些茎细而不均匀,对现有方法提出了挑战。测量它的直径是至关重要的,因为它是一种与油菜作物的健康和产量相关的表型性状。该应用还展示了测量任何东西的潜力,其中集成智能模型(如关键点检测)扩展了其可扩展性,使高通量应用的测量过程完全自动化。此外,我们展示了它在机器人抓取方面的多功能性,利用提取的几何特征来确定最佳抓取点。

2. 引言

机器感知技术的进步使机器能够更好地理解和与其环境进行交互,从而使它们能够以更高的一致性、效率和可扩展性执行复杂且劳动密集型的任务。在这些任务中,基于视觉的维度测量在多个领域发挥着关键作用:在精准农业中,准确测量植物尺寸能够优化资源配置,提高作物产量;在制造业中,通过精确的尺寸验证确保产品质量,减少浪费和缺陷;在机器人操作中,它能够在装配、包装和材料搬运等任务中实现稳健的物体交互。尽管基于视觉的维度测量意义重大,但它仍面临诸多挑战,包括在充满复杂几何形状和遮挡物的杂乱环境中识别目标物体,以及实现系统化的方法从物体轮廓中提取准确测量值。

“Measure Anything”通过集成最先进的分割基础模型“Segment Anything Model (SAM)”(具有卓越的零样本泛化能力)来解决第一个挑战。“Measure Anything”继承了SAM的可提示特征,并探索了两种获取指导物体选择的点提示的方法。第一种是交互式方法,用户直接在感兴趣物体上放置正或负的点提示。第二种是自动化方法,其中关键点检测模型替代了手动输入,使大规模场景下的操作具有高可扩展性和高效性。除了分割之外,“Measure Anything”还采用了一条系统化的管道,从物体掩码中提取维度测量值。该管道包括顺序任务,如掩码处理、骨架构建、线段识别和二维到三维的转换。根据物体的几何形状应用定制的骨架构建方法,能够在一次遍历中准确计算直径、长度和体积。

本文重点关注两个主要应用:精准农业和机器人抓取。在精准农业方面,我们解决了估计茎秆直径的任务,这是提供作物健康状况、环境响应、遗传因素和整体产量潜力等宝贵见解的关键表型特征。在机器人抓取方面,我们展示了从“Measure Anything”获得的维度测量值可以应用于识别最佳抓取点等一般操作任务。这两个应用都涉及将目标物体放置在高度杂乱的环境中,这对准确感知提出了重大挑战。除了这些主要用例之外,该框架的模块化设计允许通过最小修改扩展到其他应用,如制造业中的质量检测或结构评估中的裂缝宽度测量。

3. 效果展示

在Clubs数据集的图像上演示了机器人抓取选择。“Measure Anything”框架从杂乱环境中隔离出感兴趣物体,处理二值掩码,并执行骨架构建以及线段和深度识别,如前文所述。然后计算每个线段的稳定性分数,并在图中可视化了得分最高的前七个线段。值得注意的是,凹表面的线段获得了最高的稳定性分数,其次是离重心(CoG)最近的线段,这与直观预期相符。

从不同摄像机位置观察到的物体的长度和体积测量值的变化。探讨了使用所提框架在不同相机位置获得的长度和体积测量的变异性。分析的视频包含从侧面捕获的约90帧酒瓶图像,包括滚转角和与物体的距离变化。所有帧的长度和体积测量值被绘制出来,并与手动测量的真实值(分别为29.845厘米和943毫升)进行比较。结果表明,大多数测量值保持一致,在真实值的±10%范围内变化。值得注意的是,深度数据的质量对于准确测量至关重要,异常值主要源于相机运动导致的模糊图像产生的略微不准确的深度图。

4. 主要贡献

本文的主要贡献如下:

1)开发了一条稳健的多阶段管道,集成了SAM和下游操作,用于准确测量具有圆形横截面的目标物体的直径、长度和体积。

2)通过用户友好的演示实现了该管道,该演示可用于各种物体,且仅需最小修改。 推荐课程: 机械臂抓取从入门到实战课程(理论+源码)

3)验证了该管道在测量油菜茎秆直径方面的有效性,以及当与关键点检测模型结合用于自动化时展示了其可扩展性。

4)将该框架应用于一般操作任务,其中利用框架提取的几何特征在稳定性模型中确定最佳抓取坐标。

5. 方法

图1展示了“Measure Anything”框架的概览。通过将前沿的分割能力与稳健的几何处理相结合,“Measure Anything”为基于视觉的维度测量挑战提供了一个全面的解决方案。

6. 实验结果

在从立体深度相机捕获的视频序列中选择一帧后,图3-(a)展示了交互式方法,用户可以通过交互式界面放置任意数量的正或负点提示。图3-(b)展示了自动化方法,该方法使用关键点检测模型的结果生成点提示。在包含256张图像的数据集上训练的关键点检测模型(YOLO v8)的平均mAP-95分数为83.5%。自动化方法的一个关键优势是选择性干预功能,它允许用户在分割结果不准确时校正关键点标签。通过添加额外的正或负提示来加强这种校正。

7. 总结 & 未来工作

本文介绍了一个基于视觉的维度测量框架,该框架利用“Segment Anything”模型准确生成物体掩码。所提出的管道展示了在各种物体(包括杆状和一般几何形状的物体)上获得精确直径、长度和体积测量的能力。通过沿物体不同位置进行连续直径测量,该框架还进一步证明了其适用于其他任务,如识别机器人操作中的理想抓取点。

未来的工作将侧重于解决当前框架的局限性。例如,分割模型容易受到重叠物体遮挡引起的不准确性的影响,这可能导致维度测量错误。我们旨在通过引入形状先验来处理此类遮挡,从而增强我们方法的鲁棒性。此外,当前管道假设物体具有圆形横截面;未来的迭代将集成能够识别物体类型的智能模型,为具有非圆形横截面的物体量身定制策略。我们还计划将“Measure Anything”与深度学习抓取模型相结合,以比较其性能与当前最先进技术。最后,我们计划探索语言模型的集成,以启用在复杂场景中获取特定物体维度测量值等多样化任务。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球







请到「今天看啥」查看全文