专栏名称: 3D视觉工坊

1、OpenCV的技术传播； 2、3D点云与重建技术； 3、Vslam技术； 4、深度学习； 5、技术干货分享。

CoDIT'24 | 超越DRL！SD-DRL：将安全约束融合在抓取任务中！

3D视觉工坊 · 公众号 · · 2024-08-24 00:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d008，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「 3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0.这篇文章干了啥？

这篇文章提出了一种新的深度强化学习（DRL）框架——安全驱动 DRL（SD-DRL），旨在将安全性融入到机器人任务中。通过在奖励函数中整合安全约束，如碰撞和速度限制，SD-DRL 能够在处理有障碍物和无障碍物的抓取任务时有效识别和避免潜在危险。研究包括在模拟环境中对 DRL 和 SD-DRL 进行训练和测试，并在实际环境中验证其性能和安全性。通过计算无故障时间（MTTF）、故障概率（PFD）和风险降低因子（RRF），评估了系统的功能安全，并确认 SD-DRL 相较于传统 DRL 在安全性方面有显著改进。结果表明，SD-DRL 在任务成功率和安全驱动成功率上优于传统 DRL，但在物理参数的适应上存在一些差异。未来的工作将探索使用其他物理引擎和物理信息神经网络，以进一步提升 SD-DRL 的性能，并开展动态人机碰撞避免的研究，推动安全的人机协作。下面一起来阅读一下这项工作~

1. 论文信息

论文题目：Safety-Driven Deep Reinforcement Learning Framework for Cobots: A Sim2Real Approach

作者：Ammar N. Abbas,Shakra Mehak等

作者机构：Data Science Software Competence Center Hagenberg, Austria等

论文链接：https://arxiv.org/pdf/2408.09494

2. 摘要

本研究提出了一种新颖的方法，将安全约束纳入深度强化学习（DRL）的机器人模拟训练中。该框架将ISO 10218标准规定的速度约束等安全要求的特定部分，直接集成到DRL模型中，使其成为机器人学习算法的一部分。研究通过将DRL模型置于包括有无障碍物回避的抓取任务等多种场景中，评估了这些安全约束的有效性。验证过程包括对DRL模型在潜在危险下的响应和合规性的全面模拟测试。此外，系统性能通过功能安全标准IEC 61508进行评估，以确定安全完整性水平。研究表明，机器人系统的安全性能显著提高。所提出的DRL模型能够预测和减轻危险，同时保持操作效率。该研究在配备安全传感器的协作机器人臂的测试平台上进行了验证，并使用了诸如安全违规的平均次数、障碍物回避和成功抓取次数等指标进行评估。与传统方法相比，所提出的方法在模拟测试场景中平均成功率提高了16.5%，在测试平台上无安全违规情况下提高了2.5%。项目代码库可在 https://github.com/ammarn-abbas/sim2real-ur-gym-gazebo 获得。

3. 效果展示

(a)仿真抓取、(b)试验台抓取、(c)试验台避障抓取策略测试。

4. 主要贡献

安全驱动的DRL框架 ：提出了一个新的框架——安全驱动DRL（Safety-Driven DRL），该框架通过将安全合规性集成到奖励函数中，有效地识别和避免潜在的危险。这一框架在有障碍物和无障碍物的物体抓取任务中表现出色。

现实世界的验证 ：通过在真实环境中部署和测试所训练的模型，验证了安全驱动DRL在操作效率和功能安全性方面的有效性。这表明所提出的框架不仅在模拟环境中表现良好，在实际应用中也能够维持高效的操作性能和安全性。

功能安全性评估 ：采用IEC 61508标准对系统进行了功能安全性验证，确定了DRL系统的安全完整性等级（SILs）。这为确保在安全关键环境中的合规性提供了重要依据，突出显示了SD-DRL在提升功能安全性方面的优势。

改进的安全性指标 ：研究显示，相比于传统DRL，SD-DRL在保持操作效率的同时，显著提升了安全性。这表明，通过引入额外的安全措施，SD-DRL能够更有效地处理物理参数和碰撞情况，从而提高了系统的整体安全性。

模拟器参数优化 ：强调了将模拟器参数调整为与现实世界条件匹配的重要性，为未来的研究提供了指导。研究发现，物理引擎的选择对模拟结果有显著影响，未来将探讨其他物理引擎以进一步优化性能。

未来工作的方向 ：提出了未来研究方向，包括预测和避免违规行为，以及动态人机碰撞避免的案例研究。这些研究将有助于进一步推进安全的人机协作和改善Sim2Real的转化效果。

5. 基本原理是啥？

安全驱动的深度强化学习（Safety-Driven DRL）的基本原理包括以下几个关键方面：

安全合规的奖励函数 ：

安全驱动的设计 ：在传统的深度强化学习（DRL）算法中，奖励函数通常仅关注任务完成的成功与否。安全驱动的DRL则在奖励函数中加入了安全合规性因素，确保在执行任务时遵循安全约束。
安全约束的实现 ：例如，通过惩罚机器人与工作空间的碰撞或速度超出安全限制等，确保在控制策略中强制实施安全标准。

模型训练与验证 ：

模拟环境训练 ：在安全驱动的DRL框架下，首先在模拟环境中训练模型。这些模拟环境通过引入扰动和障碍物来测试和验证模型的安全性和任务执行效率。
实际环境验证 ：将训练好的模型迁移到实际环境中进行验证，确保模型能够在真实世界中有效地执行任务并维持安全性。

功能安全性评估 ：

安全完整性等级（SIL） ：使用IEC 61508等标准对系统进行功能安全性评估。计算关键指标如平均故障时间（MTTF）、故障概率（PFD）和风险减少因子（RRF），以确定系统的安全完整性等级。
合规性检查 ：确保系统在安全关键环境中的合规性，评估和验证系统在各种情况下的安全表现。

物理引擎的选择 ：

模拟与现实的匹配 ：研究指出，物理引擎的选择（如Gazebo中的ODE引擎）会影响模拟结果和实际环境中的表现。未来的工作包括测试其他物理引擎（如Bullet）以改进模拟精度和现实世界的一致性。

持续改进与优化 ：

模拟器参数优化 ：为了提高模拟结果与现实世界的一致性，需要对模拟器参数进行调整和优化。
动态和人机协作 ：未来的研究将包括动态人机碰撞避免和其他安全驱动的应用案例，以进一步推动安全的人机协作和Sim2Real的转换效果。

6. 实验结果

模拟训练与测试结果 ：

在实际环境中进行了 20 次测试，涉及随机的立方体位置和障碍物位置。
常规场景 ：在模拟中进行了 450 次测试。
静态障碍场景 ：在模拟中进行了 1300 次测试。
常规场景 ：在没有障碍物的情况下，DRL算法经过约 2.2 × 10^6 步训练（DRL 约 8.3 小时，SD-DRL 约 9 小时）。
静态障碍场景 ：在有静态障碍物的情况下，训练进行了约 6.5 × 10^6 步。
训练过程 ：
测试次数 ：
实际环境测试 ：

碰撞和速度违例 ：

违例情况 ：SD-DRL 在测试过程中表现出比传统 DRL 方法更少的违例。然而，在涉及物体碰撞和速度违例的场景中，SD-DRL 的违例发生率较高。这可能是因为 SD-DRL 进行了更多成功的尝试，导致更多的物体互动。
物理参数影响 ：研究表明，物理参数如速度违例或碰撞中的力对于传统 DRL 的表现更为有利。这表明，需要对模拟中的物理参数进行微调，以开发适合实际应用的安全驱动 DRL 奖励函数。推荐学习：机械臂抓取从入门到实战课程（理论+源码）

速度特征 ：

碰撞中的速度特征 ：SD-DRL 在碰撞中的速度过渡较为平滑，表明它能够预测并调整碰撞，以减少冲击力。相比之下，传统 DRL 在碰撞时速度变化突然或没有变化，可能导致潜在的损害。

成功率与安全驱动成功率 ：

成功率 ：成功率测量了强化学习代理完成任务目标的频率。
安全驱动成功率 ：考虑了安全约束的成功率，SD-DRL 在这些指标上优于传统 DRL。
表格数据 ：详细的成功率和安全驱动成功率数据见表 III，SD-DRL 显示了在各种测试环境下的一致性和更高的成功率。

总结来说，实验结果表明，SD-DRL 在提高安全性方面表现优于传统 DRL，并且在保持任务效率方面具有良好的表现。SD-DRL 通过在奖励函数中引入安全约束，实现了更安全和有效的机器人操作。

7. 总结 & 未来工作

本研究展示了如何将安全合规性成功地集成到DRL算法的奖励函数中，并提出了一个新的框架，称为安全驱动DRL（Safety-Driven DRL）。该框架旨在识别和避免潜在的危险，主要涵盖两个场景：有障碍物和无障碍物的物体抓取。通过模拟，训练了一个模型，经过验证并部署到现实世界的设置中，测试了算法的操作效率。此外，使用IEC 61508验证了其功能安全性。评估结果显示，所提出的SD-DRL在保持操作效率的同时，相较于传统DRL有了显著改进。尽管一些与物理参数相关的SD-DRL结果未能满足现实世界的结果，这是由于Gazebo中物理引擎的选择所致，研究计划进一步扩展，测试其他物理引擎，如Bullet。此外，未来的研究将涉及使用物理信息神经网络，以提高SD-DRL在安全关键机器人系统中的性能，以适应Sim2Real方法。验证过程包括确定DRL系统的安全完整性等级（SILs），这对确保在安全关键环境中的合规性至关重要。然而，由于DRL的自适应特性，保持一致的安全标准面临挑战，需要定期评估安全性能。尽管如此，研究总结认为，SD-DRL不仅优化了任务执行，而且显著提升了机器人系统的功能安全，强调了调整模拟器参数以匹配现实世界条件的重要性，为未来研究提供了指导。未来的工作将涉及预测和避免违规行为，并包括与动态人机碰撞避免相关的案例研究，推进安全的人机协作。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等