专栏名称: 映维网Nweon

映维网是一个始于2014年10月的增强现实（AR）、虚拟现实（VR）产业信息数据平台，专注于AR/VR产业发展及市场教育培养，致力于引导全球AR/VR产业发展，服务于全球各地的AR/VR创业者。

开罗美国大学提出基于骨架的动态手势识别框架

映维网Nweon · 公众号 · · 2024-12-26 13:03

正文

为动态手势识别提供了可扩展和高效的解决方案

（ 映维网Nweon 2024年12月26日 ）手势识别（HGR）能够在各种现实环境中实现直观的人机交互。然而，现有框架往往难以满足实际HGR应用程序所必需的实时需求。

在一项研究中，开罗美国大学提出了一种基于骨架的动态HGR框架，通过将动态手势识别简化为静态图像分类任务，这有效地降低了硬件和计算需求。

所述框架利用数据级融合技术将动态手势的3D骨骼数据编码为静态RGB时空图像。它结合了一个专门的端到端集成调谐器（e2eET）Multi-Stream CNN架构，优化数据表示之间的语义连接，同时最大限度地减少计算需求。

对于5个基准数据集（SHREC’17、DHG-14/28、FPHA、LMDHG和CNR）的测试，框架显示出了与最先进技术相媲美的性能。

团队指出，框架的成功部署强调了其在虚拟现实/增强现实和环境智能等领域增强实时应用的潜力，为动态手势识别提供了可扩展和高效的解决方案。

手势识别（HGR）在感知计算中起着至关重要的作用，它使计算设备能够使用数学算法捕获和理解人类的手势。HGR有潜力促进人机交互、虚拟现实/增强现实/混合现实以及环境智能等领域的高级应用。

然而，由于人手的复杂形态，手势识别面临着独特的挑战，因为人手可以采取多种姿势，并且个体之间的物理特征各不相同。另外，HGR应用通常在具有挑战性的现实环境中运行，其特征包括遮挡、背景变化、噪点输入以及需要实时处理。

HGR框架必须成功地应对相关形态和环境方面的挑战，以满足实际应用中开发者和最终用户的需求。需求包括易用性、计算需求、硬件需求、响应时间和准确性。

手势本质上是动态的，姿势和位置随着时间的推移而变化，这为准确识别引入了时间维度。所以，必须解释一系列手部姿势以理解手势的上下文含义。为了解决相关挑战并满足性能要求，业界已经开发了各种用于动态手势识别的框架，而每个框架都使用不同的输入方式和网络架构组合。

特定HGR框架利用“Multi-Stream网络”，将具有不同输入通道的多个子网络结合起来，并将它们的输出融合到整个网络的手势识别输出中。另一方面，“多模态框架”结合了多种输入模式，包括RGB、深度、骨架、光流和分割，为网络提供更多关于手势的语义信息。所述输入模态可在Multi-Stream的子网络中单独处理，或作为““Single-Stream网络”的统一输入组合。

无论是Single-Stream还是Multi-Stream，HGR框架都采用了各种（组合）数据驱动的神经网络架构，如GC、注意力网络和1D/2D/3D CNN。另外，CNN处理空间信息的效果通常与RNN处理时间信息的效果相结合，以处理动态手势中包含的时空信息。

然而，HGR领域研究的最终目的是为最终用户开发实际的HGR应用。所以，大多数开发的框架通常优先考虑最大限度地提高性能，而这需要额外的、专门的硬件和增加的计算复杂性。相关框架同时需要大量的训练数据和数据扩充来获得最大的性能。

上述需求导致HGR应用成本更高，用户友好性降低，推理时间更长。另外，大多数已开发的框架都没有集成到应用中以展示它们的实际效用。最佳的HGR框架及其应用的目标是最小化计算成本，消除对额外硬件的需求，并实时操作，同时保持与最先进框架相当的手势识别精度。

近年来，为了减少计算成本，专门使用骨架模式已经变得很普遍。另外，图像分类领域已经开发了一套可在资源受限设备实现实时性能的框架。

所以，成功地将动态手势识别任务转换为普通图像分类任务的基骨架HGR框架将接近于最优。开罗美国大学提出了一种基于骨架的动态手势识别框架，它将数据级融合技术与专门的CNN架构相结合，能够将动态手势的三维骨架数据有效编码为RGB图像，并采用端到端集成调谐器（e2eET）Multi-Stream CNN架构进行后续图像分类。

研究人员表示，所述框架支撑了一个稳健的、轻量级的、实时的HGR应用。

相关论文 ：Real-Time Hand Gesture Recognition: Integrating Skeleton-Based Data Fusion and Multi-Stream CNN

https://paper.nweon.com/16126

总的来说，研究人员探讨了现有手势识别（HGR）框架在现实场景中的实时应用。为了解决相关框架的大量硬件和计算需求所带来的限制，他们引入了一个稳健的基骨架框架。它有效地将动态手势识别转换为静态图像分类，同时保留了关键的语义细节。

开罗美国大学提出基于骨架的动态手势识别框架

正文

请到「今天看啥」查看全文