专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
宝玉xp  ·  谢谢支持,来自我昨天写的《AI ... ·  昨天  
爱可可-爱生活  ·  【DeepSeek:比ChatGPT危险10 ... ·  昨天  
黄建同学  ·  强化学习RL在DeepSeek的训练过程中非 ... ·  3 天前  
爱可可-爱生活  ·  【[390星]AI-Bootcamp:一个自 ... ·  4 天前  
51好读  ›  专栏  ›  新智元

Meta公布黑科技:戴上腕带即可隔空打字,引领神经接口AR革命

新智元  · 公众号  · AI  · 2024-12-13 11:16

主要观点总结

新智元报道,Meta公司发布了开源表面肌电图(sEMG)数据集,包括emg2qwerty和emg2pose两个数据集。这两个数据集可用于姿态估计和表面类型识别,推动神经运动接口发展。通过佩戴EMG腕带,人们可以实现隔空打字等先进的人机交互方式。其中emg2qwerty数据集解决了通过表面肌电图数据检测用户按键的问题,而emg2pose数据集则解决了肌电信号与手部运动之间的映射问题。这两个数据集在医疗康复、人机交互、虚拟现实等领域具有广泛应用前景。

关键观点总结

关键观点1: Meta公司发布的开源表面肌电图(sEMG)数据集。

包括emg2qwerty和emg2pose两个数据集,推动神经运动接口发展。

关键观点2: EMG腕带的应用。

佩戴EMG腕带可以实现隔空打字等先进的人机交互方式。

关键观点3: emg2qwerty数据集的特点及意义。

解决了通过表面肌电图数据检测用户按键的问题,包含从两只手腕获取的高分辨率sEMG信号与QWERTY键盘的真实按键同步的数据。该数据集的出现使得通过肌电图预测用户输入变得更为准确,是文本模型可用的关键阈值。

关键观点4: emg2pose数据集的特点及意义。

解决了肌电信号与手部运动之间的映射问题,对于人机交互、康复工程和虚拟现实等领域具有重要意义。该数据集具有高频率的表面肌电图记录与精确的动作捕捉数据相结合的特点,提供了对手部细微运动的深入洞察。


正文



新智元报道

编辑:peter东 乔杨
【新智元导读】 只需要在手腕上戴一个腕带,就能够实现隔空打字。 Meta近期推出的开源表面肌电图(sEMG)数据集,可进行姿态估计和表面类型识别,推动神经运动接口发展。

每一个新的计算平台都带来了我们与设备互动方式的范式转变。 鼠标的发明为今天主导PC世界的图形用户界面(GUIs)铺平了道路,而智能手机直到触摸屏的出现才开始真正获得影响力。

同样的规则也适用于可穿戴设备和AR,想象一下,在晨跑时只需轻轻一触指尖就能拍照,或者用几乎察觉不到的手部动作来导航菜单。

AR时代革新人机交互

在Connect 2024大会上,Meta展示了EMG腕带与Orion增强现实眼镜的产品原型。 这两大神器叠加在一起,科幻电影中才会出现的「隔空打字」场景或许即将实现。

Orion AR眼镜
meta推出的肌电图腕带

戴上这样一个腕带,你让双手舒适地放在身侧,同时进行鼠标的滑动、点击和滚动等操作,无缝控制数字内容。

未来还将有许多其他应用场景,包括在增强现实中操纵物体,或者像在键盘上打字一样——甚至更快,快速输入完整信息,几乎无需费力。

在近日的NeurIPS 2024 的「 数据集 和基 」子会场中,Meta发布了两个数据集——emg2qwerty 和 emg2pose,展示在硬件层面仅仅依靠腕带的情况下,如何产生比细微手势更丰富的输入数据集。

原文地址:https://arxiv.org/abs/2410.20081

原文地址:https://arxiv.org/abs/2412.02725v1

用于隔空打字的数据集emg2qwerty

表面肌电图(sEMG)是在皮肤表面测量由肌肉产生的电势,它能够检测到由单个运动神经元引起的活动,同时是非侵入性的。

具体来说,对于单个的脊髓运动神经元,其细胞体位于脊髓中,向肌纤维中投射一条长轴突,每条肌纤维只被一个运动神经元支配。

脊髓运动 神经元放电时,就会触发它支配的所有肌纤维收缩,同时放大了来自神经元的电脉冲。正是这些来自肌纤维的电信号,可被皮肤上的sEMG传感器检测到。

用于数据收集的表面肌电图研究设备(sEMG-RD)及其腕围电极放置的示意图

基于腕带的打字系统旨在解决可穿戴设备的文本输入问题,实现无需物理键盘的触摸打字。

仅使用手腕上检测到的肌肉电信号,系统将可自动解码并对应至虚拟现实中投影的计算机键盘按键。

这意味着,用户未来可以在没有物理键盘的情况下,无论在桌子上、腿上还是厨房桌子上打字,都能如同在实际键盘上一样输入。

一个针对提示「 the quick brown fox 」的表面肌电图(sEMG)记录示例,显示左右腕带上32通道的表面肌电图信号和按键时间;垂直线表示按键开始,每个电极通道的信号经过高通滤波

emg2qwerty数据集包括从两只手腕获取的高分辨率sEMG 信号,与QWERTY 键盘的真实按键同步。该数据集总计包含108名参与者完成的、涵盖广泛单字和句子打字提示的346小时记录,共计超过520万次按键。

emg2qwerty数据集分割的可视化。每一列代表一个用户,每一个方块代表一个会话,方块的高度表示其持续时间

如何仅通过表面肌电图数据中检测到用户按了哪个键呢?为了解决这个核心问题,Meta开发了受自动语音识别(ASR)领域启发的方法。

该方法同样模拟了给定连续多通道时间序列下,预测离散字符输出序列的任务。 为了给emg2qwerty构建强大的基线,Meta尝试了新颖的网络架构、不同的训练损失以及语言模型的使用,始终关注表面肌电图数据的独特领域特征要求。

研究发现,在100个用户的规模上,尽管生理、解剖、行为、带宽大小和传感器放置存在差异,用户间的泛化仍然可出现。

当使用大约半小时的个体用户打字数据来个性化模型时,性能的进一步提升随之而来。通过整合语言模型来优化结果,可将字符错误率降至 10%以下——这个值被认为是一个使文本模型可用的关键阈值。

随着数据集的增加,类似语言模型中的Scaling Law将会生效,从而使得对用户输入的预测更加准确。

emg2pose姿态估计: 可完全预测用户的手部配置

另一个名为emg2pose的数据集,旨在解决肌电信号与手部运动之间的映射问题,这对于人机交互、康复工程和虚拟现实等领域具有重要意义。

该数据集包含来自193名参与者的370小时sEMG和手部姿态数据,从29个不同的行为组中采集,包括拳头、从一数到五等众多动作。

数据集包含25253个HDF5文件,合计达到431GB。每个文件包含时间对齐的2kHz表面肌电图数据和单手在单一阶段的关节角度。







请到「今天看啥」查看全文