专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
数据派THU  ·  【博士论文】利用图结构加速稀疏计算 ·  昨天  
数据派THU  ·  原创|DeepSeek应用范式——AIGC时 ... ·  2 天前  
大数据文摘  ·  Science:AI大模型只是当代“印刷术” ... ·  14 小时前  
软件定义世界(SDX)  ·  2025年DeepSeek技术全景解析 ·  4 天前  
一德菁英汇  ·  【数据点评】政府债券大增,居民融资偏弱 ·  3 天前  
一德菁英汇  ·  【数据点评】政府债券大增,居民融资偏弱 ·  3 天前  
51好读  ›  专栏  ›  数据派THU

【博士论文】基于视觉的手语处理:识别、翻译与生成

数据派THU  · 公众号  · 大数据  · 2025-03-15 17:54

正文

来源:专知
本文约1000字,建议阅读5分钟
本文为你介绍基于视觉的手语处理:识别、翻译与生成,手语编码器的设计等内容。


图片

基于视觉的手语处理:识别、翻译与生成

手语(Sign Languages),也称为手势语言,是聋人和听障人士的主要交流方式。它通过手势(manual parameters)和非手势(non-manual parameters)参数来传递信息。这些视觉语言具有独特的语法规则和词汇,与其对应的口语通常存在显著差异,从而导致聋人与听人之间的双向沟通障碍。在本论文中,我们将详细介绍在手语处理(Sign Language Processing, SLP)各个领域的研究工作,包括手语识别(Recognition)、手语翻译(Translation)和手语生成(Generation),以期缩小这一沟通鸿沟。

手语编码器的设计

我们首先关注手语编码器(Sign Encoder)的设计。以往的手语编码器大多采用单模态(single-modality)方法,主要依赖于RGB视频,但这种方法容易受到视觉冗余(visual redundancy)的影响,如背景干扰和手语者的外观变化等。为提升手语建模的鲁棒性,我们在手语编码器中引入关键点(keypoints)作为额外的模态。关键点能够突出手语表达中的关键人体部位(如手部),并能有效减少视觉冗余。我们通过将关键点表示为一系列热图(heatmaps),不仅降低了关键点估计的噪声,同时也使关键点建模的网络架构能够与视频建模保持一致,无需额外的特殊设计。最终,我们提出了一种双流(two-stream)架构的手语编码器—— 视频-关键点网络(Video-Keypoint Network, VKNet) ,其中视频流和关键点流以跨流连接(inter-stream connections)的方式进行信息交互。

手语识别(Sign Language Recognition, SLR)

VKNet首先应用于 连续手语识别(Continuous Sign Language Recognition, CSLR) ,这一任务是SLP的核心问题。然而,由于数据稀缺(data scarcity),训练这样一个大规模网络极具挑战性。除了采用连接时序分类(Connectionist Temporal Classification, CTC)作为主要目标函数外,我们还提出了一系列辅助训练策略,包括 手语金字塔网络(Sign Pyramid Networks) 与辅助监督(auxiliary supervision)、 自蒸馏(self-distillation) 等,以提升训练效果。最终形成的整体模型称为 VKNet-CSLR 。在此基础上,我们进一步扩展其功能,使其支持 手语翻译(Sign Language Translation, SLT) ,通过附加一个翻译网络(Translation Network)完成端到端的手语视频到文本转换。
我们还研究了SLP中的另一传统任务—— 孤立手语识别(Isolated Sign Language Recognition, ISLR) 。针对手语时长变化较大的问题,我们对VKNet进行拓展,使其能够接受不同时间感受野(temporal receptive field)的视频-关键点对作为输入。此外,我们发现手语中存在 视觉上不可区分的手势(visually indistinguishable signs) ,为此,我们基于自然语言先验(natural language priors)提出了两种训练策略: 语言感知标签平滑(language-aware label smoothing) 跨模态混合(inter-modality mixup) ,以增强模型的区分能力和训练稳定性。

在线手语识别与翻译(Online CSLR & SLT)







请到「今天看啥」查看全文