English
当前您的位置: 当前位置: 首页 > 新闻动态 > 正文

我院殷亚凤老师课题组在手语动作识别领域取得新进展

发布日期:2024-04-10 浏览量:

我院殷亚凤老师课题组近期在手语动作识别领域取得新进展:提出了一种基于图的手语视频处理架构,将手语序列表示为图,并通过图动态捕捉帧内及帧间的跨区域手语特征,提升手语识别的性能,旨在为聋人提供更好的沟通和交流服务。

SignGraph: A Sign Sequence is Worth Graphs of Nodes. 近年来,手语方面的研究逐渐取得了成功。但是,现如今在手语领域广泛采用的基于卷积神经网络的骨干网络通常是从其他计算机视觉任务中迁移而来的,往往难以有效地捕捉手语特征。这是因为这些计算机视觉任务(如物体识别),通常关注物体的轮廓和纹理,因而采用卷积神经网络将视频视为网格进行处理。而在手语任务中,为了识别手语序列,需要关注一个帧内不同区域之间的相关性以及相邻帧之间不同区域之间的交互,但基于卷积神经网络的骨干网络难以有效捕捉跨区域的特征。为此,该研究工作提出将手语序列表示为图,并设计了一个简单而有效的基于图的手语处理架构SignGraph,以在图级别提取跨区域特征。SignGraph包括两个基本模块:局部手语图模块用于学习帧内跨区域特征的相关性,时间手语图模块用于跟踪相邻帧之间跨区域特征之间的交互。此外,基于局部手语图和时间手语图,该工作通过多尺度方式构建模型,以确保节点的表示能够捕捉不同粒度的跨区域特征。最后,该工作在当前公开的手语数据集上进行了大量的实验,证明了SignGraph的优越性:与SOTA模型相比,SignGraph具有非常有竞争力的性能,并且不需要使用任何额外的线索。

该项研究工作已被The IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR 2024)(CCF-A类会议)录用。欢迎对该研究工作感兴趣的学术同行来信交流:yafeng@nju.edu.cn.

苏州校区

地址:苏州市太湖大道 1520 号

邮编:215163    邮箱:ise@nju.edu.cn

版权所有:南京大学智能软件与工程学院Copyright © All Rights Reserverd

网站制作:南京大学智能软件与工程学院