[发明专利]一种手模型感知的孤立词手语识别方法有效
申请号: | 202110016997.X | 申请日: | 2021-01-07 |
公开(公告)号: | CN112668543B | 公开(公告)日: | 2022-07-15 |
发明(设计)人: | 李厚强;周文罡;胡鹤臻 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/764;G06V10/774;G06V10/82;G06K9/62;G06N3/08;G06N3/04 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;韩珂 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 感知 孤立 手语 识别 方法 | ||
1.一种手模型感知的孤立词手语识别方法,其特征在于,包括:
对于从手语视频中截取的手序列,通过视觉编码器转换为包含手部状态的隐语义表征;之后,通过手模型感知解码器以模型感知的方式工作,将包含手部状态的隐语义表征映射为三维手网格,并得到每个手关节点位置;最后,通过推理模块对三维手网格进行优化,获得每个手关节点的时空表征,再进行分类,从而识别出手序列所对应的词汇;
将视觉编码器、手模型感知解码器及推理模块作为一个识别模型,在训练阶段,识别模型的总损失函数表示为:
其中,表示推理模块的交叉熵分类损失,和表示手模型感知解码器得到的手关节点位置的空间和时间一致性损失,是视觉编码器得到的隐语义表征中手部状态的正则化损失;λspa、λtem及λreg分别为相应损失的权重因子。
2.根据权利要求1所述的一种手模型感知的孤立词手语识别方法,其特征在于,所述视觉编码器的输入为从手语视频中截取的手序列通过视觉编码器将手序列V′转换为隐语义表征,表示为:
其中,E(·)表示视觉编码器,vt表示t时刻的手图像,T为手序列长度;θ与β表示手部状态,分别为手姿态和形状的表征;cr、co与cs表示相机参数,分别用于指示旋转、平移和缩放。
3.根据权利要求1所述的一种手模型感知的孤立词手语识别方法,其特征在于,
所述手模型感知解码器是一个统计模块,预先使用手部扫描数据学习,映射过程表示为:
M(β,θ)=W(T(β,θ),J(β),θ,W′)
其中,T(β,θ)表示根据手姿态和形状的表征θ与β,通过混合函数BS(·)和BP(·)与预先学习到的手部模板得到的修正结果,手姿态和形状的表征θ与β表示手部状态;W′为混合权重;W(·)表示骨骼蒙皮动画算法;M(β,θ)表示三维手网格;J(β)为手模型感知解码器提供的包含多个手关节的手部形状的表征;
通过三维手网格M(β,θ)得到手关节点位置,所述手关节点包含多个手关节与5个指尖点。
4.根据权利要求1所述的一种手模型感知的孤立词手语识别方法,其特征在于,所述推理模块包括图卷积神经网络层与分类输出层;
将手模型感知解码器输出的手关节点位置序列记为其对应的无向时空图G(V,E)通过点集V和边集E来定义,点集V包含所有手关节点位置,边集E包括帧内和帧间连接,也即手关节点的物理连接和同一个关节点沿着时间上的连接;根据边集E得到的邻接矩阵和单位矩阵I一起被用于图卷积神经网络层,图卷积的过程表示为:
其中,k是邻域节点所属的组,Wk是卷积核权重,被拆解为k个子矩阵,也即:各子矩阵Ak代表拆解后的连接关系,Tk为中间变量,用于计算矩阵D,M为权重,矩阵D用于归一化,m、n为矩阵D的行、列号,为Hadamard乘积符号;
手关节点的信息通过在边之间传输,从而获得每个手关节点的时空表征;
通过多个堆叠的图卷积神经网络层后,由分类输出层进行分类,从而识别出手序列所对应的词汇。
5.根据权利要求1所述的一种手模型感知的孤立词手语识别方法,其特征在于,正则化损失表示为:
其中,wβ表示权重因子,θ与β表示手部状态,分别为手姿态和形状的表征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110016997.X/1.html,转载请声明来源钻瓜专利网。