[发明专利]一种手语实时转换为语音的方法在审
申请号: | 202210173383.7 | 申请日: | 2022-02-24 |
公开(公告)号: | CN114549860A | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 马天;高晔;胡瑞祥;周新磊;杨逸舟 | 申请(专利权)人: | 西安科技大学 |
主分类号: | G06V10/46 | 分类号: | G06V10/46;G06N3/04;G06N3/08;G06V20/40;G06V40/20 |
代理公司: | 西安启诚专利知识产权代理事务所(普通合伙) 61240 | 代理人: | 李艳春 |
地址: | 710054 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 手语 实时 转换 语音 方法 | ||
1.一种手语实时转换为语音的方法,其特征在于,包括以下步骤:
步骤一、采用摄像机采集手语者的视频数据;
步骤二、采用帧差法对所述手语者的视频数据进行识别并提取,得到关键帧;
步骤三、将所述关键帧输入到OpenPose系统中,提取出手语者的人体和手部的关键点坐标;
步骤四、将所述人体和手部的关键点坐标转换为数字特征信息;
步骤五、将所述数字特征信息划分为训练集和验证集;
步骤六、构建神经网络模型,将所述训练集输入到神经网络模型中进行训练,并通过所述验证集进行验证并更新,得到训练好的神经网络;
步骤七、将所述训练好的神经网络的手语识别结果实时转换为语音输出。
2.按照权利要求1所述的一种手语实时转换为语音的方法,其特征在于,步骤一中所述摄像机采用单目镜头摄像机。
3.按照权利要求1所述的一种手语实时转换为语音的方法,其特征在于,步骤一中所述手语者的视频数据包括手语者的人体视频数据和手部视频数据。
4.按照权利要求1所述的一种手语实时转换为语音的方法,其特征在于,步骤二中所述关键帧为包含手语动作信息量最多的视频帧,手语动作中各个分解动作的位置信息能够通过关键帧来表示,多个所述关键帧构成手语动作的时序信息。
5.按照权利要求1所述的一种手语实时转换为语音的方法,其特征在于,步骤三中所述将关键帧输入到OpenPose系统中,提取出手语者的人体和手部的关键点坐标的具体过程包括:
步骤301、在所述手语者的人体选取上半身的14个关键点;
步骤302、在所述手语者的手部选取左手的21个关键点和右手的21个关键点;
步骤303、将每个关键点用二维特征矩阵表示;
步骤304、设置原点,将所述二维特征矩阵的绝对坐标值转换为相对坐标值。
6.按照权利要求5所述的一种手语实时转换为语音的方法,其特征在于,步骤四中所述将人体和手部的关键点坐标转换为数字特征信息的具体过程包括:
步骤401、将相对坐标下的二维特征矩阵压缩为一维向量;
步骤402、将所述一维向量中的每个值进行归一化,得到数字特征值;
步骤403、结合所述数字特征值、关键帧帧数和手语编号,组成数字特征矩阵。
7.按照权利要求6所述的一种手语实时转换为语音的方法,其特征在于,步骤五中所述训练集和验证集按3:1比例进行划分。
8.按照权利要求7所述的一种手语实时转换为语音的方法,其特征在于,步骤六中所述神经网络模型为六层网络结构,所述六层网络结构包括一个LSTM模块、一个Dropout层和两个全连接层,所述LSTM模块包括三个LSTM层,每个LSTM层均加入RELU函数避免陷入局部最优解,所述LSTM模块后采用Dropout层对神经元进行随机丢弃,避免过拟合;在全连接层中加入RELU函数并归一化,避免内部协变量偏移问题,并加快训练速度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安科技大学,未经西安科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210173383.7/1.html,转载请声明来源钻瓜专利网。