[发明专利]一种基于深度图像动态手语语义识别系统及方法在审
申请号: | 201910269214.1 | 申请日: | 2019-04-04 |
公开(公告)号: | CN109993130A | 公开(公告)日: | 2019-07-09 |
发明(设计)人: | 刘禹欣;李文越;杜国铭;赵雪洁;宁可 | 申请(专利权)人: | 哈尔滨拓博科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/06 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150000 黑龙江省哈尔*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 深度图像 手语 视频信息 语义识别 语义分析模型 控制命令 社会生活 手语单词 听障人士 完整语义 信息分析 意图表达 语义表达 手关节 操作系统 单词 关节 翻译 输出 融入 转化 | ||
本发明提出一种基于深度图像动态手语语义识别系统及方法,所述系统及方法通过获取操作者的深度图像视频信息,并对所述视频信息进行处理,获取手关节信息,通过关节信息分析出手语单词,将各所述单词输入到语义分析模型中,判断语义表达是否完整,在所述意图表达完整时,将各所述完整语义直接输出或转化控制命令传给其他控制单元,实现了将手语动作翻译为文字,控制机械或操作系统,有助于听障人士更好的融入社会生活。
技术领域
本发明属于语义识别技术领域,特别是涉及一种基于深度图像动态手语语义识别系统及方法。
背景技术
手语识别控制从原理上可分为基于双目相机和基于深度图像三维回归,在手势分析上只支持简单手势识别、简单手语单词。其中,基于双目相机采用的是通过双目相机同时拍摄物体来计算出物体特征点的深度信息的方式来进行图像识别,从而分析出手势信息。基于深度图像三维回归方案主要依赖于深度摄像机对手势进行拍摄得到的图像及拍摄场景内各点与深度摄像机之间的距离信息建立该手势的三维模型。以三维模型为依据进行手势判断,在手势分析上,具体采用标准手势数据库,与手势动作进行匹配,选出与模型最为相近的手势。
现有技术中对语音识别以及语音控制做了很多的研究,也给可以使用语音控制的人创造了许多的便利,但对于聋哑人士却无法享受到这样的便利。而通过简单比划的方式(例如绘画、文字书写、动作比划)进行一些基础的沟通,并不能完全的表达使用者的意图,并且伴有一定的学习成本。所以,为了提高听障人士对控制设备的便利性,同时也为了便于聋哑残障人士与无手语基础的人进行无障碍沟通,急需一种能够理解手语语义的方法及系统。
发明内容
本发明目的是为了解决现有的技术问题,提出了一种基于深度图像动态手语语义识别系统及方法。
本发明是通过以下技术方案实现的,本发明提出一种基于深度图像动态手语语义识别系统,包括:
图像捕获模块,用于捕获操作者的深度图像视频数据并将每一帧深度图像传输给图像分析模块;
图像分析模块,用于处理深度图像视频数据,得到手部关节3d坐标并输出给手语分析模块;
手语分析模块,用于获取足够长度的手部关节3d坐标队列,并提取子队列进行分析,获得子队列可能表示的单词,并将所述单词传递给语义分析模块;
语义分析模块,用于获得足够表明一组完整的单词,并通过语义语境分析,对获取的单词矫正,并组合成完整正确语义的语句或者命令,并通过输出的语句或者命令进行控制操作。
进一步地,所述图像分析模块具体工作流程如下:
步骤21:接收图像捕获模块传输过来的深度图像视频数据;
步骤22:进行人手部矩形框选坐标的识别;
步骤23:通过循环神经网络进行基于时序信息的跟踪;
步骤24:通过提取深度图像框选区域为感兴趣区域,并对框选区域深度图像进行手部关节3d坐标提取;
步骤25:将提取的手部关节3d坐标输入到手语分析模块。
进一步地,所述步骤22具体为:
步骤221:通过图像发现并提取手部信息;
步骤222:对视频前后帧图像时序信息进行手部跟踪,根据检测结果确定目标矩形框选区域;
步骤223:持续跟踪手部,直到跟踪的手部信息消失,并返回步骤221。
进一步地,所述对框选区域深度图像进行手部关节3d坐标提取,具体为:
步骤241:接收框选后截取的深度图像;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨拓博科技有限公司,未经哈尔滨拓博科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910269214.1/2.html,转载请声明来源钻瓜专利网。