[发明专利]一种唇语输入方法和系统有效
申请号: | 201510200486.8 | 申请日: | 2015-04-24 |
公开(公告)号: | CN104808794B | 公开(公告)日: | 2019-12-10 |
发明(设计)人: | 张弛 | 申请(专利权)人: | 北京旷视科技有限公司;北京迈格威科技有限公司 |
主分类号: | G06F3/01 | 分类号: | G06F3/01 |
代理公司: | 11481 北京睿邦知识产权代理事务所(普通合伙) | 代理人: | 徐丁峰 |
地址: | 100080 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 输入 方法 系统 | ||
1.一种唇语输入方法,其特征在于,包括如下步骤:
步骤S100:通过视频采集模块捕捉用户做出与待输入内容的发音相对应的口型时的嘴唇动作的视频;
步骤S200:对所述视频中的用户的嘴唇动作进行分析,识别出与用户的口型对应的语言信息;
步骤S300:将所述语言信息输入待输入装置;
所述步骤S200包括:
步骤S201:确定所述视频中的每帧图像中嘴唇的位置,并提取嘴唇上的关键点;
步骤S202:跟踪每帧图像之间所述关键点的位置变化,得到每帧图像中所述关键点的特征向量;
步骤S203:基于所述特征向量,将所述特征向量合并成特征向量序列,通过事先确定的语言模型识别出与用户的口型对应的语言信息;
所述步骤S203基于回馈式深度人工神经网络的方法实现,所述语言模型为训练好的神经元网络;所述神经元网络的结构包括:输入层,接受所述特征向量序列;卷积层,对输入向量进行平滑和提取特征;反馈层,通过联系之前和之后的输入特征,对当前输入特征进行提取;全连接层,对特征进行进一步抽象;输出层,输出最终的判断结果。
2.如权利要求1所述的方法,其特征在于,所述步骤S201基于级联回归的方法,利用事先训练好的线性模型实现。
3.如权利要求1或2所述的方法,其特征在于,所述步骤S200包括:
对所述视频中的用户的嘴唇动作进行分析以识别出与用户的口型对应的初步语言信息;
自动对所述初步语言信息的合理性进行判断并对不合理的内容进行修正以得到与用户的口型对应的语言信息。
4.如权利要求1或2所述的方法,其特征在于,在所述步骤S300中,在将所述语言信息输入待输入装置之前、同时或之后,显示所述语言信息对应的文字内容。
5.一种唇语输入系统,其特征在于,包括视频采集模块、唇语识别模块和输入模块;其中,所述视频采集模块用于采集捕捉用户做出与待输入内容的发音相对应的口型时的嘴唇动作的视频;所述唇语识别模块用于对所述视频中的用户的嘴唇动作进行分析,识别出与用户的口型对应的语言信息;所述输入模块用于将所述语言信息输入到待输入装置;
所述唇语识别模块执行如下操作:
确定所述视频中的每帧图像中嘴唇的位置,并提取嘴唇上的关键点;
跟踪每帧图像之间所述关键点的位置变化,得到每帧图像中所述关键点的特征向量;
基于所述特征向量,将所述特征向量合并成特征向量序列,通过事先确定的语言模型识别出与用户的口型对应的语言信息;该操作基于回馈式深度人工神经网络的方法实现,所述语言模型为训练好的神经元网络;所述神经元网络的结构包括:输入层,接受所述特征向量序列;卷积层,对输入向量进行平滑和提取特征;反馈层,通过联系之前和之后的输入特征,对当前输入特征进行提取;全连接层,对特征进行进一步抽象;输出层,输出最终的判断结果。
6.如权利要求5所述的系统,其特征在于,还包括唇语识别自动修正模块,用于自动对唇语识别模块识别出的语言信息的合理性进行判断以及对不合理的内容进行修正。
7.如权利要求5所述的系统,其特征在于,还包括唇语识别人工修正模块,用于对唇语识别模块识别出的语言信息对应的文字进行显示以及人工修正。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京旷视科技有限公司;北京迈格威科技有限公司,未经北京旷视科技有限公司;北京迈格威科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510200486.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型的水平角度尺
- 下一篇:一种信息处理方法以及电子设备