[发明专利]一种唇语输入方法和系统有效
申请号: | 201510200486.8 | 申请日: | 2015-04-24 |
公开(公告)号: | CN104808794B | 公开(公告)日: | 2019-12-10 |
发明(设计)人: | 张弛 | 申请(专利权)人: | 北京旷视科技有限公司;北京迈格威科技有限公司 |
主分类号: | G06F3/01 | 分类号: | G06F3/01 |
代理公司: | 11481 北京睿邦知识产权代理事务所(普通合伙) | 代理人: | 徐丁峰 |
地址: | 100080 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 输入 方法 系统 | ||
本发明涉及一种唇语输入方法和系统。该方法的步骤包括:步骤S100:通过视频采集模块捕捉用户做出与待输入内容的发音相对应的口型时的嘴唇动作的视频;步骤S200:对所述视频中的用户的嘴唇动作进行分析,识别出与用户的口型对应的语言信息;步骤S300:将所述语言信息输入待输入装置。该系统包括视频采集模块、唇语识别模块和输入模块。本发明的方法和系统只需对待输入装置的视频采集模块做出说话时嘴唇的运动就可以输入相应的语言信息,具有输入方便的特点。
技术领域
本发明属于信息输入技术领域,具体涉及一种唇语输入方法和系统。
背景技术
信息输入是用户与个人电脑、移动设备等电子终端进行交互所不可缺少的一部分。随着移动设备的普及,越来越多的人开始在移动设备上输入文字。目前一般的输入法,因为移动设备屏幕较小,使用不便。而更加自然的语音输入法,由于需要发出声音,在公共场合使用则容易暴露隐私和打扰他人。
具体来说,以移动设备为例,当前的信息输入方式主要有键盘输入,手写输入和语音输入等。这些输入法都存在各自的局限性。例如键盘输入需要用户在键盘上(或触摸屏)上进行点击,输入速度较慢。手写输入法要求用户在屏幕上进行文字拼写,在笔画较复杂的情况下输入较慢,且用户必须一手拿设备另一手进行拼写,使用不方便。而且这两种输入方式,盲人都无法使用。相比前两种,语音输入的方式较为方便,用户通过对麦克风说话,设备自动把录入的声音转换成文字。但是,语音输入也存在若干问题,例如容易受到环境噪音的影响,容易暴露隐私,容易打扰他人等。
由此可见,现有的信息输入方法具有使用不方便的技术问题,因此,有必要提出一种新的输入方法。
发明内容
为了解决现有输入方法的上述技术问题,本发明提供一种唇语输入方法和系统,其可以通过捕捉用户的嘴唇动作来判断用户的想要表达的与嘴唇动作相对应的语言信息(例如:说话内容或唇语内容),从而实现信息的输入。
为实现上述目的,本发明采用的技术方案如下:
一种唇语输入方法,包括如下步骤:
步骤S100:通过视频采集模块捕捉用户做出与待输入内容的发音相对应的口型时的嘴唇动作的视频;
步骤S200:对所述视频中的用户的嘴唇动作进行分析,识别出与用户的口型对应的语言信息;
步骤S300:将所述语言信息输入待输入装置。
示例性地,步骤S200包括:
步骤S201:确定所述视频中的每帧图像中嘴唇的位置,并提取嘴唇上的关键点;
步骤S202:跟踪每帧图像之间所述关键点的位置变化,得到每帧图像中所述关键点的特征向量;
步骤S203:基于所述特征向量,通过事先确定的语言模型识别出与用户的口型对应的语言信息。
示例性地,所述步骤S201基于级联回归的方法,利用事先训练好的线性模型实现。
示例性地,所述步骤S203基于回馈式深度人工神经网络的方法实现,所述语言模型为训练好的神经元网络。
示例性地,所述神经元网络的结构包括:输入层,接受特征向量序列;卷积层,对输入向量进行平滑和提取特征;反馈层,通过联系之前和之后的输入特征,对当前输入特征进行提取;全连接层,对特征进行进一步抽象;输出层,输出最终的判断结果。
示例性地,所述步骤S200包括:
对所述视频中的用户的嘴唇动作进行分析以识别出与用户的口型对应的初步语言信息;
自动对所述初步语言信息的合理性进行判断并对不合理的内容进行修正以得到与用户的口型对应的语言信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京旷视科技有限公司;北京迈格威科技有限公司,未经北京旷视科技有限公司;北京迈格威科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510200486.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型的水平角度尺
- 下一篇:一种信息处理方法以及电子设备