[发明专利]语音识别方法和系统有效
申请号: | 201410714386.2 | 申请日: | 2014-11-28 |
公开(公告)号: | CN104409075B | 公开(公告)日: | 2018-09-04 |
发明(设计)人: | 付春元 | 申请(专利权)人: | 深圳创维-RGB电子有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 胡海国 |
地址: | 518057 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 唇语识别 语音识别 准确度 图像采集 语音信号 图像 图像采集装置 语音识别结果 语音识别系统 语音信号识别 采集装置 控制图像 唇部 采集 | ||
本发明公开了一种语音识别方法,在接收到语音信号时,控制图像采集装置进行图像采集,并在所述语音信号结束时,控制所述图像采集装置停止图像采集;对接收到的语音信号进行识别,以得到语音信号识别结果;对采集到的图像中包含唇部的图像进行唇语识别,以得到唇语识别结果;计算所述语音信号识别结果和唇语识别结果的准确度,将准确度较高的识别结果作为当前的语音识别结果。本发明还公开了一种语音识别系统。本发明提高了语音识别的准确性。
技术领域
本发明涉及语音控制领域,尤其涉及语音识别方法和系统。
背景技术
随着语音交互的飞速发展,通过语音的方式控制终端(如电视以及空调器等),或者通过语音的方式进行数据输入已成为应用非常广泛的方式。目前,语音交互仍存在诸多问题,如语音识别不准确,易受环境影响较大,例如周围有人声嘈杂或者有背景音乐的话,语音采集装置采集到的语音信号包括人发出的语音信号以及周围的噪音信号,使得终端无法准确识别接受到的语音信号,导致语音识别不够准确。
发明内容
本发明的主要目的在于提出一种语音识别方法和系统,旨在解决语音识别不够准确的技术问题。
为实现上述目的,本发明提供的一种语音识别方法,所述语音识别方法包括以下步骤:
在接收到语音信号时,控制图像采集装置进行图像采集,并在所述语音信号结束时,控制所述图像采集装置停止图像采集;
对接收到的语音信号进行识别,以得到语音信号识别结果;
对采集到的图像中包含唇部的图像进行唇语识别,以得到唇语识别结果;
计算所述语音信号识别结果和唇语识别结果的准确度,将准确度较高的识别结果作为当前的语音识别结果。
优选地,所述对采集到的图像中包含唇部的图像进行唇语识别,以得到唇语识别结果的步骤包括:
确定采集到的图像中包含唇部的图像,将所述包含唇部的图像作为有效图像,并确定所述有效图像中唇部的位置;
根据每一帧所述有效图像的唇形以及上一帧所述有效图像的唇形确定用户输出的字符;
基于每一帧所述有效图像对应的字符组成唇语识别结果。
优选地,所述确定采集到的图像中包含唇部的图像,将所述包含唇部的图像作为有效图像,并确定所述有效图像中唇部位置的步骤包括:
确定采集到的每帧图像中脸部轮廓;
将脸部轮廓内的各个像素点色度值与预存的人脸中各个像素点的色度值进行比对,以确定采集到的每帧图像中脸部位置;
确定脸部位置中眼部位置,并基于眼部位置以及唇部位置之间的相对位置确定唇部区域;
将唇部区域中各个像素点的RGB色度值进行比对;
在唇部区域存在RGB色度值满足预设条件的像素点时,确定该帧图像为包含唇部的图像,将所述包含唇部的图像作为有效图像;
基于唇部区域中各个像素点的RGB色度值确定唇部的位置。
优选地,所述对接收到的语音信号进行识别,以得到语音信号识别结果的步骤包括:
将接收到的语音信号转换成字符串,并按照预设的关键词库,将所述字符串拆分为多个关键词;
标注各个所述关键词的词性,确定各个相邻的关键词之间的词性是否匹配;
在有相邻的关键词之间的词性不匹配时,将所述不匹配关键词作为第一关键词,并确定预设的混淆音词库是否存在所述第一关键词;
在所述混淆音词库存在所述不匹配的关键词时,确定所述混淆音词库中所述第一关键词对应的第二关键词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳创维-RGB电子有限公司,未经深圳创维-RGB电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410714386.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:截屏方法、装置及电子设备
- 下一篇:有机电致发光器件、阵列基板及显示装置