[发明专利]语音识别方法、装置、设备及存储介质在审
申请号: | 202010129952.9 | 申请日: | 2020-02-28 |
公开(公告)号: | CN111312217A | 公开(公告)日: | 2020-06-19 |
发明(设计)人: | 吴华鑫;景子君;刘迪源;胡金水;潘嘉 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/25;G10L15/26;G10L21/0208 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 薛娇 |
地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 设备 存储 介质 | ||
本申请实施例公开了一种语音识别方法、装置、设备及存储介质,在获取语音信号和与语音信号同步采集的图像序列后,以趋近于对语音信号去除噪声后的语音信息为获取方向,获取融合语音信号和图像序列的信息,作为融合信息;利用融合信息进行语音识别,得到语音信号的语音识别结果。本申请实施例提供的语音识别方案,在获取语音信号和图像序列的融合特征时,是以融合信息趋近于对语音信号去噪后的语音信息为获取方向的,即所获得到的融合信息趋近于无噪声语音信号的语音信息,降低了语音信号中的噪声对语音识别的干扰,从而提高语音识别率。
技术领域
本申请涉及自然语言处理技术领域,更具体地说,涉及一种语音识别方法、装置、设备及存储介质。
背景技术
传统的语音识别技术是单语音识别,即通过仅对语音信号进行处理得到识别结果,这种语音识别方法在语音清晰的环境下已经能够达到很高的识别效果。然而,在一些高噪声,远场的环境下,传统的语音识别技术的识别率会迅速下降。为了提高语音识别率,有方案提出借助唇部动作视频协助进行语音识别的多模态语音识别方法,在一定程度上提高了高噪声场景下语音的识别率。
然而,现有的多模态语音识别方法是利用唇部动作视频进行唇语识别,然后根据唇语识别结果和单语音识别结果准确度确定最终的语音识别结果,其语音识别效果仍然较低。
因此,如何提高多模态语音识别方法的识别率成为亟待解决的技术问题。
发明内容
有鉴于此,本申请提供了一种语音识别方法、装置、设备及存储介质,以提高多模态语音识别方法的识别率。
为了实现上述目的,现提出的方案如下:
一种语音识别方法,包括:
获取语音信号和与所述语音信号同步采集的图像序列;所述图像序列中的图像为唇动相关区域的图像;
以趋近于对所述语音信号去除噪声后的语音信息为获取方向,获取融合所述语音信号和所述图像序列的信息,作为融合信息;
利用所述融合信息进行语音识别,得到所述语音信号的语音识别结果。
一种语音识别装置,包括:
获取模块,用于获取语音信号和与所述语音信号同步采集的图像序列;所述图像序列中的图像为唇动相关区域的图像;
特征提取模块,用于以趋近于对所述语音信号去除噪声后的语音信息为获取方向,获取融合所述语音信号和所述图像序列的信息,作为融合信息;
识别模块,用于利用所述融合信息进行语音识别,得到所述语音信号的语音识别结果。
一种语音识别设备,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上任一项所述的语音识别方法的各个步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上任一项所述的语音识别方法的各个步骤。
从上述的技术方案可以看出,本申请实施例提供的语音识别方法、装置、设备及存储介质,在获取语音信号和与语音信号同步采集的图像序列后,以趋近于对语音信号去除噪声后的语音信息为获取方向,获取融合语音信号和图像序列的信息,作为融合信息;利用融合信息进行语音识别,得到语音信号的语音识别结果。本申请实施例提供的语音识别方案,在获取语音信号和图像序列的融合特征时,是以融合信息趋近于对语音信号去噪后的语音信息为获取方向的,即所获得到的融合信息趋近于无噪声语音信号的语音信息,降低了语音信号中的噪声对语音识别的干扰,从而提高语音识别率。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010129952.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种回收干燥热的硫磺制酸系统和方法
- 下一篇:阵列基板及显示面板