[发明专利]语音识别方法和装置在审
申请号: | 201910054959.6 | 申请日: | 2019-01-21 |
公开(公告)号: | CN111462732A | 公开(公告)日: | 2020-07-28 |
发明(设计)人: | 张仕良;雷鸣 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/16 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 钱秀茹 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 | ||
本申请公开了语音识别方法和装置。其中,语音识别方法包括:通过获取待识别的语音数据、及与语音数据对应的图像数据;通过声学特征提取子网络,提取语音数据的声学特征;以及,通过视觉特征提取子网络,从图像数据中提取与语音数据对应的视觉特征;通过声学得分预测子网络,至少根据声学特征和视觉特征,获取语音数据的声学得分;根据声学得分,确定与语音数据对应的文本序列。采用这种处理方式,使得既区分音频和视频在语音识别中的权重,又融合两种模态特征进行声学建模;因此,可以有效提升声学建模的性能及鲁棒性,从而提升语音识别性能及鲁棒性。
技术领域
本申请涉及语音识别技术领域,具体涉及语音识别系统、方法和装置,声学模型构建方法和装置,以及电子设备。
背景技术
随着人工智能时代的到来,一个显著的变化是越来越多的智能物联网(IoT)设备出现在日常生活中,如智能电视、地铁语音购票机、点餐机等等。智能IoT设备的出现极大地方便人们的日常生活,同时也提出一个问题:如何更加便捷地和这些设备进行交互。语音交互是人和人之间最便捷的交互方式,所以关于如何和IoT设备进行交互,首选也是语音交互。
对于一个智能的语音交互系统,可以通过语音识别,语义理解,语音合成等模块来完成用语音指令来控制智能设备,从而可以替代传统的手动操作。在这个链路中,语音识别是核心技术模块之一,其功能是将人的语音转化成设备可以识别的文本。关于语音识别的研究由来已久,但是直到2009年深度神经网络在语音识别中的应用,才使得语音识别系统的性能获得极大提升,开始慢慢走向实用化。
目前的IoT设备,例如地铁语音购票机、点餐机等,都是服务于公共场所,所以面临着强噪声干扰。目前主流的语音识别系统都是从音频信号出发,提取声学特征,然后进行声学建模。但是在噪声环境下,音频容易受噪声的干扰。现有的方法是从麦克风阵列信号处理的角度去处理这个问题,但是效果依旧不能完全让人满意。人类的语音不仅和音频相关,也和视觉信号相关。发不同的音会对应不同的口型,而且视觉信号不受噪声的干扰。所以联合音频和视频的语音识别(audio-visual speech recognition,AVSR)是一个潜在的解决方案。
关于联合音频和视频的语音识别的研究由来已久,该技术的研究主要集中在如何融合音频和视频信号,主要存在的方式有:1)特征融合:将音频特征和视频特征直接进行拼接,或者先进行一些变换以后再进行拼接;2)模型融合:分别训练基于音频的语音识别模型和基于视频的语音识别模型,然后解码的时候将两种进行融合。
然而,在实现本发明过程中,发明人发现该技术方案至少存在如下问题:1)采用特征融合相比模型融合可以利用音频信号和视频信号之间的关联性,但是没法区分音频和视频在系统中的权重,并且,采用特征融合的识别系统在使用过程中如果出现视频模态丢失性能会出现很大的损失;2)基于模型融合的系统可以根据模型的性能分配音频和视频的权重,但是没法有效利用音频和视频之间的关联性;3)由于音频和视频都是一个长时相关联的信号,如何有效利用这种长时关联性对于系统性能至关重要,但是,目前的联合音频和视频的语音识别系统采用的都是简单的没有长时相关建模能力的深度神经网络。
目前在一些噪声干扰不是很强的环境下,语音识别系统的性能已经达到了实用化的要求,甚至于在某些场合可能超过人类的平均水平。但是在强噪声环境下的语音识别,目前系统的识别性能和鲁棒性还远远低于人类的水平,具有很大的提升空间。
发明内容
本申请提供语音识别方法,以解决现有技术存在的强噪声环境下的语音识别性能和鲁棒性较低的问题。本申请另外提供语音识别系统和装置,声学模型构建方法和装置,以及电子设备。
本申请提供一种语音识别方法,包括:
获取待识别的语音数据、及与所述语音数据对应的图像数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910054959.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:展示方法、装置、终端设备及计算机存储介质
- 下一篇:通信方法和相关产品