[发明专利]一种语音识别方法、装置、电子设备以及存储介质在审
申请号: | 202110610069.6 | 申请日: | 2021-06-01 |
公开(公告)号: | CN113327586A | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 汪雪;黄石磊;程刚 | 申请(专利权)人: | 深圳市北科瑞声科技股份有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/16;G10L15/26;G10L25/24 |
代理公司: | 深圳智汇远见知识产权代理有限公司 44481 | 代理人: | 刘洁;牛悦涵 |
地址: | 518036 广东省深圳市福田区梅林街道*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 方法 装置 电子设备 以及 存储 介质 | ||
本申请涉及一种语音识别方法,包括:获取音频数据,对所述音频数据进行频谱分析,生成所述音频数据的梅尔倒谱图;利用预先训练好的音频识别模型对所述梅尔倒谱图进行特征提取,得到特征音频信号,并识别所述特征音频信号的音素序列;对所述音素序列进行文字提取,将文字提取的结果作为所述音频数据的识别结果。此外,本申请还提供一种语音识别装置、电子设备以及计算机可读存储介质。本申请可以提高语音识别的准确率。
技术领域
本申请涉及人工智能领域,尤其涉及一种语音识别方法、装置、电子设备以及计算机可读存储介质。
背景技术
近年来,机器学习发展迅猛,语音识别任务在深度学习的背景下发生巨大突破,虽然传统的语音识别框架,已经可以实现稳定的工业化识别,然而随着深度学习的引入,处于智能大数据时代的人们,已经不再满足于有限的模型精度,人们希望语音识别能够处理更加复杂的数据。
目前,通常采用基于注意力机制的语音识别模型实现语音识别,由于基于注意力机制的语音识别模型对待识别语音的数据质量要求极高,然而在实际业务场景中,会产生不同的噪音环境的待识别语音数据,比如口音方言、嘈杂、远场等场景的数据,这样会影响基于注意力机制的语音识别模型的语音识别能力,从而会影响语音识别的准确率。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种语音识别方法、装置、电子设备以及计算机可读存储介质,可以提高语音识别的准确率。
第一方面,本申请提供了一种语音识别方法,包括:
获取音频数据,对所述音频数据进行频谱分析,生成所述音频数据的所述音频数据的梅尔倒谱图;
利用预先训练好的音频识别模型对所述梅尔倒谱图进行特征提取,得到特征音频信号,并识别所述特征音频信号的音素序列;
对所述音素序列进行文字提取,将文字提取的结果作为所述音频数据的识别结果。
可以看出,本申请首先基于音频数据的频谱分析,可以提取出所述音频数据的特征数据,从而降低所述音频数据的复杂度,进而可以提高后续音频数据的分析准确率;其次,本申请通过预先训练好的音频识别模型执行音频数据的梅尔倒谱图的特征提取及音素识别,即采用端到端的音频数据的音素序列识别,可以增强所述音频识别模型对复杂的音频数据的抗干扰性,进一步提高音频数据的分析准确率。因此,与现有技术相比,本申请可以增强模型对音频数据的抗干扰性,提高语音识别的准确率。
在第一方面的一种可能实现方式中,所述对所述音频数据进行频谱分析,生成所述音频数据的梅尔倒谱图,包括:
对所述音频数据进行预处理,并将预处理后的音频数据进行短时傅里叶变换,得到所述音频数据的声谱图;
对所述声谱图进行梅尔谱滤波,并将梅尔谱滤波后的声谱图进行倒谱分析,得到所述音频数据的初始梅尔倒谱图;
对所述初始梅尔倒谱图进行离散变换,得到所述音频数据的梅尔倒谱图。
在第一方面的一种可能实现方式中,所述利用预先训练好的音频识别模型对所述梅尔倒谱图进行特征提取之前,还包括:
获取训练倒谱图及对应的第一特征音频信号,从所述第一特征音频信号中提取音素序列,得到第一音素序列;
对所述训练倒谱图进行频谱增强,将频谱增强后的训练倒谱图和所述训练倒谱图作为模型训练数据;
将所述模型训练数据输入所述音频识别模型的卷积模块中,以输出所述模型训练数据的第二特征音频信号,并利用所述音频识别模型的音素识别模块识别所述第二特征音频信号的第二音素序列;
根据所述第一特征音频信号、第二特征音频信号、第一音素序列以及第二音素序列,计算所述音频识别模型的训练损失;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市北科瑞声科技股份有限公司,未经深圳市北科瑞声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110610069.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多组分抗静电纱及其纺制方法
- 下一篇:一种清洁设备