[发明专利]语音识别方法、电子设备和存储装置在审
申请号: | 202011643222.7 | 申请日: | 2020-12-30 |
公开(公告)号: | CN112786052A | 公开(公告)日: | 2021-05-11 |
发明(设计)人: | 王孟之;万根顺;高建清;刘聪;王智国;胡国平 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/16;G10L15/02 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 何倚雯 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 电子设备 存储 装置 | ||
1.一种语音识别方法,其特征在于,包括:
采集用户说话时的待识别数据;其中,所述待识别数据包括音频数据和所述用户嘴部的视频数据;
利用所述视频数据,提取到第一特征表示,并利用所述音频数据,提取到第二特征表示;
对所述待识别数据执行若干次以下识别步骤:利用所述第一特征表示、所述第二特征表示和上次识别的预测文字,获取所述视频数据和所述音频数据两者的融合上下文表示,并利用所述融合上下文表示进行预测,得到本次识别的预测文字;
将若干次识别的预测文字的组合,作为所述待识别数据的最终识别文本。
2.根据权利要求1所述的方法,其特征在于,所述利用所述第一特征表示、所述第二特征表示和上次识别的预测文字,获取所述视频数据和所述音频数据两者的融合上下文表示,包括:
利用所述第一特征表示和上次识别的预测文字,获取所述视频数据的第一上下文表示;
利用所述第二特征表示、上次识别的预测文字和所述第一上下文表示,获取所述音频数据的第二上下文表示;
利用所述第一上下文表示和第二上下文表示,获取所述融合上下文表示。
3.根据权利要求2所述的方法,其特征在于,所述视频数据包括至少一个嘴部图像,所述嘴部图像对应提取有所述第一特征表示;所述利用所述第一特征表示和上次识别的预测文字,获取所述视频数据的第一上下文表示,包括:
基于第一注意力机制,利用所述嘴部图像的第一特征表示、上次识别的预测文字,获取所述嘴部图像的第一注意力值;
利用所述嘴部图像的第一注意力值对对应所述嘴部图像的第一特征表示进行加权,得到所述第一上下文表示。
4.根据权利要求2所述的方法,其特征在于,所述音频数据包括至少一个音频帧,所述音频帧对应提取有所述第二特征表示;所述利用所述第二特征表示、上次识别的预测文字和所述第一上下文表示,获取所述音频数据的第二上下文表示,包括:
基于第二注意力机制,利用所述音频帧的第二特征表示、上次识别的预测文字和所述第一上下文表示,获取所述音频帧的第二注意力值;
利用所述音频帧的第二注意力值对对应所述音频帧的第二特征表示进行加权,得到所述第二上下文表示。
5.根据权利要求1所述的方法,其特征在于,所述利用所述音频数据,提取到第二特征表示,包括:
对所述音频数据进行发音纠正,得到符合预设发音标准的标准音频;
对所述标准音频进行特征提取,得到所述第二特征表示。
6.根据权利要求5所述的方法,其特征在于,所述发音纠正是利用纠正网络执行的,所述发音纠正网络的训练步骤包括:
获取第一对象的第一样本音频和与所述第一样本音频对应的第一样本文本,并获取第二对象的第二样本音频和与所述第二样本音频对应的第二样本文本;其中,所述第一对象的发音无需纠正,且所述第二对象的发音需要纠正;
将所述第一样本文本进行语音合成,得到符合所述预设发音标准的第一标准音频,并将所述第二样本文本进行语音合成,得到符合所述预设发音标准的第二标准音频;
利用所述第一样本音频和所述第一标准音频对所述纠正网络进行初始训练;
利用所述第二样本音频和所述第二标准音频对所述纠正网络进行最终训练。
7.根据权利要求6所述的方法,其特征在于,所述利用所述第一样本音频和所述第一标准音频对所述纠正网络进行初始训练,包括:
利用所述纠正网络对所述第一样本音频进行发音纠正,得到第一纠正音频,并利用所述第一纠正音频和所述第一标准音频的差异,调整所述纠正网络的网络参数;
和/或,所述利用所述第二样本音频和所述第二标准音频对所述纠正网络进行最终训练,包括:
利用所述纠正网络对所述第二样本音频进行发音纠正,得到第二纠正音频,并利用所述第二纠正音频和所述第二标准音频的差异,调整所述纠正网络的网络参数;
和/或,所述纠正网络包括编码器、频谱解码器和拼音解码器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011643222.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种实木家具透明底漆及其制备方法
- 下一篇:可翻转踏板装置和天空秋千装置