[发明专利]语音识别方法、装置、电子设备和存储介质在审
申请号: | 202210393911.X | 申请日: | 2022-04-14 |
公开(公告)号: | CN114783426A | 公开(公告)日: | 2022-07-22 |
发明(设计)人: | 刘迪源;高建清 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 程琛 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 电子设备 存储 介质 | ||
本发明提供一种语音识别方法、装置、电子设备和存储介质,其中方法包括:确定待识别语音;基于语音识别模型,确定待识别语音的识别文本;语音识别模型是基于第一编码网络,应用第一语音文本对训练得到的,第一编码网络是联合语音编码网络和文本编码网络,应用第二语音文本对训练得到的;待识别语音和第一语音文本对属于第一语种,第二语音文本对属于第一语种之外的其他语种。本发明提供的方法、装置、电子设备和存储介质,由于第二语音文本对容易获取,且有监督训练时数据规模的增加能够带来训练效果的提升,用于第一语种的语音识别模型预训练的第一编码网络得以保证其优良的性能,由此实现准确、可靠的低资源语种的语音识别。
技术领域
本发明涉及计算机技术领域,尤其涉及一种语音识别方法、装置、电子设备和存储介质。
背景技术
语音识别技术作为人机交互的重要接口之一,给用户带来了更加便捷的体验,降低了人与机器的交互门槛。但在构建多语种、多方言的低资源语音识别系统时,依然面临着严重的数据瓶颈。
由于训练数据稀缺,基于有监督方法进行低资源语音识别模型的训练,所得模型通常识别效果较差。针对这一问题,目前提升低资源语音识别率的方法通常通过自监督预训练实现,自监督预训练的方法通过无监督训练得到一个鲁棒的特征提取器,作为低资源任务的特征提取器,以便于在低资源语音识别过程中能够提取更加鲁棒的特征从而提供识别效果。
但是自监督预训练中,在用于预训练的数据量达到一定规模时,继续增加用于预训练的数据量规模,并不能继续带来低资源语音识别的效果提升。
发明内容
本发明提供一种语音识别方法、装置、电子设备和存储介质,用以解决现有技术中低资源语音识别效果提升受限的问题。
本发明提供一种语音识别方法,包括:
确定待识别语音;
基于语音识别模型,确定所述待识别语音的识别文本;
所述语音识别模型是基于第一编码网络,应用第一语音文本对训练得到的,所述第一编码网络是联合语音编码网络和文本编码网络,应用第二语音文本对训练得到的;
所述待识别语音和所述第一语音文本对属于第一语种,所述第二语音文本对属于所述第一语种之外的其他语种。
根据本发明提供的一种语音识别方法,所述第一编码网络基于如下步骤训练得到:
基于所述语音编码网络,确定第二语音的语音向量;
基于所述文本编码网络,确定第二文本的文本向量;
基于所述语音向量和所述文本向量之间的相似度,以及所述第二语音和所述第二文本是否属于同一第二语音文本对,对所述语音编码网络和所述文本编码网络进行对比训练,将对比训练完成的语音编码网络确定为所述第一编码网络。
根据本发明提供的一种语音识别方法,所述基于所述语音向量和所述文本向量之间的相似度,以及所述第二语音和所述第二文本是否属于同一第二语音文本对,对所述语音编码网络和所述文本编码网络进行对比训练,包括:
基于属于同一第二语音文本对的第二语音的语音向量和第二文本的文本向量,确定正例相似度,基于属于不同第二语音文本对的第二语音的语音向量和第二文本的文本向量,确定反例相似度;
以所述正例相似度最大化和所述反例相似度最小化为目标,对所述语音编码网络和所述文本编码网络进行对比训练。
根据本发明提供的一种语音识别方法,所述语音识别模型基于如下步骤训练得到:
确定第二编码网络,所述第二编码网络是端到端语音识别模型中的编码器;
基于所述第一编码网络和所述第二编码网络,确定联合编码网络;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210393911.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种废弃尾菜叶的资源化利用方法
- 下一篇:一种智能控制行走机器人装置