[发明专利]模型的训练方法、语音识别方法、装置、介质及设备有效
申请号: | 202011554089.8 | 申请日: | 2020-12-24 |
公开(公告)号: | CN112669816B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 王康 | 申请(专利权)人: | 北京有竹居网络技术有限公司 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/06 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 南毅宁 |
地址: | 101299 北京市平*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 方法 语音 识别 装置 介质 设备 | ||
本公开涉及一种模型的训练方法、语音识别方法、装置、介质及设备,所述方法包括:获取训练数据,其中,所述训练数据中包含至少两个语种的标注数据;按照每一语种的标注数据的数量由高至低的顺序对各个语种进行排序,以获得各个语种对应的训练顺序;按照所述训练顺序指示的语种的排位,依次获取每一语种所对应的目标数据对预设模型进行迭代训练,获得目标语音识别模型,其中,所述目标数据是根据所述训练顺序中第一排位至当前排位的语种的标注数据确定出的。通过上述技术方案,可以有效避免标注数据的数量分布不均对目标语音识别模型的准确率的影响,同时也可以提高目标语音识别模型的训练效率。
技术领域
本公开涉及计算机技术领域,具体地,涉及一种模型的训练方法、语音识别方法、装置、介质及设备。
背景技术
在国际化的推进过程中,会遇到多语种的语音识别问题。每一语种都有其独特性,其使用范围和普及度也各不相同。由此,可以对多语种的语音数据进行识别的语音识别模型应运而生。然后在该语音识别模型的训练数据的中针对不同语种的收集难度和不同语种的语音数据的数据量也都不同,通常使用人数较多的语种,其对应的训练数据较多。现有技术中,通常是将不同训练数据量的语种所对应的训练数据混合在一起进行训练,这会导致训练得出的模型对数据量较多的语种的识别率较高,而对于数据量较少的语种的识别率较低。
发明内容
提供该发明内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
第一方面,本公开提供一种语音识别模型的训练方法,所述方法包括:
获取训练数据,其中,所述训练数据中包含至少两个语种的标注数据;
按照每一语种的标注数据的数量由高至低的顺序对各个语种进行排序,以获得各个语种对应的训练顺序;
按照所述训练顺序指示的语种的排位,依次获取每一语种所对应的目标数据对预设模型进行迭代训练,获得目标语音识别模型,其中,所述目标数据是根据所述训练顺序中第一排位至当前排位的语种的标注数据确定出的,所述目标语音识别模型用于对所述至少两个语种的语音数据进行语音识别。
第二方面,提供一种语音识别方法,所述方法包括:
接收待识别的语音数据;
将所述语音数据输入目标语音识别模型,将所述目标语音识别模型输出的识别结果作为所述语音数据的识别结果,其中,所述目标语音识别模型为根据第一方面所述方法训练得出的。
第三方面,提供一种语音识别模型的训练装置,所述装置包括:
获取模块,用于获取训练数据,其中,所述训练数据中包含至少两个语种的标注数据;
排序模块,用于按照每一语种的标注数据的数量由高至低的顺序对各个语种进行排序,以获得各个语种对应的训练顺序;
训练模块,用于按照所述训练顺序指示的语种的排位,依次获取每一语种所对应的目标数据对预设模型进行迭代训练,获得目标语音识别模型,其中,所述目标数据是根据所述训练顺序中第一排位至当前排位的语种的标注数据确定出的,所述目标语音识别模型用于对所述至少两个语种的语音数据进行语音识别。
第四方面,提供一种语音识别装置,所述装置包括:
接收模块,用于接收待识别的语音数据;
输入模块,用于将所述语音数据输入目标语音识别模型,将所述目标语音识别模型输出的识别结果作为所述语音数据的识别结果,其中,所述目标语音识别模型为根据第一方面所述方法训练得出的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京有竹居网络技术有限公司,未经北京有竹居网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011554089.8/2.html,转载请声明来源钻瓜专利网。