[发明专利]语音识别中垃圾词的生成方法及装置、介质、电子设备有效
申请号: | 202010862613.1 | 申请日: | 2020-08-25 |
公开(公告)号: | CN111951784B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 兰泽华;林昱;陈少伟 | 申请(专利权)人: | 睿云联(厦门)网络通讯技术有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/22;G10L15/26 |
代理公司: | 厦门原创专利事务所(普通合伙) 35101 | 代理人: | 黄巧香 |
地址: | 361000 福建省厦*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 垃圾 生成 方法 装置 介质 电子设备 | ||
1.一种语音识别中垃圾词的生成方法,其特征在于,包括:
根据目标关键词包含的音素的数量,生成与所述数量对应的垃圾词音素序列,所述垃圾词音素序列中包含多个随机生成的音素组合;
对所述垃圾词音素序列中包含的音素组合进行解码,确定各个所述音素组合所对应的待选垃圾词;
将所述待选垃圾词与所述目标关键词作为训练集,以对语言模型进行训练;
根据训练完成的语言模型的测试结果,确定目标垃圾词。
2.根据权利要求1所述的方法,其特征在于,对所述垃圾词音素序列中包含的音素组合进行解码,确定各个所述音素组合所对应的待选垃圾词,包括:
根据所述垃圾词音素序列中包含的音素组合进行查询,确定是否存在与所述音素组合对应的有效词汇;
若存在与所述音素组合对应的有效词汇,则将所述有效词汇作为待选垃圾词。
3.根据权利要求2所述的方法,其特征在于,在根据所述垃圾词音素序列中包含的音素组合进行查询,确定是否存在与所述音素组合对应的有效词汇之后,所述方法还包括:
若不存在与所述音素组合对应的有效词汇,则更新所述音素组合中包含的音素,确定是否存在与更新后的音素组合对应的有效词汇。
4.根据权利要求1所述的方法,其特征在于,根据训练完成的语言模型的测试结果,确定目标垃圾词,包括:
根据训练完成的语言模型的识别结果,计算所述语言模型的等错误率;
若所述等错误率小于或等于预定阈值,则将所述待选垃圾词作为目标垃圾词。
5.根据权利要求4所述的方法,其特征在于,所述垃圾词音素序列的数量为多个,所述方法还包括:
若所述等错误率大于所述预定阈值,则采用遗传算法对多个所述垃圾词音素序列进行优化,直至所述等错误率小于或等于所述预定阈值。
6.根据权利要求1所述的方法,其特征在于,根据目标关键词包含的音素的数量,生成与所述音素数量对应的垃圾词音素序列,包括:
根据目标关键词包含的音素的数量,确定垃圾词音素序列中音素组合包含的音素的数量;
根据所述音素组合包含的音素的数量,生成垃圾词音素序列。
7.根据权利要求6所述的方法,其特征在于,所述目标关键词的数量为多个,则根据目标关键词包含的音素的数量,确定垃圾词音素序列中音素组合包含的音素的数量,包括:
计算多个目标关键词包含的音素的数量的平均值,根据所述平均值确定所述垃圾词音素序列中音素组合包含的音素的数量。
8.一种语音识别中垃圾词的生成装置,其特征在于,包括:
生成模块,用于根据目标关键词包含的音素的数量,生成与所述数量对应的垃圾词音素序列,所述垃圾词音素序列中包含多个随机生成的音素组合;
解码模块,用于对所述垃圾词音素序列中包含的音素组合进行解码,确定各个所述音素组合所对应的待选垃圾词;
训练模块,用于将所述待选垃圾词与所述目标关键词作为训练集,以对语言模型进行训练;
处理模块,用于根据训练完成的语言模型的测试结果,确定目标垃圾词。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的语音识别中垃圾词的生成方法。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-7任一项所述的语音识别中垃圾词的生成方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于睿云联(厦门)网络通讯技术有限公司,未经睿云联(厦门)网络通讯技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010862613.1/1.html,转载请声明来源钻瓜专利网。