[发明专利]语音文本的关键词修正方法、装置、修正设备及存储介质有效
申请号: | 202010560858.9 | 申请日: | 2020-06-18 |
公开(公告)号: | CN111737979B | 公开(公告)日: | 2021-01-12 |
发明(设计)人: | 聂镭;齐凯杰;聂颖 | 申请(专利权)人: | 龙马智芯(珠海横琴)科技有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 519031 广东省珠海市香洲区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 文本 关键词 修正 方法 装置 设备 存储 介质 | ||
本申请适用于语音处理技术领域,提供了一种语音文本的关键词修正方法、装置、修正设备及存储介质。该方法包括:获取待处理语音文本,将待处理语音文本输入至预设关键词抽取模型,得到目标关键词,根据第一预设关键词库修正待修正关键词,得到第一已修正关键词,查找与第一已修正关键词属于同一实体的关联关键词,并根据关联关键词修正第一已修正关键词,得到第二已修正关键词。可见,本申请在获取根据语音音频转换的语音文本之后,对语音文本的关键词进行两次修正,避免了语音识别技术的语音识别结果会受到谐音字词、混淆音字词以及形似字等原因的干扰,达到提高语音识别结果准确率的效果。
技术领域
本申请属于语音处理技术领域,尤其涉及一种语音文本的关键词修正方法、装置、修正设备及存储介质。
背景技术
目前,语音识别技术在生活中应用范围较为广泛,例如智能客服、智能质检、语音助手等都会应用到语音识别技术。但是现有的语音识别技术的语音识别结果会受到谐音字词、混淆音字词以及形似字等原因的干扰,从而导致语音识别结果不准确。
发明内容
本申请实施例提供了语音文本的关键词修正方法及装置,可以解决现有的语音识别技术的语音识别结果会受到谐音字词、混淆音字词以及形似字等原因的干扰,从而导致语音识别结果不准确问题。
第一方面,本申请实施例提供了一种语音文本的关键词修正方法,包括:
获取待处理语音文本;
将所述待处理语音文本输入至预设关键词抽取模型,得到目标关键词;
根据第一预设关键词库中错误关键词确定所述目标关键词中的待修正关键词,并根据第一预设关键词库中与所述错误关键词对应的正确关键词修正所述待修正关键词,得到第一已修正关键词;
查找与所述第一已修正关键词属于同一实体的关联关键词,并根据所述关联关键词修正所述第一已修正关键词,得到第二已修正关键词。
在第一方面的一种可能的实现方式中,获取待处理语音文本之前,还包括:
获取语音文本样本;
识别所述语音文本样本中的错误关键词;
获取与所错误关键词对应的正确关键词;
根据所述错误关键词以及与所述错误关键词对应的正确关键词构建第一预设关键词库。
在第一方面的一种可能的实现方式中,根据所述错误关键词以及与所述错误关键词对应的正确关键词构建第一预设关键词库之后,还包括:
识别所述语音文本样本的目标关键词;
根据所述目标关键词与所述语音文本样本的对应关系构建预设关键词抽取模型。
在第一方面的一种可能的实现方式中,查找与所述第一已修正关键词属于同一实体的关联关键词,并根据所述关联关键词修正所述第一已修正关键词,得到第二已修正关键词,包括:
根据预设后缀名词库识别所述第一已修正关键词的目标后缀名;
识别所述第一已修正关键词的特殊字符;
删除所述第一已修正关键词的目标后缀名以及特殊字符,得到所述第一已修正关键词所属的实体;
获取所述实体对应的关联关键词
根据所述关联关键词修正所述第一已修正关键词。
在第一方面的一种可能的实现方式中,查找与所述第一已修正关键词属于同一实体的关联关键词,并根据所述关联关键词修正所述第一已修正关键词,得到第二已修正关键词,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于龙马智芯(珠海横琴)科技有限公司,未经龙马智芯(珠海横琴)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010560858.9/2.html,转载请声明来源钻瓜专利网。