[发明专利]语音识别文本的字段值纠错方法、装置及存储控制器有效
申请号: | 201910247910.2 | 申请日: | 2019-03-29 |
公开(公告)号: | CN109977412B | 公开(公告)日: | 2022-12-27 |
发明(设计)人: | 陈钊;赵炜 | 申请(专利权)人: | 北京林业大学 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/284;G10L15/26 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 李世喆 |
地址: | 100083 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 文本 字段 纠错 方法 装置 存储 控制器 | ||
本发明提供了一种字段值纠错方法、装置、可读介质及存储控制器,该方法包括:确定包括有若干韵母及其算法编码的汉字音形编码规则;确定包括有若干标准字段值及其韵母编码向量的标准字段值集合,字段值的韵母编码向量包括字段值中各汉字的韵母的算法编码;根据汉字音形编码规则确定待纠错字段值的韵母编码向量;根据待纠错字段值及各个具有相同汉字个数的目标标准字段值的韵母编码向量,分别计算待纠错字段值和各个目标标准字段值的韵母相似度;有且仅有一标准字段值,待纠错字段值和该标准字段值的韵母相似度符合相似度条件时,将待纠错字段值纠正为该标准字段值。本方案是基于预设的标准字段值以实现字段值纠错,故能够适用于没有上下文的情况。
技术领域
本发明涉及计算机技术领域,特别涉及一种字段值纠错方法、装置、可读介质及存储控制器。
背景技术
语音识别的研究是人工智能领域重要的研究分支。语音识别技术是实现如何把语音变成机器能理解的文字或命令的技术。比如,用户输入语音后,基于语音识别技术,可以对语音进行识别以将其转换为文字。但是,初步转换出的文字所代表的意思,可能与用户的本意存在一定差距,故可以将初步转换出的文字进行进一步地纠错处理,并将纠错后的文字展示给用户,以提高语音与文字间的转换准确率。
目前语音识别后的文本纠错技术,大多数聚焦于借助于上下文的文本纠错技术。
不过,这一纠错实现方式不适用于没有上下文的情况。比如,在林业应用领域,户外工作人员需要当场往手机中输入树种名时,由于手动输入较为不便,故易选择语音输入树种名,但转换出的结果大多差强人意。
发明内容
本发明提供了一种字段值纠错方法、装置、可读介质及存储控制器,能够适用于没有上下文的情况。
为了达到上述目的,本发明是通过如下技术方案实现的:
第一方面,本发明提供了一种字段值纠错方法,确定预设的汉字音形编码规则,所述汉字音形编码规则包括至少一个韵母,以及每一个所述韵母的算法编码;
确定预设的标准字段值集合,所述标准字段值集合包括至少一个标准字段值,以及每一个所述标准字段值的韵母编码向量,其中,字段值的韵母编码向量包括字段值中每一个汉字的韵母的算法编码;
还包括:
获取待纠错字段值;
根据所述汉字音形编码规则,确定所述待纠错字段值的韵母编码向量;
根据所述待纠错字段值的韵母编码向量和各个目标标准字段值的韵母编码向量,分别计算所述待纠错字段值和各个所述目标标准字段值的韵母相似度,所述目标标准字段值的汉字个数等于所述待纠错字段值的汉字个数;
判断全部所述目标标准字段值中是否有且仅有一个第一标准字段值,所述待纠错字段值和所述第一标准字段值的韵母相似度符合预设的相似度条件,若是,将所述待纠错字段值纠正为所述第一标准字段值。
进一步地,所述汉字音形编码规则还包括至少一个声母,以及每一个所述声母的算法编码;
所述标准字段值集合还包括每一个所述标准字段值的声母韵母编码向量,其中,字段值的声母编码向量包括字段值中每一个汉字的声母的算法编码,字段值的声母韵母编码向量包括字段值的韵母编码向量和字段值的声母编码向量;
在所述判断全部所述目标标准字段值中是否有且仅有一个第一标准字段值之后,进一步包括:
若否,根据所述汉字音形编码规则,确定所述待纠错字段值的声母韵母编码向量;
根据所述待纠错字段值的声母韵母编码向量和各个所述目标标准字段值的声母韵母编码向量,分别计算所述待纠错字段值和各个所述目标标准字段值的声母韵母相似度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京林业大学,未经北京林业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910247910.2/2.html,转载请声明来源钻瓜专利网。