[发明专利]词汇纠错方法、装置、计算机设备及存储介质在审
申请号: | 202010587455.3 | 申请日: | 2020-06-24 |
公开(公告)号: | CN111737981A | 公开(公告)日: | 2020-10-02 |
发明(设计)人: | 陈乐清;刘东煜;曾增烽;李炫 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/284;G06F16/31;G06F16/35;G06F16/903;G06K9/62 |
代理公司: | 深圳众鼎专利商标代理事务所(普通合伙) 44325 | 代理人: | 谭果林 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词汇 纠错 方法 装置 计算机 设备 存储 介质 | ||
本发明公开了一种词汇纠错方法、装置、计算机设备及存储介质,获取待处理词汇,待处理词汇包括N个候选字符;采用倒排索引方法,从预设的分层倒排索引字典中获取每一候选字符对应的候选词集,组成候选词集集合,其中,分层倒排索引字典中每一字符对应的候选词集是以字符的数量进行分类和分层的方式存储的;采用编辑距离算法从待处理词汇中确定待替换字符,基于待替换字符,从候选词集集合中确定待处理词集,待处理词集包括目标字符和每一目标字符对应的候选词集;对每一目标字符对应的候选词集进行交集处理,得到目标词汇,其中,目标词汇为对待处理词汇进行纠错后得到的词汇;从而解决了进行词汇纠错时的效率不高问题。
技术领域
本发明涉及数据处理领域,尤其涉及一种词汇纠错方法、装置、计算机设备及存储介质。
背景技术
随着互联网技术应用的越来越广泛,用户越来越频繁的需要通过计算机输入信息而完成人机交互。但是用户在很多情况下有可能会输入了错误信息,因此经常需要对输入的信息进行纠错。在对信息进行纠错过程中往往会涉及到对数据的处理和查询过程。目前,在对数据进行纠错的候选词查询过程时,往往需要对待纠错数据进行编辑距离扩充再与扩充词典进行对比。因此,经常会造成扩充词典在加载为常驻内存时会损耗过大的内存空间;以及在与庞大数量级的扩充词典进比对时会消耗较长的索引时间。
发明内容
本发明实施例提供一种词汇纠错方法、装置、计算机设备及存储介质,以解决进行词汇纠错时的效率不高问题。
一种词汇纠错方法,包括:
获取待处理词汇,所述待处理词汇包括N个候选字符;
采用倒排索引方法,从预设的分层倒排索引字典中获取每一所述候选字符对应的候选词集,组成候选词集集合,其中,所述分层倒排索引字典中每一字符对应的候选词集是以字符的数量进行分类和分层的方式存储的;
采用编辑距离算法从所述待处理词汇中确定待替换字符,基于所述待替换字符,从所述候选词集集合中确定待处理词集,所述待处理词集包括目标字符和每一所述目标字符对应的候选词集;
对每一所述目标字符对应的候选词集进行交集处理,得到目标词汇,其中,所述目标词汇为对所述待处理词汇进行纠错后得到的词汇。
一种词汇纠错装置,包括:
第一获取模块,用于获取待处理词汇,所述待处理词汇包括N个候选字符;
第二获取模块,用于采用倒排索引方法,从预设的分层倒排索引字典中获取每一所述候选字符对应的候选词集,组成候选词集集合,其中,所述分层倒排索引字典中每一字符对应的候选词集是以字符的数量进行分类和分层的方式存储的;
第一确定模块,用于采用编辑距离算法从所述待处理词汇中确定待替换字符,基于所述待替换字符,从所述候选词集集合中确定待处理词集,所述待处理词集包括目标字符和每一所述目标字符对应的候选词集;
第一交集处理模块,用于对每一所述目标字符对应的候选词集进行交集处理,得到目标词汇,其中,所述目标词汇为对所述待处理词汇进行纠错后得到的词汇。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述词汇纠错方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述词汇纠错方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010587455.3/2.html,转载请声明来源钻瓜专利网。