[发明专利]文本纠错方法和装置在审
申请号: | 201810030108.3 | 申请日: | 2018-01-12 |
公开(公告)号: | CN110032722A | 公开(公告)日: | 2019-07-19 |
发明(设计)人: | 吴晓东;邵荣防;郝晖;谢群群;陈贱辉 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;杨晓伟 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 纠错 纠错文本 文本 方法和装置 候选文本 拼音序列 词典树 拼音 计算机技术领域 英文 纠错结果 中文 匹配 覆盖率 查找 | ||
本发明公开了一种文本纠错方法和装置,涉及计算机技术领域。其中,该方法包括:获取待纠错文本的拼音序列;查找混合词典树,以获取与所述待纠错文本的拼音序列匹配的候选文本集;所述混合词典树包括拼音与中文词及英文词的对应关系;根据纠错模型和所述候选文本集确定所述待纠错文本的纠错结果。通过以上步骤,能够很好地处理中文、英文、拼音混合的文本纠错,提高了文本纠错的覆盖率和适用性。
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本纠错方法和装置。
背景技术
近年来,查询纠错技术在检索系统得到了广泛应用,并取得了较好的效果。随着互联网行业的发展,查询纠错技术在其他互联网领域(比如电商领域)也受到了越来越多的关注。
现有的查询纠错技术主要分为以下两种:基于用户会话的文本纠错方法、基于概率模型的文本纠错方法。在第一种文本纠错方法中,主要是根据用户搜索的会话日志,挖掘出用户主动改写的候选纠错对,并将其作为纠错后的正确搜索词。在第二种文本纠错方法中,主要是将点击量较高的用户搜索词作为纠错候选集,然后利用统计模型计算候选文本的概率,并将概率最大的作为纠错后的正确搜索词。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:第一、现有技术不能很好地处理中文、英文、拼音混合的查询纠错;第二、现有技术对于长尾词的查询纠错处理速度较慢、时效性较差。
发明内容
有鉴于此,本发明提供一种文本纠错方法和装置,能够很好地处理中文、英文、拼音混合的文本纠错,提高了文本纠错的覆盖率和适用性。
为实现上述目的,根据本发明的第一方面,提供了一种文本纠错方法。
本发明的文本纠错方法包括:获取待纠错文本的拼音序列;查找混合词典树,以获取与所述待纠错文本的拼音序列匹配的候选文本集;所述混合词典树包括拼音与中文词及英文词的对应关系;根据纠错模型和所述候选文本集确定所述待纠错文本的纠错结果。
可选地,所述获取待纠错文本的拼音序列的步骤包括:若所述待纠错文本由汉字组成,则将所述汉字的拼音作为待纠错文本的拼音序列;若所述待纠错文本由非汉字组成,则将所述非汉字本身作为待纠错文本的拼音序列;若所述待纠错文本由汉字和非汉字组成,则将由所述汉字的拼音和所述非汉字本身构成的整体作为待纠错文本的拼音序列;其中,所述非汉字包括:数字、英文词和/或拼音。
可选地,所述查找混合词典树,以获取与所述待纠错文本的拼音序列匹配的候选文本集的步骤包括:基于正向最大匹配算法和反向最大匹配算法查找混合词典树,并根据正向最大匹配结果和反向最大匹配结果确定与所述拼音序列匹配的候选文本集。
可选地,所述根据纠错模型和候选文本集确定所述待纠错文本的纠错结果的步骤包括:基于多个纠错模型分别计算所述候选文本集中每个候选文本的评估因子;将多个评估因子进行融合,以得到所述候选文本的评估值;根据所述评估值确定所述待纠错文本的纠错结果。
可选地,所述多个纠错模型包括以下至少两个:噪声信道纠错模型、编辑距离纠错模型、拼音距离纠错模型。
可选地,在所述多个纠错模型包括噪声信道纠错模型、编辑距离纠错模型和拼音距离纠错模型的情况下,所述基于多个纠错模型分别计算所述候选文本集中每个候选文本的评估因子的步骤包括:基于噪声信道纠错模型计算所述候选文本的噪声信道概率,并将其作为所述候选文本的第一评估因子;基于编辑距离纠错模型计算所述候选文本的编辑距离,并根据编辑距离确定所述候选文本的第二评估因子;基于拼音距离纠错模型计算所述候选文本的拼音距离,并根据拼音距离确定所述候选文本的第三评估因子。
可选地,所述基于拼音距离纠错模型计算所述候选文本的拼音距离的步骤包括:对待纠错文本与候选文本中的字,逐一比较其拼音组成字母是否相同以及声调是否相同;根据比较结果确定每个字的拼音距离,并将所述每个字的拼音距离的加和作为所述候选文本的拼音距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810030108.3/2.html,转载请声明来源钻瓜专利网。