[发明专利]一种字符串距离计算方法和装置在审
申请号: | 201610096589.9 | 申请日: | 2016-02-22 |
公开(公告)号: | CN107102998A | 公开(公告)日: | 2017-08-29 |
发明(设计)人: | 范晓锋 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 北京博思佳知识产权代理有限公司11415 | 代理人: | 靳玫 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 字符串 距离 计算方法 装置 | ||
1.一种字符串距离计算方法,其特征在于,所述方法用于由候选字符串集合中选择与给定的目标字符串相似的候选字符串;所述方法包括:
获取所述候选字符串和目标字符串的关联位图信息,所述关联位图信息包括如下两项中的至少一项:分别对应候选字符串和目标字符串的两个字符串位图的位图权重,或者,所述两个字符串位图的位图差的位图权重;
根据所述关联位图信息,筛除掉所述候选字符串集合中与目标字符串的字符串距离在距离阈值范围之外的候选字符串,并分别计算剩余的候选字符串与所述目标字符串的字符串距离;
所述字符串位图包括多个标识位,所述标识位的取值包括第一取值和第二取值,所述第一取值表示该标识位对应的预设标准字符包含在字符串中,所述第二取值表示所述标识位对应的预设标准字符未包含在字符串中;所述字符串位图的位图权重表示所述字符串位图中的第一取值的数量;所述位图差是将两个字符串位图中对应位置的标识位的取值分别进行异或运算得到,所述位图差的位图权重表示所述位图差中异或取值为真的标识位的数量。
2.根据权利要求1所述的方法,其特征在于,当获取的所述关联位图信息包括:分别对应候选字符串和目标字符串的两个字符串位图的位图权重时;
所述根据关联位图信息,筛除掉候选字符串集合中与目标字符串的距离在距离阈值范围之外的候选字符串,包括:
如果所述候选字符串对应的字符串位图的位图权重,与目标字符串对应的字符串位图的位图权重的差值在距离阈值范围之外,则将候选字符串筛除。
3.根据权利要求1所述的方法,其特征在于,当关联位图信息包括:分别对应候选字符串和目标字符串的两个字符串位图的位图差的位图权重时;
所述根据关联位图信息,筛除掉候选字符串集合中与目标字符串的距离在距离阈值范围之外的候选字符串,包括:
如果所述两个字符串位图的位图差的位图权重在距离阈值范围之外,则 将所述候选字符串筛除。
4.根据权利要求1所述的方法,其特征在于,所述候选字符串集合中的每个候选字符串的字符串位图及对应的位图权重,被预先计算并存储;
所述获取候选字符串和目标字符串的关联位图信息,根据关联位图信息,筛除掉候选字符串集合中与目标字符串的字符串距离在距离阈值范围之外的候选字符串,并分别计算剩余候选字符串与目标字符串的字符串距离,包括:
当给定所述目标字符串时,计算所述目标字符串的字符串位图和对应的位图权重;
在候选字符串集合中,根据预先存储的候选字符串的字符串位图的位图权重,如果候选字符串对应的位图权重与目标字符串对应的位图权重的差值在距离阈值之外,则将所述候选字符串筛除,剩余的候选字符串构成第一候选字符串集合;
在所述第一候选字符串集合中,分别计算各个候选字符串与目标字符串的两个字符串位图的位图差,以及所述位图差的位图权重;如果候选字符串和目标字符串的两个字符串位图的位图差的位图权重在距离阈值范围之外,则将所述候选字符串筛除,得到第二候选字符串集合;
分别计算目标字符串与所述第二候选字符串集合中的各个候选字符串之间的字符串距离。
5.一种字符串距离计算方法,其特征在于,所述方法用于由候选字符串集合中选择与给定的目标字符串相似的候选字符串;所述方法包括:
获取所述候选字符串和目标字符串中所包含字符的字符差异信息;
若所述字符差异信息大于差异阈值,则将所述候选字符串由候选字符串集合中筛除,并计算所述候选字符串集合中剩余的候选字符串与所述目标字符串的字符串距离。
6.根据权利要求5所述的方法,其特征在于,所述获取所述候选字符串和目标字符串中所包含字符的字符差异信息,包括:
获取第一字符数目和第二字符数目,所述第一字符数目表示所述候选字 符串中包含的不同字符的数量,所述第二字符数目表示所述目标字符串中包含的不同字符的数量;
计算所述第一字符数目和第二字符数目的差值,作为所述字符差异信息。
7.根据权利要求5所述的方法,其特征在于,所述获取所述候选字符串和目标字符串中所包含字符的字符差异信息,包括:
获取第三字符数目,所述第三字符数目表示:在所述候选字符串和目标字符串中,只包含于其中一个字符串的字符的数量;
将所述第三字符数目作为所述字符差异信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610096589.9/1.html,转载请声明来源钻瓜专利网。