[发明专利]一种字符串距离计算方法和装置在审
申请号: | 201610096589.9 | 申请日: | 2016-02-22 |
公开(公告)号: | CN107102998A | 公开(公告)日: | 2017-08-29 |
发明(设计)人: | 范晓锋 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 北京博思佳知识产权代理有限公司11415 | 代理人: | 靳玫 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 字符串 距离 计算方法 装置 | ||
技术领域
本申请涉及网络技术,特别涉及一种字符串距离计算方法和装置。
背景技术
字符串距离计算,可以应用于判断两个字符串的相似性。例如,对于一个给定的目标字符串,需要在一个字符串集合中找到与该目标字符串相似的字符串时,就可以将目标字符串与集合中的各个字符串逐个计算距离,将距离小于预设的距离阈值的字符串,确定为与目标字符串相似的字符串。但是这种方式,当字符串集合中的字符串数量较多时,运行的时间代价也较高,比如,在一个包括上千万条地址的数据库中,寻找一个与给定地址相似的记录时,要运行很长时间,无法满足某些需要快速获得结果的应用的需求。
发明内容
有鉴于此,本申请提供一种字符串距离计算方法和装置,以在候选字符串集合中通过计算字符串距离寻找相似字符串时,提高计算效率。
具体地,本申请是通过如下技术方案实现的:
第一方面,提供一种字符串距离计算方法,所述方法用于由候选字符串集合中选择与给定的目标字符串相似的候选字符串;所述方法包括:
获取所述候选字符串和目标字符串的关联位图信息,所述关联位图信息包括如下两项中的至少一项:分别对应候选字符串和目标字符串的两个字符串位图的位图权重,或者,所述两个字符串位图的位图差的位图权重;
根据所述关联位图信息,筛除掉所述候选字符串集合中与目标字符串的 字符串距离在距离阈值范围之外的候选字符串,并分别计算剩余的候选字符串与所述目标字符串的字符串距离;
所述字符串位图包括多个标识位,所述标识位的取值包括第一取值和第二取值,所述第一取值表示该标识位对应的预设标准字符包含在字符串中,所述第二取值表示所述标识位对应的预设标准字符未包含在字符串中;所述字符串位图的位图权重表示所述字符串位图中的第一取值的数量;所述位图差是将两个字符串位图中对应位置的标识位的取值分别进行异或运算得到,所述位图差的位图权重表示所述位图差中异或取值为真的标识位的数量。
第二方面,提供一种字符串距离计算方法,所述方法用于由候选字符串集合中选择与给定的目标字符串相似的候选字符串;所述方法包括:
获取所述候选字符串和目标字符串中所包含字符的字符差异信息;
若所述字符差异信息大于差异阈值,则将所述候选字符串由候选字符串集合中筛除,并计算所述候选字符串集合中剩余的候选字符串与所述目标字符串的字符串距离。
第三方面,提供一种字符串距离计算装置,所述装置用于由候选字符串集合中选择与给定的目标字符串相似的候选字符串;所述装置包括:
信息获取模块,用于获取所述候选字符串和目标字符串的关联位图信息,所述关联位图信息包括如下两项中的至少一项:分别对应候选字符串和目标字符串的两个字符串位图的位图权重,或者,所述两个字符串位图的位图差的位图权重;所述字符串位图包括多个标识位,所述标识位的取值包括第一取值和第二取值,所述第一取值表示该标识位对应的预设标准字符包含在字符串中,所述第二取值表示标识位对应的预设标准字符未包含在字符串中;所述字符串位图的位图权重表示所述字符串位图中的第一取值的数量;所述位图差是将两个字符串位图中对应位置的标识位的取值分别进行异或运算得到,所述位图差的位图权重表示所述位图差中异或取值为真的标识位的数量;
筛选处理模块,用于根据所述关联位图信息,筛除掉所述候选字符串集合中与目标字符串的字符串距离在距离阈值范围之外的候选字符串,并分别 计算剩余的候选字符串与所述目标字符串的字符串距离。
第四方面,提供一种字符串距离计算装置,所述装置用于由候选字符串集合中选择与给定的目标字符串相似的候选字符串;所述装置包括:
差异获取模块,用于获取所述候选字符串和目标字符串中所包含字符的字符差异信息;
距离计算模块,用于若所述字符差异信息大于差异阈值,则将所述候选字符串由候选字符串集合中筛除,并计算所述候选字符串集合中剩余的候选字符串与所述目标字符串的字符串距离。
本申请提供的字符串距离计算方法和装置,通过根据候选字符串和目标字符串中所包含字符的字符差异信息,例如,两者的关联位图信息,由候选字符串集合中预先筛除掉一部分候选字符串,再计算剩余的候选字符串与目标字符串的字符串距离,使得在候选字符串集合中通过计算字符串距离寻找相似字符串时,集合的规模得到了大大减小,从而提高了计算效率。
附图说明
图1是本申请一示例性实施例示出的一种字符串距离计算方法的流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610096589.9/2.html,转载请声明来源钻瓜专利网。