[发明专利]字符串相似度确定在审
申请号: | 202210773310.1 | 申请日: | 2022-07-01 |
公开(公告)号: | CN115700527A | 公开(公告)日: | 2023-02-07 |
发明(设计)人: | T·格施温德;C·A·米克索维奇查什;P·斯科顿 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F16/903 | 分类号: | G06F16/903;G06F18/22 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 郑宗玉 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字符串 相似 确定 | ||
字符串相似度确定。一种用于确定第一字符串与第二字符串之间相似度的系统和方法。可以确定为获得第二字符串而要对第一字符串执行的编辑操作序列。编辑操作属于第一类的或第二类的。第一类操作包括字符插入操作或字符删除操作。第二类操作包括字符保持操作。将第一类编辑操作与指示应用编辑操作的成本的操作分数关联。将第一类编辑操作与指示第一类编辑操作之后是否紧跟着第二类编辑操作的切换分数关联。组合与该编辑操作序列关联的切换分数和/或操作分数,以获得指示第一与第二字符串之间的相似度水平的组合分数。
技术领域
本发明涉及数字计算机系统领域,更具体地说,涉及一种用于确定两个字符串之间相似度的方法。
背景技术
记录链接(Record Linkage)要求将源数据集的元素链接到目标数据集的相关数据项。为此,可以在数据集的记录之间进行记录匹配。进行记录匹配包括计算字符串之间的相似度。然而,不断需要改进距离测量。
发明内容
各种实施例提供了如独立权利要求的主题所述的一种用于确定两个字符串之间的相似度的方法、计算机系统和计算机程序产品。从属权利要求中描述了有利实施例。本公开的实施例如果不相互排斥,则可以互相自由组合。
一方面,本发明涉及一种用于确定具有N1个字符的字符串s1与具有N2个字符的字符串s2之间的相似度的方法,其中N1≥0,N2≥0。该方法包括:
a.提供距离算法,其被配置用于:
i.接收第一字符串和第二字符串;
ii.确定为了获得第二字符串而要对第一字符串的字符执行的一个或多个编辑操作的序列,编辑操作是第一类的或第二类的,第一类编辑操作包括字符插入操作或字符删除操作,第二类编辑操作包括字符保持操作;其中,将第一类编辑操作与指示应用编辑操作的成本的操作分数关联;其中,将第一类编辑操作与指示在所述序列中第一类编辑操作之后是否紧跟着第二类编辑操作的切换分数关联;
iii.组合与所述编辑操作的序列关联的切换分数和/或操作分数,得到指示第一字符串与第二字符串之间的相似度水平的组合分数;
b.将字符串s1的前n2个字符作为第一字符串且将字符串s2的前n2个字符作为第二字符串输入距离算法以获得组合分数,其中0≤n1≤N1,0≤n2≤N2;
c.用所获得的组合分数来确定字符串s1与字符串s2之间的距离。
另一方面,本发明涉及一种计算机程序产品,其包括计算机可读存储介质,该计算机可读存储介质包含计算机可读程序代码,该计算机可读程序代码被配置用于实现根据前述实施例的方法的所有步骤。
另一方面,本发明涉及一种用于确定具有N1个字符的字符串s1与具有N2个字符的字符串s2之间的相似度的计算机系统,其中N1≥0,N2≥0。该计算机系统被配置用于:
a.提供距离算法,其被配置用于:
i.接收第一字符串和第二字符串;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210773310.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:显示装置
- 下一篇:优化机器学习工作负荷的部署