[发明专利]字符串相似度确定在审
申请号: | 202210773310.1 | 申请日: | 2022-07-01 |
公开(公告)号: | CN115700527A | 公开(公告)日: | 2023-02-07 |
发明(设计)人: | T·格施温德;C·A·米克索维奇查什;P·斯科顿 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F16/903 | 分类号: | G06F16/903;G06F18/22 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 郑宗玉 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字符串 相似 确定 | ||
1.一种用于确定具有N1个字符的字符串s1与具有N2个字符的字符串s2之间的距离的方法,其中N1≥0,N2≥0,该方法包括:
提供距离算法,其被配置成用于:
接收第一字符串和第二字符串;
确定为了获得第二字符串而要对第一字符串的字符执行的一个或多个编辑操作的序列,编辑操作是第一类的或第二类的,第一类编辑操作包括字符插入操作或字符删除操作,第二类编辑操作包括字符保持操作;其中,将第一类编辑操作与指示应用编辑操作的成本的操作分数关联;其中,将第一类编辑操作与指示在所述序列中第一类编辑操作之后是否紧跟着第二类编辑操作的切换分数关联;
组合与所述编辑操作的序列关联的切换分数和/或操作分数,得到指示第一字符串与第二字符串之间的相似度水平的组合分数;
将字符串s1的前n1个字符作为第一字符串且将字符串s2的前n2个字符作为第二字符串输入至距离算法,以获得组合分数,其中,0≤n1≤N1且0≤n2≤N2;
用所获得的组合分数来确定字符串s1与字符串s2之间的距离。
2.根据权利要求1所述的方法,其中,在n1=N1且n2=N2的情况下,所获得的组合分数表示字符串s1与字符串s2之间的距离。
3.根据权利要求1所述的方法,其中,n1=0且n2=0;
所述输入还包括:
重复地将字符串s1的前n1个字符与字符串s2的前n2个字符输入到距离算法,其中,按照嵌套循环递增n1和n2,其中,n1代表外循环,n2代表内循环;
其中,距离算法被配置用于通过以下操作来在每次迭代中确定编辑操作的序列:
确定是否:
先前已经用第一编辑操作序列为具有n1-1个字符的第一字符串和具有n2个字符的第二字符串确定了第一组合分数,和/或
先前已经用第二编辑操作序列为具有n1个字符的第一字符串和具有n2-1个字符的第二字符串确定了第二组合分数,和/或
先前已经用第三编辑操作序列为具有n1-1个字符的第一字符串和具有n2-1个字符的第二字符串确定了第三组合分数,且第一字符串和第二字符串的最后一个字符相同;
如果确定先前未确定,则确定第一、第二和第三组合分数的组合分数,并选择所确定的组合分数中的最低分数;
确定为了从第一字符串获得第二字符串而要执行的除了与所选择的最低分数关联的第一、第二或第三编辑操作序列之一之外的附加操作,其中,如果所选择的对是(n1,n2-1),则附加操作是插入操作,如果所选择的对是(n1-1,n2),则附加操作是删除操作,如果所选择的对是(n1-1,n2-1),则附加操作是保持操作;
其中,编辑操作序列包括与所选择的最低分数关联的第一、第二或第三编辑操作序列其中之一和所确定的附加操作;
其中,距离算法在每个迭代中被配置得通过将最低分数与切换分数和/或与附加操作关联的操作分数进行组合而组合与编辑操作序列关联的切换分数和/或操作分数;
其中,用最后一次迭代获得的组合分数执行对字符串s1与字符串s2之间的距离的确定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210773310.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:显示装置
- 下一篇:优化机器学习工作负荷的部署