[发明专利]管理关于近似串匹配的档案有效
申请号: | 200880128089.2 | 申请日: | 2008-12-30 |
公开(公告)号: | CN101978348A | 公开(公告)日: | 2011-02-16 |
发明(设计)人: | 阿伦·安德森 | 申请(专利权)人: | 起元技术有限责任公司 |
主分类号: | G06F7/00 | 分类号: | G06F7/00 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 邵亚丽 |
地址: | 美国马*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 管理 关于 近似 匹配 档案 | ||
1.一种用于管理用来确定与在记录中出现的串相关联的近似匹配的档案的方法,该方法包括步骤:
处理记录以确定一组串代表,所述串代表对应于在记录中出现的串;
为该组中的至少一些串代表的每个产生多个接近代表,所述多个接近代表的每个根据该串中至少一些相同字符而产生;以及
存储条目在档案中,每个条目表示基于它们各自的接近代表的在至少两个串之间的潜在近似匹配。
2.根据权利要求1所述的方法,其中,每个串代表包括一个串。
3.根据权利要求2所述的方法,其中,每个接近代表包括该串中的至少一些相同字符。
4.根据权利要求3所述的方法,其中,为该组中的给定串产生多个接近串的步骤包括产生其每个使得从给定串中删除不同的字符的接近串。
5.根据权利要求4所述的方法,其中,为该组中的给定串产生多个接近串的步骤包括产生其每个使得从给定串中删除单个字符的接近串。
6.根据权利要求5所述的方法,其中,为该组中的给定串产生多个接近串的步骤包括产生其中的至少一些使得从给定串中删除多个字符的接近串。
7.根据权利要求4所述的方法,其中,产生其每个是从给定串中删除不同的字符的接近串的步骤包括:如果给定串比预定长度短则产生其每个使得从给定串中删除单个字符的接近串,以及如果给定串比预定长度长则产生其中的至少一些使得从给定串中删除多个字符的接近串。
8.根据权利要求1所述的方法,还包括步骤:对于该组中的至少一些串代表的每个,确定记录中对应串的出现频率。
9.根据权利要求8所述的方法,还包括步骤:对于该组中的至少一些串代表的每个,基于包括该串的出现频率和在档案中作为该串的潜在近似匹配而代表的至少一些串的出现频率的总和产生表示相应串的重要性的重要性值。
10.根据权利要求9所述的方法,其中,该重要性值是基于该总和的反来产生的。
11.根据权利要求9所述的方法,还包括步骤:通过确定短语中的串是否对应于近似匹配来确定包括多个串的不同短语是否对应于近似匹配,其中基于它们相应的重要性值来选择所述短语中的串。
12.根据权利要求11所述的方法,其中短语中串的重要性值是基于该总和的,并且基于该串的长度、短语中串的位置、其中出现串的记录的字段、和其中该字段出现的记录的源中的至少一个。
13.根据权利要求1所述的方法,还包括步骤:对于档案中至少一些条目的每个产生与条目相关联的分值,其量化至少两个串之间的潜在近似匹配的质量。
14.根据权利要求13所述的方法,还包括步骤:通过将与条目相关联的分值与阈值比较来确定与条目相关联的串是否对应于近似匹配。
15.根据权利要求13所述的方法,其中,该分值基于用来确定至少两个串之间的潜在近似匹配的各自接近代表之间的对应性。
16.根据权利要求1所述的方法,其中,处理记录以确定对应于在记录中出现的串的一组串代表包括:修改在至少一个记录中出现的串以产生修改串,以便包括在该组串代表中。
17.根据权利要求16所述的方法,其中,修改串包括去除或替换标点。
18.根据权利要求16所述的方法,其中,修改串包括将串编码为不同的代表。
19.根据权利要求18所述的方法,其中,修改串包括将串编码为数字代表。
20.根据权利要求19所述的方法,其中,将串编码为数字代表包括:将串中的每个字符映射为素数,并且将串表示为映射到串中的字符的素数的乘积。
21.根据权利要求1所述的方法,其中,该档案包括基于来自用户的输入而表示至少两个串之间的潜在近似匹配的至少一些条目。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于起元技术有限责任公司,未经起元技术有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200880128089.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:轴承
- 下一篇:用于控制供电系统的操作的方法和装置