[发明专利]管理关于近似串匹配的档案有效
申请号: | 200880128089.2 | 申请日: | 2008-12-30 |
公开(公告)号: | CN101978348A | 公开(公告)日: | 2011-02-16 |
发明(设计)人: | 阿伦·安德森 | 申请(专利权)人: | 起元技术有限责任公司 |
主分类号: | G06F7/00 | 分类号: | G06F7/00 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 邵亚丽 |
地址: | 美国马*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 管理 关于 近似 匹配 档案 | ||
技术领域
本发明涉及管理关于近似串匹配的档案(archive)。
背景技术
关于近似串匹配(也被称做“模糊”或“不精确”串匹配或搜索)的各种技术被用来根据串度量(也叫做“相似函数”)寻找在一定偏差内匹配给定样式串的串。被搜索的串可以是被称为“文本”的较大串的子串、或者可以是包含在例如数据库的记录中的串。串度量的一种类别是“编辑距离”。编辑距离的一个示例是Levenshtein距离,其对需要将一个串转换为另一串的编辑操作(字符的插入、删除或替换)的最小数目进行计数。近似串匹配包括在线匹配和离线匹配,在在线匹配中在匹配开始之前无法处理(或“编索引”)要被搜索的文本,在离线匹配中在匹配开始之前能够处理文本。
发明内容
在一个方面中,一般,描述一种用于管理确定与记录中出现的串关联的近似匹配的档案的方法。该方法包括:处理记录以确定对应于在记录中出现的串的一组串代表;为该组中的至少一些串代表的每个产生多个接近代表,所述多个接近代表的每个是根据该串中的至少一些相同字符而产生的;以及在档案中存储条目,所述条目的每个表示基于它们各自的接近代表的在至少两个串之间的潜在近似匹配。
各个方面能够包括以下特征的一个或多个。
每个串代表包括一个串。
每个接近代表包括该串中的至少一些相同字符。
为该组中的给定串产生多个接近串包括产生其每个使得从给定串中删除不同的字符的接近串。
为该组中的给定串产生多个接近串包括产生其每个使得从给定串中删除单个字符的接近串。
为该组中的给定串产生多个接近串的步骤包括产生其中的至少一些使得从给定串中删除多个字符的接近串。
产生其每个是从给定串中删除不同的字符的接近串包括:如果给定串比预定长度短则产生其每个使得从给定串中删除单个字符的接近串,以及如果给定串比预定长度长则产生其中的至少一些使得从给定串中删除多个字符的接近串。
该方法还包括对于该组中的至少一些串代表的每个,确定记录中对应串的出现频率。
该方法还包括:对于该组中的至少一些串代表的每个,基于包括该串的出现频率和在档案中作为该串的潜在近似匹配而代表的至少一些串的出现频率的总和产生表示相应串的重要性的重要性值。
该重要性值是基于该总和的反来产生的。
该方法还包括:通过确定短语中的串是否对应于近似匹配来确定包括多个串的不同短语是否对应于近似匹配,其中基于它们相应的重要性值来选择所述短语中的串。
短语中串的重要性值是基于该总和的,并且基于该串的长度、短语中串的位置、其中出现串的记录的字段、和其中该字段出现的记录的源中的至少一个。
该方法还包括:对于档案中至少一些条目的每个产生与条目相关联的分值,其量化至少两个串之间的潜在近似匹配的质量。
该方法还包括:通过将与条目相关联的分值与阈值比较来确定与条目相关联的串是否对应于近似匹配。
该分值基于用来确定至少两个串之间的潜在近似匹配的各自接近代表之间的对应性。
处理记录以确定对应于在记录中出现的串的一组串代表包括:修改在至少一个记录中出现的串以产生修改串,以便包括在该组串代表中。
修改串包括去除或替换标点。
修改串包括将串编码为不同的代表。
修改串包括将串编码为数字代表。
将串编码为数字代表包括:将串中的每个字符映射为素数,并且将串表示为映射到串中的字符的素数的乘积。
该档案包括基于来自用户的输入而表示至少两个串之间的潜在近似匹配的至少一些条目。
在另一方面,一般,描述了一种存储在计算机可读介质中的计算机程序,用于管理用来确定与在记录中出现的串相关联的近似匹配的档案。该计算机程序包括指令,用于促使计算机来:处理记录以确定一组串代表,所述串代表对应于在记录中出现的串;为该组中的至少一些串代表的每个,产生多个接近代表,所述多个接近代表的每个根据该串中的至少一些相同字符而产生;以及存储条目在档案中,每个条目表示基于它们各自的接近代表的在至少两个串之间的潜在近似匹配。
在另一方面,一般,描述了一种用于管理用来确定与在记录中出现的串相关联的近似匹配的档案的系统。该系统包括:用于处理记录以确定一组串代表的部件,所述串代表对应于在记录中出现的串;用于对于该组中的至少一些串代表的每个产生多个接近代表的部件,所述多个接近代表的每个根据该串中的至少一些相同字符而产生;以及用于存储条目在档案中的部件,每个条目表示基于它们各自的接近代表的在至少两个串之间的潜在近似匹配。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于起元技术有限责任公司,未经起元技术有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200880128089.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:轴承
- 下一篇:用于控制供电系统的操作的方法和装置