[发明专利]比较有界域的值有效
申请号: | 201110056942.8 | 申请日: | 2011-03-02 |
公开(公告)号: | CN102193967A | 公开(公告)日: | 2011-09-21 |
发明(设计)人: | G·迪金森 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 顾嘉运 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 比较 界域 | ||
技术领域
本发明一般涉及数据库系统,尤其涉及数据库系统中的值的比较与匹配方法。
背景技术
通常使用模糊匹配算法来标识存储在计算机系统中的重复数据。重复数据的示例可以是存储在数据库系统处的对应于同一个人的多个记录(例如,这些记录中的一个可能具有拼写错误的姓名)。数据重复可导致浪费计算资源(例如,存储资源)。这些匹配算法被称为“模糊”是因为它们处理不精确(即,“模糊”)的数据比较。由于对将要匹配的每一个数据项的各个“模糊匹配候选”的处理,模糊匹配算法可能是时间密集的且资源密集的。例如,当前用于字符串的模糊匹配算法的计算复杂性相对于所检查的字符串的长度呈指数地增加(例如,O(N2))。
发明内容
公开了一种用于比较有界域中的两个值的模糊匹配方法。为有界域中的每一个值预先计算并存储容许差错集。作为示例而非限制,有界域可包括有限数字域、日期域、色谱域、列表域、或枚举集合域。此外,作为示例而非限制,容许差错可包括印刷差错、范围差错、换位差错、转写差错或其它类型的差错。有界域中的两个值的模糊匹配使用通过比较两个值中的每一个的容许差错集来降低复杂性的方法来完成。
提供本发明内容是为了以简化的形式介绍将在以下具体实施方式中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于限定所要求保护的主题的范围。
附图说明
图1是示出比较有界域中的两个值的具体实施方式的图示;
图2是示出有界域中的值的容许差错集的具体实施方式的图示;
图3是示出确定有界域中的两个值之间的比较分数的具体实施方式的图示;
图4是示出比较有界域中的值的方法的具体实施方式的流程图;
图5是示出比较有界域的方法的另一具体实施方式的流程图;以及
图6是包括可用于支持如图1-5所示的计算机实现的方法、计算机程序产品以及系统组件的实施方式的计算设备的计算环境的框图。
具体实施方式
公开了用于比较有界域中的值的方法、系统和计算机可读介质。在一具体实施方式中,一种计算机实现的方法包括对于有界域中的每一个值,确定与该值相关联的对应的容许差错集。该方法还包括将容许差错集存储在存储器处。该方法还包括基于对应于有界域中的第一值的第一容许差错集与对应于有界域中的第二值的第二容许差错集的比较来确定该第一值和第二值之间的比较分数。
在另一具体实施方式中,一种计算机系统包括处理器以及耦合到该处理器的存储器。该存储器存储指令,该指令在被处理器执行时引起包括计算组件和运行时比较组件的模糊匹配逻辑的执行。该计算组件被配置成对于有界域中的多个值中的每一个,确定对应于该值的容许差错集并将该容许差错集存储在存储器处。运行时比较组件被配置成基于对应于有界域中的第一值的第一容许差错集以及对应于有界域中的第二值的第二容许差错集来确定该第一值和第二值之间的比较分数。
在另一具体实施方式中,一种计算机可读介质包括指令,该指令在被计算机执行时使该计算机执行以下操作:对于有界域中的每一个值,确定与该值相关联的对应的容许差错集。这些指令还使计算机对容许差错集执行求散列操作。对特定容许差错集执行求散列操作产生表示该特定集合的位掩码以及该位掩码的逻辑真位的计数。这些指令还使计算机将位掩码和计数存储在静态分配的存储器部分中。这些指令使计算机接收有界域中的第一值和有界域中的第二值。这些指令还使计算机从存储器中检索对应于第一值的第一位掩码和第一计数以及对应于第二值的第二位掩码和第二计数。这些指令还使计算机确定第一位掩码和第二位掩码的Jaccard分数。
图1描绘了比较有界域100中的两个值的具体实施方式。有界域100可包括多个值(例如,说明性值102和106)。有界域100中的每一个值可具有相关联的“模糊边界”。例如,在图1所示的具体实施方式中,第一值102具有第一模糊边界104,而第二值106具有第二模糊边界108。
当两个值的模糊边界重叠时,这两个值可被称为“模糊相似”(例如,出于合并重复值的目的而被视作匹配)。此外,两个值之间的相似性的量可基于模糊边界之间的重叠的大小来量化。例如,在图1所示的具体实施方式中,值102和106可以是模糊相似的,因为模糊边界104和108相交形成交集110。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110056942.8/2.html,转载请声明来源钻瓜专利网。