[发明专利]用于近似串匹配的方法和系统有效

专利信息
申请号: 200880014162.3 申请日: 2008-04-03
公开(公告)号: CN101675430A 公开(公告)日: 2010-03-17
发明(设计)人: B·Z·拉姆博夫 申请(专利权)人: 国际商业机器公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京市金杜律师事务所 代理人: 吴立明
地址: 美国*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 近似 匹配 方法 系统
【说明书】:

技术领域

本发明涉及近似串匹配的领域。具体地,其涉及使用特里数据 结构的近似串匹配。

背景技术

近似串匹配是在许多情况下经常需要的操作,上述情况诸如是 用于错拼字的拼写建议的生成、自然语言中大数据库的近似搜索、 或者使用形成被识别图样(pattern)的其他字符的近似搜索。

经常需要具有复合字处理的近似串匹配,其中,使字或者可以 自然分解为多个成分的任何种类数据相匹配。字或成分之间的隔断 可以在需要复合字或成分支持的输入图样中缺失,以使输入图样与 被识别字或成分匹配。

美国专利申请第US 2005/091030和US 2006/004744号给出了可 以处理复合字的近似串匹配的方法。US 2005/091030依靠广泛使用 的复合字的大字典与仅覆盖某些类型误差的半近似搜索的结合。

US 2006/004744包括具有基于特里(trie)的字典,用于字片以 及用于全字的注释节点。该方法包括:如果特里步行器(walker)到 达字片的注释节点并且当前聚集建议比目标串短,则将特里步行器 环回到根节点。这迫使特里步行器接受字片以及单独字。US 2006/004744给出复合字的完全处理,但是其效率由于对右手侧字部 分匹配的重复查找而不是很好。

在US 2006/004744中,还描述了一种方法,其中,在基于特里 的字典中的近似串匹配包括特里数据结构中的校正规则。

发明内容

本发明的目的在于提供一种对近似串匹配的改进。改进的方面 包括校正规则的处理、对匹配处理的累积成本约束的规定、以及复 合字的处理。

根据本发明的第一方面,提供了一种用于对输入图样与特里数 据结构进行近似串匹配的方法,包括:遍历特里数据结构以找出输 入图样的近似部分和完全字符串匹配,其中,遍历特里数据结构的 节点以处理串的字符对该字符应用任何可应用校正规则,其中,每 个校正规则均具有相关成本,该成本在每个字符处理后被调整;随 着字符串被聚集而累积成本;以及根据聚集串的累积成本和可应用 校正规则的潜在成本,限制对特里数据结构的遍历。

在一个实施例中,特里分支的递归处理:如果字符串的累积成 本低于预定阈值,则被全部执行;限制于与输入图样中的有效位置 的字符相匹配的、或者处于可应用显著校正规则中的字符来执行; 或者,如果不存在这些字符,则不被执行。

除了校正规则外,该方法优选地应用包括每个都与成本相关的 插入、删除、或替换之一的字符的基本过渡(transition)。

可以针对输入图样中的字符转置(transposition)的所有可能应 用自动生成校正规则。优选地,可应用于输入图样中的字符的校正 规则是在开始遍历之前确定的。

优选地,通过待处理的字符位置来对可应用校正规则做索引。 通过待处理的字符位置做索引可以包括允许在串中进行预定数量的 插入或删除字符。

该方法可以包括:确定候选的近似匹配并且使用累积成本作为 候选匹配的权重。

该方法还可以包括:确定近似部分匹配,其中部分匹配的长度 比输入图样的长度短;以及保留(save)部分匹配,其中累积成本作 为用于对与输入图样的右手匹配的遍历的开始成本。对复合字的右 手匹配的遍历可以开始于部分匹配的末端位置的字符位置。该方法 可以包括:重复(iterate)经过存在部分匹配的所有位置并且使用所 保留的累积成本作为用于右手侧匹配遍历的开始点。任何的完全右 手侧匹配都可以与所有的左手侧部分匹配结合。左手侧部分匹配也 可以被结合。

用于一个或多个部分匹配的累积成本可以用于编译对右手侧查 找的最佳用例场景。校正规则可以跨越字部的附属点而应用。

向量处理可以用于同时执行针对偏移范围的校正。

根据本发明的第二方面,提供了一种用于输入图样与特里数据 结构的近似串匹配的数据结构,包括:针对输入图样的字符的每个 可应用校正规则的数据结构元素,该元素由字符位置做索引;由字 符位置做索引的成本矩阵,其中,成本矩阵在特里数据结构的遍历 期间被更新,以反映所应用的校正规则的累积成本。

字符位置可以由所处理的字符的数量以及插入或删除字符的偏 移一起来确定。可以为用于对字符的多个可应用校正规则的字符位 置提供多个数据结构元素。对应于校正规则的输出中的字符的数量 来叠置多个数据结构元素。所叠置的数据元素可以反向链接。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200880014162.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top