[发明专利]用于近似串匹配的方法和系统有效
申请号: | 200880014162.3 | 申请日: | 2008-04-03 |
公开(公告)号: | CN101675430A | 公开(公告)日: | 2010-03-17 |
发明(设计)人: | B·Z·拉姆博夫 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市金杜律师事务所 | 代理人: | 吴立明 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 近似 匹配 方法 系统 | ||
技术领域
本发明涉及近似串匹配的领域。具体地,其涉及使用特里数据 结构的近似串匹配。
背景技术
近似串匹配是在许多情况下经常需要的操作,上述情况诸如是 用于错拼字的拼写建议的生成、自然语言中大数据库的近似搜索、 或者使用形成被识别图样(pattern)的其他字符的近似搜索。
经常需要具有复合字处理的近似串匹配,其中,使字或者可以 自然分解为多个成分的任何种类数据相匹配。字或成分之间的隔断 可以在需要复合字或成分支持的输入图样中缺失,以使输入图样与 被识别字或成分匹配。
美国专利申请第US 2005/091030和US 2006/004744号给出了可 以处理复合字的近似串匹配的方法。US 2005/091030依靠广泛使用 的复合字的大字典与仅覆盖某些类型误差的半近似搜索的结合。
US 2006/004744包括具有基于特里(trie)的字典,用于字片以 及用于全字的注释节点。该方法包括:如果特里步行器(walker)到 达字片的注释节点并且当前聚集建议比目标串短,则将特里步行器 环回到根节点。这迫使特里步行器接受字片以及单独字。US 2006/004744给出复合字的完全处理,但是其效率由于对右手侧字部 分匹配的重复查找而不是很好。
在US 2006/004744中,还描述了一种方法,其中,在基于特里 的字典中的近似串匹配包括特里数据结构中的校正规则。
发明内容
本发明的目的在于提供一种对近似串匹配的改进。改进的方面 包括校正规则的处理、对匹配处理的累积成本约束的规定、以及复 合字的处理。
根据本发明的第一方面,提供了一种用于对输入图样与特里数 据结构进行近似串匹配的方法,包括:遍历特里数据结构以找出输 入图样的近似部分和完全字符串匹配,其中,遍历特里数据结构的 节点以处理串的字符对该字符应用任何可应用校正规则,其中,每 个校正规则均具有相关成本,该成本在每个字符处理后被调整;随 着字符串被聚集而累积成本;以及根据聚集串的累积成本和可应用 校正规则的潜在成本,限制对特里数据结构的遍历。
在一个实施例中,特里分支的递归处理:如果字符串的累积成 本低于预定阈值,则被全部执行;限制于与输入图样中的有效位置 的字符相匹配的、或者处于可应用显著校正规则中的字符来执行; 或者,如果不存在这些字符,则不被执行。
除了校正规则外,该方法优选地应用包括每个都与成本相关的 插入、删除、或替换之一的字符的基本过渡(transition)。
可以针对输入图样中的字符转置(transposition)的所有可能应 用自动生成校正规则。优选地,可应用于输入图样中的字符的校正 规则是在开始遍历之前确定的。
优选地,通过待处理的字符位置来对可应用校正规则做索引。 通过待处理的字符位置做索引可以包括允许在串中进行预定数量的 插入或删除字符。
该方法可以包括:确定候选的近似匹配并且使用累积成本作为 候选匹配的权重。
该方法还可以包括:确定近似部分匹配,其中部分匹配的长度 比输入图样的长度短;以及保留(save)部分匹配,其中累积成本作 为用于对与输入图样的右手匹配的遍历的开始成本。对复合字的右 手匹配的遍历可以开始于部分匹配的末端位置的字符位置。该方法 可以包括:重复(iterate)经过存在部分匹配的所有位置并且使用所 保留的累积成本作为用于右手侧匹配遍历的开始点。任何的完全右 手侧匹配都可以与所有的左手侧部分匹配结合。左手侧部分匹配也 可以被结合。
用于一个或多个部分匹配的累积成本可以用于编译对右手侧查 找的最佳用例场景。校正规则可以跨越字部的附属点而应用。
向量处理可以用于同时执行针对偏移范围的校正。
根据本发明的第二方面,提供了一种用于输入图样与特里数据 结构的近似串匹配的数据结构,包括:针对输入图样的字符的每个 可应用校正规则的数据结构元素,该元素由字符位置做索引;由字 符位置做索引的成本矩阵,其中,成本矩阵在特里数据结构的遍历 期间被更新,以反映所应用的校正规则的累积成本。
字符位置可以由所处理的字符的数量以及插入或删除字符的偏 移一起来确定。可以为用于对字符的多个可应用校正规则的字符位 置提供多个数据结构元素。对应于校正规则的输出中的字符的数量 来叠置多个数据结构元素。所叠置的数据元素可以反向链接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200880014162.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:在气流床气化中直接冷却粗煤气
- 下一篇:分离聚合物淤浆