[发明专利]一种Web环境下的字符串相似度的分析方法无效

专利信息
申请号: 200910011738.7 申请日: 2009-05-27
公开(公告)号: CN101561813A 公开(公告)日: 2009-10-21
发明(设计)人: 于戈;申德荣;朱命冬;寇月;聂铁铮;王振华 申请(专利权)人: 东北大学
主分类号: G06F17/30 分类号: G06F17/30;G06F17/22
代理公司: 沈阳东大专利代理有限公司 代理人: 李运萍
地址: 110004辽宁省*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 web 环境 字符串 相似 分析 方法
【说明书】:

技术领域

发明属于计算机Web数据库领域,特别适用于Web数据库集成系统重复记录识别过程中两条记录相似度的判定。

背景技术

在web环境中,对于需要进行相似度匹配的字符串,常常会遇到拼写错误、关键词顺序颠倒、缩写词或省略词匹配等情况,导致应用于web环境下的字符串相似度分析方法面临很多困难。因为典型的常用字符串相似度分析方法通常只针对某一特定情况。如:Levenshteindistance较适合于拼写错误,Jaro distance metric较适合于缩写词或省略词识别。在应用中,常常需要人工来判断何种环境下使用什么样的算法。然而,web环境中多是半结构和无结构数据,具体字符串的类型不容易判断,因此无法保证应用已有字符串匹配算法计算的字符串匹配的准确度。

Levenshtein Distance算法是首先由俄国科学家提出。在该方法中,求两字符串之间的相似度的基本步骤如下:首先,建立编辑距离矩阵,然后,依次由左向右,由上向下计算矩阵单元的值,最后,矩阵中最右下矩阵单元的值即为两字符串的编辑距离。该算法为较传统的算法,优点为过程简单,易于使用,但对逆序,缩写词匹配时效果不太好。

著名的Smih-Waternan算法,是在传统的Levenshtein distance基础上改进的算法。其基本步骤和Levenshtein Distance算法只在计算矩阵单元值时不同。Smih-Waternan算法通过引入删除补偿、插入补偿和替换补偿三个参数来计算矩阵单元值。当矩阵中所有的矩阵单元计算过以后,矩阵中最右下的矩阵单元值即为要计算的两个字符串的编辑距离。该算法主要适用于寻找局部相似序列对,其缺点是对于逆序词效果不太好。

字符串相似度的Jaro分析方法的主要思想是计算两个字符串σ1和σ2的Jaro距离为:,其中|σ1|,|σ2|分别为两个字符长度,c为两字符串中的“公共子串”长度,t为替换总数,替换总数计算方法为:将σ1中的第i个公共字符与σ2中的第i个字符做比较,若做比较的两个字符不相同则进行一次替换。该算法的优点是计算速度较快,对缩写词的识别准确率较高。但该算法仅适合缩写词普遍存在的场合,对不是缩写词进行比较时常常将两词的相似度错误提高,导致失真。

发明内容

为了解决已有技术的不足,本发明提供一种应用于Web环境具有适应性的字符串相似度分析方法——Ajusted-edit distance分析方法,能很好地处理web中经常出现的省略、缩写和字符顺序颠倒情况。

本发明的分析方法步骤如下:

步骤1.定义基本操作代价,由删除字符代价,插入字符代价,替换字符代价组成。其中:

删除字符代价cost(a—>ε),表示删除字符a的代价;

插入字符代价cost(ε—>a),表示插入字符a的代价;

替换字符代价cost(a—>a)和cost(a—>b),分别表示用字符a替换字符a的代价和用字符a替换字符b的代价;

步骤2.字符串预处理,包括识别词首字符和去除非实义字符。其中,词首字符指字符串中第一个实义字符或字符串中非实义字符后的第一个实义字符;非实义字符是指不具有实际意义的字符,包括空格、逗号、括号。

步骤3.计算距离矩阵,通过创建匹配索引实现字符串中字符位置的交换,进而优化编辑距离。

其中,匹配索引是指将一个字符串以最小代价的编辑操作序列转换成另一个字符串的过程中,原本被插入或删除的字符通过改变字符顺序能够以更小的代价进行替换的字符的索引。在进行实际交换之前,需要先计算一下两个字符串的距离变化,只有当距离变化小于0时才进行位置交换。

创建匹配索引方法的步骤如下:

A.计算两个字符串的距离矩阵;

B.将所有代价为0的字符对添加到匹配索引中;

C.通过距离矩阵选出一个代价最小的替换方案;

D.过滤匹配索引中在转换方案中已经采用的代价为0的替换方案;

E.过滤匹配索引中包含在其他索引对中出现的字符的索引对

F.结束

优化编辑距离的具体公式如下:

ed′(x,y)=ed(x,y)+distanceChange

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200910011738.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top