[发明专利]基于映射-化简和分词及邻接排序去重方法有效

申请号：	201110090766.X	申请日：	2011-04-12
公开（公告）号：	CN102163226A	公开（公告）日：	2011-08-24
发明（设计）人：	尹建伟;苏伟兵;吴朝晖;邓水光;李莹;吴健	申请（专利权）人：	浙江大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	杭州裕阳专利事务所(普通合伙) 33221	代理人：	江助菊
地址：	310027 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于映射分词邻接排序方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及到基于Map-Reduce分布式框架下的高效数据去重方法，该方法基于Map-Reduce分布式框架，以分词排序编辑距离的相似度匹配方法作为字段相似度方法、以邻接排序方法（SNM）为记录的去重方法，能够有效地提高计算机去重的运行效率。

背景技术

随着互联网的快速发展，互联网已经成为最为流行的信息发布媒体，已经发展成为一个全球的、巨大的、分布和共享的信息空间。网络也迅速崛起成为一种重要的交换和信息传播的手段，WEB上也出现了丰富的数据资源。网络也成为人们获取信息的重要途径，但是随着互联网的爆破式增长，人们为了得到自己所需的信息，不得不花费大量的时间和精力来浏览、搜索自己需要的信息，从而诞生了很多搜索引擎来帮助人们索引查找相关的网页。它事先将搜索到的页面进行检索，通过用户给定关键词来查找相关的网页，返回给用户，但是搜索引擎只能查找到与用户关键词相关的信息，却不能代替用户提取出用户最需要的信息。搜索引擎返回的页面包含了大量与关键字无关的其他内容，返回结果的准确性也存在问题；用户需要从页面中通过人工的方式提取信息，对不用来源的信息进行比对时需要浏览大量的网页，极大地增加了用户的工作量和负担。

为了解决上述问题，需要一种能够快速、准确地从海量数据里面提取有效信息的技术手段来帮助用户完成这项工作。信息融合系统可以代替人们完成上述工作，信息融合系统从不同的数据来源来抽取出人们关心的信息反馈给用户。信息融合系统运用WEB信息抽取技术代替用户从网页中抽取出用户感兴趣的信息。WEB信息抽取技术获取网页数据并以结构化的形式组织数据，从而可以给第三方应用程序或者用户提供一种结构化数据表现形式，也使得利用WEB中相关数据变为可能。

但是在运用信息抽取技术进行信息抽取时抽取获得的数据存在着数据大量重复的问题，在实践中对淘宝网进行信息抽取时共有样本798个，但是通过网络爬虫抓取页面和对抓取的页面进行信息抽取时获得到5689个抽取结果，其中存在着大量的数据重复，具体分析这些信息重复的主要原因为：

1. 完全相同的数据出现在不同的网页中：由于网页中对于物品分类的标准不同，导致相同的信息分类出现在不同的页面中，在对不同的网页进行信息抽取时就得到完全相同的数据信息。例如在淘宝网上有“三星手机”与“1000元以上”这两个分类标准就导致两个集合之间存在着交集。

2. 表述不同，但是信息内涵相同的数据：不同的信息表述不同的数据的方式是不相同的，因此在信息系统中就需要识别出同一内容的不同表现形式。

并且由于信息来源很大程度上来源于互联网，而互联网上的信息非常的浩繁和巨大，采用现有的单机运行框架已经无法高效地处理海量信息。

发明内容

本发明针对现有技术的不足，提出一种基于Map-Reduce分布式框架下的高效数据去重方法，该方法基于Hadoop（“海盗框架”）的Map-Reduce分布式框架下采用SNM（邻接排序方法）方法的基础上的一种分词排序的邻接排序去重方法（SSNM方法）。

为了解决上述技术问题，本发明的技术方案包括以下步骤：

基于Map-Reduce和分词及邻接排序去重方法，包括以下步骤：

1）用户在客户端输入自己需要查询信息的关键字；

2）服务器端获取步骤1）中用户输入的的关键字；

3）所述服务器端通过应用编辑距离方法对关键字进行分词，对分词结果进行排序后得到字符串，最后计算出所述关键字中每两个字段间字符串间的编辑距离；

4）将步骤3）中所述排序后的字符串作为关键字进行排序，将此结果应用于记录去重方法的排序；