[发明专利]基于并行编程模式的相似网页去重系统无效
申请号: | 200910061694.9 | 申请日: | 2009-04-17 |
公开(公告)号: | CN101645082A | 公开(公告)日: | 2010-02-10 |
发明(设计)人: | 李瑞轩;丁益斌;文坤梅;陈珊珊;辜希武;卢正鼎;靳延安;郑鹏;赵勇 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 华中科技大学专利中心 | 代理人: | 曹葆青 |
地址: | 430074湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出的基于并行编程模式的相似网页去重系统,包括网页内容预处理模块、网页特征向量提取模块、网页特征指纹计算模块、网页指纹在线去重模块、网页指纹分布式批处理去重模块、基于特定分布式计算平台。该系统能够完成对网络爬虫爬行获得的网页进行文本内容编码的统一转换、文档结构的规范化、舍弃网页噪声内容和分析识别网页的主题内容、连续文本内容的词项切分等环节、形成能够代表网页的特征向量。针对该向量可以使用相关的算法得到代表网页特征的网页指纹。本发明设计提出的系统在互联网海量数据量的情况下,准确、快速地探测由于网站镜像和网络文档转载等因素造成的网页内容完全重复或近似重复,并完成相应的去重工作,从无提高搜索引擎的存储效率,给搜索引擎带来更好的用户体验。 | ||
搜索关键词: | 基于 并行 编程 模式 相似 网页 系统 | ||
【主权项】:
1、一种基于并行编程模式的相似网页去重系统,其特征在于:该系统包括网页内容预处理模块(100)、网页特征向量提取模块(200)、网页特征指纹计算模块(300)、网页指纹在线去重模块(400)和网页指纹分布式批处理去重模块(500);网页内容预处理模块(100)用于处理原始的HTML网页文本数据,包括对网页文本内容和语法结构的规范化,处理后的结果仍然为HTML网页文本数据,并提供给网页特征向量提取模块(200);网页特征向量提取模块(200)对预处理后的网页文本数据进行网页特征向量提取操作;它首先识别单张网页中的网页语义块,对识别出来的网页语义块中的文本内容进行分词,提取网页主题内容,得到网页特征向量,并发送给网页特征指纹计算模块(300);网页特征指纹计算模块(300)根据接收到的网页特征向量,计算代表单个网页特征的网页指纹,根据不同的工作模式,选择发送给网页指纹在线去重模块(400)或网页指纹分布式批处理去重模块(500);网页指纹在线去重模块(400)在系统处于在线处理模式时,处理判断单个网页指纹是否在已有的原始海量网页指纹中存在近似重复的指纹人,如果存在完全重复或者近似重复的网页指纹,即可从网页库中删除该网页的内容;网页指纹分布式批处理去重模块(500)在系统处于分布式批处理模式下,对原始海量网页指纹和输入的批量的指纹进行比对,识别出近似重复的网页指纹对,如果存在完全重复或者近似重复的网页指纹,即从网页库中删除该网页的内容。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200910061694.9/,转载请声明来源钻瓜专利网。
- 上一篇:金片与植绒混合电脑刺绣机
- 下一篇:针床插片的隔片