[发明专利]一种对互联网数据进行采集的方法在审

专利信息
申请号: 201611044724.1 申请日: 2016-11-24
公开(公告)号: CN106776787A 公开(公告)日: 2017-05-31
发明(设计)人: 王利鑫;王洪添 申请(专利权)人: 山东浪潮云服务信息科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 济南信达专利事务所有限公司37100 代理人: 孟峣
地址: 250100 山东省济南市高*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 互联网 数据 进行 采集 方法
【说明书】:

技术领域

发明涉及计算机应用技术领域,具体地说是一种实用性强、对互联网数据进行采集的方法。

背景技术

大数据指通过一般的软件工具无法获取管理和分析的大批量数据。当前时代已进入大数据时代,与互联网的发明一样,引发了一场新的信息技术领域的浪潮。通过大数据能够帮助行业分析,为企业带来新的商业价值与机会,同时也为企业的IT系统提出了挑战。而要获取来自互联网的数据,就必须开发一种数据采集服务方法并提供相应的技术支持。

互联网网页数据具有分布广、格式多样、非结构化等大数据的特点,因此需要用特定的方式对互联网页面的数据进行采集、加工和存储等工作。互联网网页数据采集就是一个获取互联网网页内容的过程,一般通过网络爬虫抓取,但是现有的抓取过程中经常会出现重复抓取相同URL、抓取后的数据重复、抓取数据之间匹配度不高的情况,基于此,现提供一种对互联网数据进行采集的方法,通过分析从网页中抽取出用户需要的数据内容,并对抽取出来的数据内容通过内容和格式的转换和加工处理,存储用以满足用户的需求。

发明内容

本发明的技术任务是针对以上不足之处,提供一种实用性强、对互联网数据进行采集的方法。

一种对互联网数据进行采集的方法,其实现过程为:

首先爬取url队列,为web爬虫提供需要抽取数据的网站url地址,即将需要抽取数据的网站url存入爬取url队列中;

web爬虫从爬取url队列中获取需要抽取数据的网站的url信息;

web爬虫从对应的url页面中获取对应的页面内容并抽取出用户需要的数据信息;

web爬虫把抽取到的数据写入数据库中;

设计数据处理模块,通过该数据处理模块对数据库中的数据进行处理。

Web爬虫依据用户事前配置好的规则进行数据采集工作,该配置好的规则包括网页下载规则、网页解析规则以及内容抽取规则。

数据处理模块对数据进行处理的过程包括:

链接过滤,判断当前链接是否在已经抓取过的链接集合里;

数据排重,排重即排除掉重复项,网页排重通过比较两个页面之间的相似度来排除重复项;

数据整合,将采集到的数据通过关键字建立对应关系,即关键字之间的匹配。

链接过滤的具体实现过程为:对于每一个抓取过的url,通过i个hash函数计算,得到i个值,然后与一个bit数组的i个位置的元素相互对应,在判断某个url是否被抓取过时,首先用i个hash函数对该url计算得到i个值,再查询大型的bit数组内的i个位置的值,若全为1说明已经被抓取过,否则为未抓取过。

数据排重通过以下算法实现:输入一个N维向量V,输出一个C位的二进制签名S;初始化一个C维向量Q为零,C位的二进制签名S为零;对向量V中的每一个特征用Hash算法得到一个C位的散列值H;若H第i位是1,则Q的第i个元素加该元素的权重,否则,减去该元素的权重;若Q的第i个元素大于0,则S的第i位为l否则为0;返回签名S;通过计算并判断两个签名的海明距离,小于3则可认为相似度比较高。

数据整合就是将处理后的网页内容用一组关键字进行描述,这些关键字可以使用该网页使用频率最高的若干个词汇,经过关键字处理后进行匹配达到数据整合的目的。

本发明的一种对互联网数据进行采集的方法,具有以下优点:

本发明提供的一种对互联网数据进行采集的方法,在正常爬取网络数据时,通过链接过滤、数据排重和整合的数据处理方式,将数据进行处理,剔除重复的数据,避免重复抓取,数据相互之间整合匹配度高,从而更好的满足用户需求,实用性强,适用范围广泛,易于推广。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

本发明的一种对互联网数据进行采集的方法,首先依据用户事前配置好的规则进行数据采集工作,包括网页下载规则和网页解析规则以及内容抽取规则等。

在本发明中,互联网网页大数据采集和处理的过程主要包括4个方面内容:

1)web爬虫。从网络中抓取页面内容,从中抽取需要的数据内容。

2)数据处理。对web爬虫抽取的内容进行处理。

3)爬取url队列。为web爬虫提供需要抽取数据的网站url地址。

4)数据。数据包含三个方面:①需要抓取的数据网站的url信息、②web从网页中抽取出来的数据、③经过数据处理的数据。

整个互联网页面数据采集和处理的流程如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东浪潮云服务信息科技有限公司,未经山东浪潮云服务信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611044724.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top