[发明专利]一种对互联网数据进行采集的方法在审
申请号: | 201611044724.1 | 申请日: | 2016-11-24 |
公开(公告)号: | CN106776787A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 王利鑫;王洪添 | 申请(专利权)人: | 山东浪潮云服务信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南信达专利事务所有限公司37100 | 代理人: | 孟峣 |
地址: | 250100 山东省济南市高*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 互联网 数据 进行 采集 方法 | ||
技术领域
本发明涉及计算机应用技术领域,具体地说是一种实用性强、对互联网数据进行采集的方法。
背景技术
大数据指通过一般的软件工具无法获取管理和分析的大批量数据。当前时代已进入大数据时代,与互联网的发明一样,引发了一场新的信息技术领域的浪潮。通过大数据能够帮助行业分析,为企业带来新的商业价值与机会,同时也为企业的IT系统提出了挑战。而要获取来自互联网的数据,就必须开发一种数据采集服务方法并提供相应的技术支持。
互联网网页数据具有分布广、格式多样、非结构化等大数据的特点,因此需要用特定的方式对互联网页面的数据进行采集、加工和存储等工作。互联网网页数据采集就是一个获取互联网网页内容的过程,一般通过网络爬虫抓取,但是现有的抓取过程中经常会出现重复抓取相同URL、抓取后的数据重复、抓取数据之间匹配度不高的情况,基于此,现提供一种对互联网数据进行采集的方法,通过分析从网页中抽取出用户需要的数据内容,并对抽取出来的数据内容通过内容和格式的转换和加工处理,存储用以满足用户的需求。
发明内容
本发明的技术任务是针对以上不足之处,提供一种实用性强、对互联网数据进行采集的方法。
一种对互联网数据进行采集的方法,其实现过程为:
首先爬取url队列,为web爬虫提供需要抽取数据的网站url地址,即将需要抽取数据的网站url存入爬取url队列中;
web爬虫从爬取url队列中获取需要抽取数据的网站的url信息;
web爬虫从对应的url页面中获取对应的页面内容并抽取出用户需要的数据信息;
web爬虫把抽取到的数据写入数据库中;
设计数据处理模块,通过该数据处理模块对数据库中的数据进行处理。
Web爬虫依据用户事前配置好的规则进行数据采集工作,该配置好的规则包括网页下载规则、网页解析规则以及内容抽取规则。
数据处理模块对数据进行处理的过程包括:
链接过滤,判断当前链接是否在已经抓取过的链接集合里;
数据排重,排重即排除掉重复项,网页排重通过比较两个页面之间的相似度来排除重复项;
数据整合,将采集到的数据通过关键字建立对应关系,即关键字之间的匹配。
链接过滤的具体实现过程为:对于每一个抓取过的url,通过i个hash函数计算,得到i个值,然后与一个bit数组的i个位置的元素相互对应,在判断某个url是否被抓取过时,首先用i个hash函数对该url计算得到i个值,再查询大型的bit数组内的i个位置的值,若全为1说明已经被抓取过,否则为未抓取过。
数据排重通过以下算法实现:输入一个N维向量V,输出一个C位的二进制签名S;初始化一个C维向量Q为零,C位的二进制签名S为零;对向量V中的每一个特征用Hash算法得到一个C位的散列值H;若H第i位是1,则Q的第i个元素加该元素的权重,否则,减去该元素的权重;若Q的第i个元素大于0,则S的第i位为l否则为0;返回签名S;通过计算并判断两个签名的海明距离,小于3则可认为相似度比较高。
数据整合就是将处理后的网页内容用一组关键字进行描述,这些关键字可以使用该网页使用频率最高的若干个词汇,经过关键字处理后进行匹配达到数据整合的目的。
本发明的一种对互联网数据进行采集的方法,具有以下优点:
本发明提供的一种对互联网数据进行采集的方法,在正常爬取网络数据时,通过链接过滤、数据排重和整合的数据处理方式,将数据进行处理,剔除重复的数据,避免重复抓取,数据相互之间整合匹配度高,从而更好的满足用户需求,实用性强,适用范围广泛,易于推广。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本发明的一种对互联网数据进行采集的方法,首先依据用户事前配置好的规则进行数据采集工作,包括网页下载规则和网页解析规则以及内容抽取规则等。
在本发明中,互联网网页大数据采集和处理的过程主要包括4个方面内容:
1)web爬虫。从网络中抓取页面内容,从中抽取需要的数据内容。
2)数据处理。对web爬虫抽取的内容进行处理。
3)爬取url队列。为web爬虫提供需要抽取数据的网站url地址。
4)数据。数据包含三个方面:①需要抓取的数据网站的url信息、②web从网页中抽取出来的数据、③经过数据处理的数据。
整个互联网页面数据采集和处理的流程如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东浪潮云服务信息科技有限公司,未经山东浪潮云服务信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611044724.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置