[发明专利]一种通用的网络社区可信分布式采集存储系统有效
申请号: | 201811126541.3 | 申请日: | 2018-09-26 |
公开(公告)号: | CN109446441B | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 吴旭;吴海涛;段思澍;许晋;颉夏青 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F16/951 |
代理公司: | 北京辰权知识产权代理有限公司 11619 | 代理人: | 刘广达 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 通用 网络 社区 可信 分布式 采集 存储系统 | ||
一种通用的网络社区可信分布式采集存储系统,包括:分布式数据采集框架、快速开发框架、可信框架以及数据存储框架,其中,所述分布式数据采集框架采用了多元异构的形式,用于分布式并行的数据采集;所述快速开发框架包括多种快速开发模块,用于实现对系统的快速开发;所述可信框架包括多种性质验证模块,用于实现对数据采集过程中的多种性能的保证以及对存储数据的多种性能进行验证;所述数据存储框架包括多种数据存储模块,用于对多种复杂结构数据进行存储。本发明不但解决了现有爬虫框架中缺乏对数据可信性验证的问题,还针对结构复杂的数据设计了多种存储模块用于实现对其的有效存储;通过快速开发框架,使得开发过程更加方便和快速。
技术领域
本发明涉及网络信息采集存储领域,特别是涉及了一种通用的网络社区可信分布式采集存储系统,用于可信的数据获取与有效的数据存储。
背景技术
随着互联网的高速发展,互联网这一高度开放的平台带给传统媒体颠覆性的变革,越来越多的社会民众通过网络来表达自己的态度、观点和意见,获取和研究社会民众发表的观点意见对于及时发现热点话题和跟踪事件趋势具有了越来越重要的现实意义。如果想要获得这些信息,就需要专业的信息采集手段了。
网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
一般来说,爬虫都会包含四个组件:下载组件、url(Uniform Resource Locator)统一资源定位符调度组件、内容抽取组件和结果处理组件。图1展示的是目前较常用的开源爬虫框架WebMagic的架构图,可以看出WebMagic很好的实现了上述四个组件的功能,但也可以看出这类爬虫框架的不足:
缺乏有效的针对复杂结构数据的采集存储方案;缺乏对整个框架的可信性论证,包括数据采集的可持续性、实时性、完整性和真实性的论证。
发明内容
本发明的目的是通过以下技术方案实现的一种通用的网络社区可信分布式采集存储系统,包括:分布式数据采集框架,采用多元异构的形式进行构建,用于分布式的数据并行采集;快速开发框架,具有多种快速开发模块,用于可信分布式采集存储系统的快速开发;可信框架,具有多种性质验证模块,用于连续的、实时的、完整的获取数据,并对获取的数据进行真实性验证,保障存储数据的真实性;数据存储框架,具有多种数据存储模块,用于对多种类型数据进行存储。
优选的,所述分布式数据采集框架具体包括:网页采集模块,用于对目标网络的页面进行爬取,获取统一资源定位符;接口调用模块,用于根据网络请求调用对应的接口,实现对统一资源定位符的分析;数据包捕获模块,用于快速的采集目标网络的页面内容。
优选的,所述快速开发框架包括,快速开发部分和手动开发部分,其中,所述快速开发部分具体包括:队列管理模块、网页下载模块、数据存储模块以及页面分析模板,用于提供现成的开发模块,实现快速开发;所述手动开发部分具体包括:网页分析模块,用于结合所述快速开发部分进行手动开发,进而实现对网络页面的可控分析。
更优选的,所述队列管理模块采用Redis数据库进行构建,具有Key-Value式存储形式,用于对所述统一资源定位符进行管理。
更优选的,所述对统一资源定位符进行管理包括:从网页采集模块中获取统一资源定位符,并对获取的统一资源定位符进行标记;以及向多个可信分布式采集存储系统分配统一资源定位符。
更优选的,所述网页下载模块用于根据所述队列管理模块中的统一资源定位符,对相应的网络页面进行网络页面内容下载。
优选的,所述多种性质验证模块包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811126541.3/2.html,转载请声明来源钻瓜专利网。