[发明专利]一种面向Deep Web的自适应增量数据采集方法有效
申请号: | 201910215453.9 | 申请日: | 2019-03-21 |
公开(公告)号: | CN109977285B | 公开(公告)日: | 2023-03-10 |
发明(设计)人: | 裘嵘;杨俊杰;张祖平;罗律 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/906 |
代理公司: | 长沙轩荣专利代理有限公司 43235 | 代理人: | 张勇 |
地址: | 410000 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 deep web 自适应 增量 数据 采集 方法 | ||
本发明公开了一种面向Deep Web的自适应增量数据采集方法,包括以下步骤:步骤1:对给定的结构化的DeepWeb数据源进行多个周期的全量采集;步骤2:利用位于本地数据仓库的初始收集到的数据进行数据源聚类;步骤3:分别统计各个类别中数据源的数量,得到抽样数据源的采样数据;步骤4:对采样数据进行分析预测;步骤5:调度器根据对各数据源s的下载概率的计算,在每个数据采集周期选择平均下载概率最高的类,并调度下载器进行数据下载,将增量更新的结果加入到本地数据仓库;步骤6:在每一个数据采集周期结束后,需要对各次下载结果进行评估(计算的值),用于在步骤4中影响数据源s的采集概率
技术领域
本发明涉及计算机技术领域,尤其涉及一种面向Deep Web的自适应增量数据采集方法。
背景技术
近二十多年来,互联网随着通信技术的迅速发展而蓬勃壮大,它在当今时代的高度普及与广泛应用使网络(Web)成为世界上信息体量最大的可公开访问数据库,作为大数据时代的一座信息巨矿,蕴含在网络中的信息资源却完全没有被充分有效地挖掘并利用。
网络数据挖掘的用途十分广泛,根据挖掘对象和目的的不同,可以将其分为被网络内容挖掘、网络结构挖掘、网络使用挖掘等,网络内容挖掘主要是从网页或搜索结果页面的文档内容及描述中提取隐含知识并理解文档的内容和结构,网络结构挖掘则主要是通过分析页面之间的连接,分析各个页面的权重并提取网站结构的相关信息,网络使用挖掘分为一般访问模式跟踪和个性化访问模式跟踪,使用数据挖掘的技术分析理解用户的访问模式和访问趋势。
通过Web获取和访问信息,传统的方式是通过Baidu、Google及Bing这类的标准搜索引擎来进行内容检索,这些通过超链接互相连接并能够被通用搜索引擎索引到的网络部分被称之为浅网(Surface Web),这部分网络信息比较容易获取,但在通常情况下,其内容的结构化程度不高,信息主题分散,而信息量更丰富、结构化程度更好、主题性更强的网络信息通常在浅网之下,这部分的网络被称为深网(Deep Web)。深网的信息数据通常存储在网络数据库(Web Database),网络数据库是指那些在互联网中只能通过网络查询接口访问到的数据库资源,因此,获取深网的数据内容只能通过向网络数据库提交查询表单得到。
网络爬虫是数据技术搜集信息的基础,常用自动访问和爬取网站数据内容,通过爬取目标网站或网络数据库的资料,就可以分析和建立应用了。传统的通用爬虫只能爬取浅网站点的静态页面,通过逆向分析的手段或使用标准的基于浏览器自动化测试框架(如selenium和PhantomJs)也能对浅网站点的动态页面的内容进行采集,对于只能通过在查询接口提交查询表单的方式访问的深网资源却无能为力。同时,提交一次查询表单只能返回一次结果页面,这显然不能满足在网络资源爆炸式增长的情况下,对不断更新的互联网资源进行可持续性获取的要求。而且网络数据的更新与增长速度是高度动态变化的,对于许多应用场景来说,网络信息的无规律频繁更新,给信息的及时获取与同步造成困难,因此及时监控并保持与动态更新的网络数据的同步更新是当今网络数据挖掘中一个重要的挑战。
对于可持续信息采集,通常分为全量采集和增量采集,全量采集对所以目标页面进行完全的数据采集,虽然这种采集方式能够获得更加全面的数据,但是这种采集方式由于资源消耗特别大,所有每次只能在一个较长的时间周期内重复工作采集数据,这种周期等待会导致获取到的信息具有很大的滞后性。而实践效果比较好的是增量爬虫技术,增量爬虫采集效率高,采集时间灵活,能够更好地保持网络数据内容的时新性。
目前已有的增量爬虫主要分为两种:一种为设置爬虫固定周期定时重爬,但是web资源的更新具有不确定性,爬虫效率依赖极度对人为设定的周期值,如果周期时间设定过长,则不能保证爬取到的资源的新鲜度,如果周期值设定过低,虽然能够保持采集到数据的时新性,对网络带宽和硬件资源的浪费以及对资源提供者的服务器的负担也是巨大的。另一种根据历史爬取记录,计算网页的更新周期,并根据该周期设置重爬时间,但是由于DeepWeb数据源的动态性与自治性,仅根据一段时期的历史记录计算得出的固定更新周期显然是不可靠的。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910215453.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种机票购买失败原因的诊断方法
- 下一篇:基于内容的信息检索方法