[发明专利]一种面向Deep Web的自适应增量数据采集方法有效
申请号: | 201910215453.9 | 申请日: | 2019-03-21 |
公开(公告)号: | CN109977285B | 公开(公告)日: | 2023-03-10 |
发明(设计)人: | 裘嵘;杨俊杰;张祖平;罗律 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/906 |
代理公司: | 长沙轩荣专利代理有限公司 43235 | 代理人: | 张勇 |
地址: | 410000 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 deep web 自适应 增量 数据 采集 方法 | ||
1.一种面向Deep Web的自适应增量数据采集方法,其特征在于,包括以下步骤:
步骤1:对给定的结构化的DeepWeb数据源进行多个周期的全量采集;
步骤2:利用位于本地数据仓库的初始收集到的数据进行数据源聚类;
步骤3:分别统计各个类别中数据源的数量,采用分层抽样的方法计算每个类别按照一定比例需要抽取的样本数量,然后向下载器发出采样请求,得到抽样数据源的采样数据;
步骤4:对所述采样数据进行分析预测;
其中,步骤4进一步包括:对于一个特定的数据源s,其历史数据更新频率为λs,假定T为其下一次发生更新的时间,则T的概率密度函数为:
因此数据源s在时间段(0,t]内更新可能性,即概率分布函数为:
而对于调度器来说,下载数据源s的概率取决与两个因素:前几次数据采集周期中的平均更新可能性以及在前几次采集周期中根据结果评估计算得到的调节系数因此,数据源s在接下来n次数据采集周期中被下载的概率使用如下方法计算,假定根据前k次数据采集周期计算:
其中α为反馈调节系数,用于决定反馈调节的权重大小,rp,i为每次采集时两个不同的连续版本中的实际更新率,wi是根据数据更新概率计算的历次更新的权重值;
步骤5:调度器根据对各数据源s的下载概率的计算,在每个数据采集周期选择平均下载概率最高的类,并调度下载器进行数据下载,将增量更新的结果加入到本地数据仓库;
步骤6:在每一个数据采集周期结束后,需要对各次下载结果进行评估,计算的值,用于在步骤4中影响数据源s的采集概率
2.如权利要求1所述的方法,其特征在于,步骤2进一步包括:聚类时所用到的数据特征为内容特征、网址特征和链接关系特征;内容特征包括数据内容的标题,内容的类型,内容的长度,图表的数量;网址特征包括网址的深度,url的长度;链接关系特征包括外链网址的数量和内链网址的数量。
3.如权利要求2所述的方法,其特征在于,步骤2进一步包括:提取数据仓库中所有数据的上述特征将数据描述为特征向量,通过无监督的K-Means聚类算法对数据源进行聚类。
4.如权利要求3所述的方法,其特征在于,所述步骤5进一步包括:
各个类C的平均下载概率的计算公式如下:
其中SC为类别C在所述步骤3中得到的数据抽样。
5.如权利要求4所述的方法,其特征在于,所述步骤6进一步包括:
由步骤4可知的值取决于rp,i,对于不同的数据源s,rp,i的计算方法如下:
上述公式中,a为数据源s在连续多个采集周期中都没有被下载的次数,b为数据源s在连续多个采集周期中都被下载其都发生数据更新的次数,上述方法计算出的值将被直接反馈于增量采集系统,并在下一次数据采集周期之前被纳入下一轮的数据采集预测计算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910215453.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种机票购买失败原因的诊断方法
- 下一篇:基于内容的信息检索方法